Imagens (em jpeg, jpg, bmp, gif, png, etc ...) e PDFs digitalizados têm uma coisa em comum: não permitem selecionar, copiar e extrair o texto presente neles. Portanto, se você tiver um documento digitalizado ou uma imagem contendo um texto muito importante que você precisa modificar ou copiar, a única solução possível é fazer uso de um programa OCR.
Um programa de OCR é uma ferramenta que possui uma tecnologia de reconhecimento óptico de caracteres interna, uma tecnologia muito útil para reconhecer e extrair texto de imagens ou PDF digitalizado. Um dos melhores programas nesta área é definitivamente Elemento PDF, que já vimos em funcionamento no guia sobre como extrair texto de um documento PDF.
PDFElement é compatível com computadores Windows e Mac e está disponível em uma versão “profissional” que inclui tecnologia OCR, útil para extrair texto de imagens ou documentos digitalizados. Vamos ver abaixo como funciona e como é simples extrair texto de imagens.
Como extrair texto de imagens ou PDF digitalizado
Etapa 1. Baixe e instale PDFElement no seu computador
Aqui estão os links de onde você pode baixar a versão demo totalmente gratuita:
Depois de instalar e iniciar o programa, você verá a seguinte tela inicial:
Etapa 2. Importe a imagem digitalizada ou PDF
Clique no canto inferior esquerdo ABRIR ARQUIVO ... e selecione a imagem digitalizada ou o arquivo pdf. Para nossos testes e para este artigo, criamos especialmente uma imagem JPEG (via “Paint”) e colocamos algum texto dentro dela. Depois que a imagem foi carregada no programa, aqui está o que apareceu:
Passo 3. Executar função OCR
Como você pode ver na figura acima, o programa detecta automaticamente que se trata de uma imagem e pergunta se você deseja realizar o OCR para reconhecer o texto na imagem. Ao clicar em EXECUTAR OCR primeiro você terá que selecionar o idioma do texto e, em seguida, iniciar a varredura. Durante a varredura, este pop-up aparecerá informando que você deve esperar até que o procedimento seja concluído:
Passo 4. Extração de texto
Após o OCR, magicamente, todo o texto contido na imagem (ou no PDF digitalizado) será "editável" Ou seja, você pode copiá-lo, modificá-lo, excluí-lo, destacá-lo, etc ...
Neste ponto, você pode salvar tudo em formato PDF ou em Word, Excel, PowerPoint (da seção INÍCIO basta clicar no ícone do formato de saída desejado).
uma ferramenta online grátis? Não consigo baixar nada
-
Experimente: https://pdftotext.com/
Mas não sei se suporta PDFs digitalizados ...
você foi muito claro, vou experimentar o programa, depois vou relatar o resultado. Obrigado
Eu ainda não experimentei vou te contar