Imagens (em jpeg, jpg, bmp, gif, png, etc ...) e PDFs digitalizados tĂȘm uma coisa em comum: nĂŁo permitem selecionar, copiar e extrair o texto presente neles. Portanto, se vocĂȘ tiver um documento digitalizado ou uma imagem contendo um texto muito importante que vocĂȘ precisa modificar ou copiar, a Ășnica solução possĂvel Ă© fazer uso de um programa OCR.
Um programa de OCR Ă© uma ferramenta que possui uma tecnologia de reconhecimento Ăłptico de caracteres interna, uma tecnologia muito Ăștil para reconhecer e extrair texto de imagens ou PDF digitalizado. Um dos melhores programas nesta ĂĄrea Ă© definitivamente Elemento PDF, que jĂĄ vimos em funcionamento no guia sobre como extrair texto de um documento PDF.
PDFElement Ă© compatĂvel com computadores Windows e Mac e estĂĄ disponĂvel em uma versĂŁo âprofissionalâ que inclui tecnologia OCR, Ăștil para extrair texto de imagens ou documentos digitalizados. Vamos ver abaixo como funciona e como Ă© simples extrair texto de imagens.
Como extrair texto de imagens ou PDF digitalizado
Etapa 1. Baixe e instale PDFElement no seu computador
Aqui estĂŁo os links de onde vocĂȘ pode baixar a versĂŁo demo totalmente gratuita:
Depois de instalar e iniciar o programa, vocĂȘ verĂĄ a seguinte tela inicial:
Etapa 2. Importe a imagem digitalizada ou PDF
Clique no canto inferior esquerdo ABRIR ARQUIVO ... e selecione a imagem digitalizada ou o arquivo pdf. Para nossos testes e para este artigo, criamos especialmente uma imagem JPEG (via âPaintâ) e colocamos algum texto dentro dela. Depois que a imagem foi carregada no programa, aqui estĂĄ o que apareceu:
Passo 3. Executar função OCR
Como vocĂȘ pode ver na figura acima, o programa detecta automaticamente que se trata de uma imagem e pergunta se vocĂȘ deseja realizar o OCR para reconhecer o texto na imagem. Ao clicar em EXECUTAR OCR primeiro vocĂȘ terĂĄ que selecionar o idioma do texto e, em seguida, iniciar a varredura. Durante a varredura, este pop-up aparecerĂĄ informando que vocĂȘ deve esperar atĂ© que o procedimento seja concluĂdo:
Passo 4. Extração de texto
ApĂłs o OCR, magicamente, todo o texto contido na imagem (ou no PDF digitalizado) serĂĄ "editĂĄvel" Ou seja, vocĂȘ pode copiĂĄ-lo, modificĂĄ-lo, excluĂ-lo, destacĂĄ-lo, etc ...
Neste ponto, vocĂȘ pode salvar tudo em formato PDF ou em Word, Excel, PowerPoint (da seção INĂCIO basta clicar no Ăcone do formato de saĂda desejado).
uma ferramenta online grĂĄtis? NĂŁo consigo baixar nada
-
Experimente: https://pdftotext.com/
Mas nĂŁo sei se suporta PDFs digitalizados ...
vocĂȘ foi muito claro, vou experimentar o programa, depois vou relatar o resultado. Obrigado
Eu ainda nĂŁo experimentei vou te contar