Las imágenes (en jpeg, jpg, bmp, gif, png, etc…) y los PDF escaneados tienen una cosa en común: no te permiten seleccionar, copiar y extraer el texto presente en ellos. Por lo tanto, si tiene un documento escaneado o una imagen que contiene un texto muy importante que necesita modificar o copiar, la única solución posible es hacer uso de un programa OCR.
Un programa de OCR es una herramienta que tiene una tecnología interna de reconocimiento óptico de caracteres, una tecnología muy útil para reconocer y extraer texto de imágenes o PDF escaneados. Uno de los mejores programas en esta área es definitivamente Elemento PDF, que ya hemos visto en la guía sobre cómo extraer texto de un documento PDF.
PDFElement es compatible con computadoras Windows y Mac y está disponible en una versión “profesional” que incluye tecnología OCR, útil para extraer texto de imágenes o documentos escaneados. Veamos a continuación cómo funciona y lo sencillo que es extraer texto de imágenes.
Cómo extraer texto de imágenes o PDF escaneados
Paso 1. Descargue e instale PDFElement en su computadora
Aquí están los enlaces desde los que puede descargar la versión demo completamente gratuita:
Después de instalar e iniciar el programa, verá la siguiente pantalla de presentación:
Paso 2. Importar la imagen escaneada o PDF
Haga clic en la parte inferior izquierda. ABRIR DOCUMENTO ... y seleccione la imagen escaneada o el archivo pdf. Para nuestras pruebas y para este artículo, hemos creado especialmente una imagen JPEG (a través de "Paint") y hemos puesto algo de texto en su interior. Una vez que esa imagen se cargó en el programa, esto es lo que apareció:
Paso 3. Realizar la función OCR
Como puede ver en la figura anterior, el programa detecta automáticamente que se trata de una imagen y le pregunta si desea realizar OCR para reconocer el texto en la imagen. Haciendo clic en EJECUTAR OCR primero tendrá que seleccionar el idioma del texto y luego iniciar el escaneo. Durante el escaneo, aparecerá esta ventana emergente que le informa que espere hasta que se complete el procedimiento:
Paso 4. Extracción de texto
Después del OCR mágicamente todo el texto contenido en la imagen (o en el PDF escaneado) será "editabile". Es decir, puedes copiarlo, modificarlo, borrarlo, resaltarlo, etc ...
En este punto, puede guardar todo en formato PDF o en Word, Excel, PowerPoint (de la sección INICIO simplemente haga clic en el icono del formato de salida deseado).
una herramienta en línea gratuita? No puedo descargar nada
-
Pruebe esto: https://pdftotext.com/
Pero no sé si admite archivos PDF escaneados ...
fuiste muy claro, probaré el programa, luego reportaré el resultado. Gracias
Aún tengo que probarlo te lo diré