articulos utiles

¿Cómo creo un archivo de búsqueda de PDF?

En la columna de consejos técnicos de esta semana en Goldavelez.com, sigan enviando sus preguntas, amigos, estamos ayudando a un lector que tiene demasiados documentos importantes que necesitan hacer una transición mágica al ámbito digital. Al menos, eso suena mucho más emocionante que el "Reconocimiento óptico de caracteres", que realmente no sale de la lengua.

El lector de Goldavelez.com, Phil, escribe:

Gracias por las amables palabras, Phil! Estoy feliz de ayudar, no por los halagos, sino porque su pregunta es una en la que muchos lectores probablemente han pensado (incluido yo mismo). Tengo un montón de cosas que me encantaría trasladar del mundo físico al mundo digital, por lo que luego puedo olvidar a Marie Kondo los documentos y fotos originales. Las pilas de papel no me traen alegría.

Tienes algunas opciones que puedes probar. Comenzaría con una obvia: Google. Suponiendo que está creando archivos PDF, suba sus archivos a Google Drive. Haga clic con el botón derecho en cualquier PDF individual, desplace el mouse sobre "Abrir con" y seleccione "Google Docs". Google intentará ejecutar un OCR en su PDF, y debería poder guardar el archivo resultante como un documento. Luego puede buscar a través de este documento (y cualquier otro que convierta) a través de Drive.

Sin embargo, cuanto más lo pienso, esa solución parece un poco poco elegante dada la cantidad de archivos con los que tiene que trabajar. En cambio, podría probar un software como TesseractStudio.Net, o solo Tesseract OCR, si no temes a la línea de comandos. Debería poder usar esto para crear datos de OCR a partir de sus archivos, y luego puede buscarlos directamente a través de Windows o macOS. OCRmyPDF es otra opción similar a Tesseract OCR, pero, nuevamente, jugará con comandos escritos para aplicar OCR a sus archivos. No hay GUI, ni hay soporte (directo) de Windows.

También hay Paperwork, una herramienta de catalogación de documentos de código abierto que viene con OCR integrado, que definitivamente consideraría dado que está diseñada para ser un software todo en uno para archivar, ordenar y buscar documentos. Parece que puede ser justo lo que estás buscando.

No he usado PDF-XChange Viewer, pero otros lo han recomendado como una opción. La versión gratuita colocará marcas de agua en sus archivos PDF, pero puede crear archivos PDF a partir de imágenes y, si estoy en lo correcto, agregar OCR a estos archivos PDF existentes que tenga. Vale la pena explorar, incluso si no es la solución ideal (gratuita). Del mismo modo, FreeOCR puede tomar sus imágenes o archivos PDF, aplicar OCR y exportar los resultados como archivos de texto sin formato o documentos de Word. Si no le importa buscar en sus archivos de esa manera, es una opción.

En cuanto a las soluciones pagas, siempre hay Adobe Acrobat Pro o Foxit PhantomPDF . Ambos le permitirán agregar OCR a archivos PDF, y debería poder procesar todos sus documentos como un gran lote (o crear un script que lo haga con el contenido de una carpeta). Incluso podría hacer todo esto durante las pruebas gratuitas de las aplicaciones, si no ponen limitaciones a sus capacidades de OCR. También he visto a otros con su problema particular encontrar el éxito usando una aplicación como PDF OCR, que podría ser una alternativa más barata.

Eso es todo lo que puedo pensar fuera de mi cabeza (y con un poco de investigación). Con suerte, una de esas soluciones funciona para usted, sin costarle una pequeña fortuna. ¡Escríbeme y déjame saber qué aplicación funcionó mejor para ti!

Tech 911 ¿Tienes una pregunta técnica que te mantenga despierto por la noche? ¡Nos encantaría responderlo! Correo con "Tech 911" en la línea de asunto.