En el siguiente artículo te voy a mostrar como podemos convertir el contenido de un PDF a texto con el comando pdftotext, y poder extraer el contenido con lanzar unos simples comandos desde la terminal.

Pdftotext, esta incluído en el paquete poppler-utils, presente en la mayoría de las distribuciones, pero en el caso que no lo tengas debes instalarlo seguramente esta en los repositorios, acá lo voy a mostrar para Debian.

apt install poppler-utils

USANDO PDFTOTEXT

Una vez instalado debemos lanzar el comando de la siguiente forma:

pdftotext -layout pdf-otiginal.pdf archivo-salida.txt

Otro ejemplo bastante útil es convertir de una determinada página a otra, no todo el documento, por ejemplo de la página 5 a la 10, debemos especificar -f (primer página) y -l (última página).

pdftotext -layout -f 5 -l 10 pdf-otiginal.pdf archivo-salida.txt

Una herramienta muy útil que debes probar.

Deja un comentario