Convertir un archivo PDF a texto con la terminal de Linux

Published:

En el siguiente artículo te voy a mostrar como podemos convertir el contenido de un PDF a texto con el comando pdftotext, y poder extraer el contenido con lanzar unos simples comandos desde la terminal.

Pdftotext, esta incluído en el paquete poppler-utils, presente en la mayoría de las distribuciones, pero en el caso que no lo tengas debes instalarlo seguramente esta en los repositorios, acá lo voy a mostrar para Debian.

apt install poppler-utils

USANDO PDFTOTEXT

Una vez instalado debemos lanzar el comando de la siguiente forma:

pdftotext -layout pdf-otiginal.pdf archivo-salida.txt

Otro ejemplo bastante útil es convertir de una determinada página a otra, no todo el documento, por ejemplo de la página 5 a la 10, debemos especificar -f (primer página) y -l (última página).

pdftotext -layout -f 5 -l 10 pdf-otiginal.pdf archivo-salida.txt

Una herramienta muy útil que debes probar.

- Advertisement -
Jorge
Jorgehttps://nksistemas.com
Soy Jorge, Sr Sysadmin Linux/DevOps/SRE y creador de NKSistemas.com Trabajo con plataformas: Linux, Windows, AWS, GCP, VMware, Helm, kubernetes, Docker, etc.

Related articles