En el siguiente artículo te voy a mostrar como podemos convertir el contenido de un PDF a texto con el comando pdftotext, y poder extraer el contenido con lanzar unos simples comandos desde la terminal.
Pdftotext, esta incluído en el paquete poppler-utils, presente en la mayoría de las distribuciones, pero en el caso que no lo tengas debes instalarlo seguramente esta en los repositorios, acá lo voy a mostrar para Debian.
apt install poppler-utils
USANDO PDFTOTEXT
Una vez instalado debemos lanzar el comando de la siguiente forma:
pdftotext -layout pdf-otiginal.pdf archivo-salida.txt
Otro ejemplo bastante útil es convertir de una determinada página a otra, no todo el documento, por ejemplo de la página 5 a la 10, debemos especificar -f (primer página) y -l (última página).
pdftotext -layout -f 5 -l 10 pdf-otiginal.pdf archivo-salida.txt
Una herramienta muy útil que debes probar.