Extraer metadatos de PDF's en GNU/Linux

La gente de Informática64, con Chema Alonso a la cabeza creó hace tiempo una herramienta muy útil, foca, que entre otras muchas cosas permite extraer los metadatos de ficheros, entre ellos ficheros pdf. El problema que presenta esta herramienta es que sólo es compatible con entornos Windows, y por lo tanto para obtener los metadatos de ficheros en GNU/Linux, la cosa se complica.
Los metadatos son aquellos datos que describen a otros datos. En un fichero pdf, por ejemplo, un metadato es aquella información extra que describe al fichero, como por ejemplo, el autor, la fecha, el programa de creación, la dirección de correo, el número de páginas, etc.
Desde GNU/Linux, podemos obtener también dicha información de forma muy sencilla con el comando pdfinfo.
shell> pdfinfo guia_seguridad_pymes.pdf 
Title:        Microsoft Word - Guia Seguridad Final v definitiva.doc
Author:       eustasio.viviente
Creator:      PScript5.dll Version 5.2
Producer:     GPL Ghostscript 8.15
CreationDate: Mon May 29 10:54:47 2006
ModDate:      Mon May 29 10:54:47 2006
Tagged:       no
Pages:        84
Encrypted:    no
Page size:    595.22 x 842 pts (A4)
File size:    2249639 bytes
Optimized:    no
PDF version:  1.3
Como se puede observar, los metadatos de este fichero nos dan información del autor, del título e incluso del programa que se usó para crear el fichero. Como vemos, una información bastante interesante.
Aquí otro ejemplo, éste con menos metadatos,
shell> pdfinfo Proyecto\ Fin\ de\ Posgrado.pdf
Title:        
Subject:      
Keywords:     
Author:       
Creator:      PDFCreator Version 0.9.8
Producer:     GPL Ghostscript 8.64
CreationDate: 
ModDate:      
Tagged:       no
Pages:        22
Encrypted:    no
Page size:    595 x 842 pts (A4)
File size:    126687 bytes
Optimized:    no
PDF version:  1.4

Con esta información, hacer un pequeño programita que lance una búsqueda de ficheros PDF para una organización y extraiga sus metadatos no es algo demasiado complicado y es fácilmente scriptable. En breves intentaré hacer una pequeña prueba de concepto que haga lo descrito de forma sencilla, empleando búsquedas avanzadas en Google.


No hay comentarios :

Publicar un comentario

Formulario de contacto

Nombre

Correo electrónico *

Mensaje *

Últimos comentarios