
El formato más utilizado para envío de documentación profesional entre plataformas para que todos puedan ver exactamente el mismo documento no importando si tienen o no el tipo de letra o el programa compatible es sin ninguna duda el Portable Document Format, creado por Adobe ya hace algunos años, pero con esas ventajas vienen algunas desventajas, como el hecho de que no se puede editar de fabrica. Existen mil y un aplicaciones para trabajar con ellos y extraer desde la información hasta las imágenes, pero muchas de ellas son aplicaciones de pago o de prueba, pero al menos en el sistema operativo Linux existen opciones no solo gratuitas sino poderosas para realizar esas operaciones.
El soporte al PDF en Linux es muy amplio, pudiendo ejecutar operaciones como extracción de texto, encriptación, desencriptación o como en el caso que nos ocupa, la extracción de imágenes. Este caso lo acabo de tener en el trabajo, un documento de páginas escaneadas que venían en desorden en el PDF y volverlo a generar (todo ello se puede hacer desde la misma línea de comandos) los paquetes necesarios son xpdf-utils y imagemagick el primero brinda soporte para algunas de las operaciones más comunes con esos archivos, el segundo es el potente editor de imágenes de línea de comando, con el primero extraje las imágenes que presenta en dos formatos el pbm si son imágenes monocromáticas y ppm si son imágenes y si no se le especifica que se extraigan los jpg de manera directa. En el caso de los archivos pbm salen las imágenes en negativo por lo que es necesario aplicarles una edición para lo que usamos imagemagick, si son archivos ppm no existe ese problema.
Esta operación es la misma que tendrían muchos que realizar para extraer las “páginas” de comics que consigan en jpg como para poner un ejemplo, convertirlo a un formato como CBR o CBZ.
Aunque estas instrucciones son muy sencillas generé un script para automatizar el proceso, y se los presento comentado a continuación. Este script puede servir para adecuarlo a otras operaciones, luego mostraré un script para realizar OCR a documentos PDF apoyados en Tesseract.
Todas estas instrucciones se pueden realizar desde terminal sin necesidad de utilizar el script, en el viene explicado que hace cada línea
#!/bin/bash
# requiere de xpdf-utils imagemagick
# Extrae las imágenes de un archivo pdf indicado desde la terminal como un parametro, el -j es para que extraiga los jpg directo sin convertirlos a ppm
pdfimages -j $1 ${1/.pdf}
# Verifica si los archivos son pbm (monocromaticos)
if [ -f ${1/.pdf}-000.pbm ]
then
# Si los archivos son monocromaticos estos estarán en negativo
for i in $( ls *.pbm); do
# Aplica negativo a las imágenes y las convierte a jpg
convert -negate $i ${i/.pbm}.jpg
done
# Borra los archivos pbm
rm *.pbm
fi
Popularity: 2% [?]
Mucho se ha estado hablando acerca de la nueva red de Google, tanto que pareciera que cualquier otra noticia en comparación de este límitado lanzamiento no existiera, lo cierto es que cualquier proyecto del gigante de Mountain View es cubierto desesperadamente por los medios eléctronicos, pero parece que esta vez al menos tienen mucha razón en darle una cobertura amplia.
