pdfocr: reconocimiento de caracteres para archivos PDF

Supongamos que escaneamos un texto usando un escáner o que nos bajamos de Internet un archivo PDF en el que cada página es una imagen, entonces mientras no le pasemos un OCR (Optical Character Recognition), sólo tendremos una imagen (o varias) sobre la que no podremos realizar búsquedas o seleccionar parte del texto.

Si estamos en alguno de estos casos, podemos usar pdfocr. Se trata un programa que partiendo de un archivo PDF genera uno nuevo al que le añade una capa de texto por lo que si lo imprimimos lo veremos igual que el original pero ahora podemos buscar texto o seleccionarlo.

Para instalar pdfocr podemos ejecutar el siguiente comando en un terminal (Aplicaciones > Accesorios > Terminal):

sudo add-apt-repository ppa:gezakovacs/pdfocr && sudo aptitude update && sudo aptitude install pdfocr

Una vez instalado podemos pasarle el OCR a cualquier archivo PDF que tengamos con el siguiente comando:

pdfocr -i entrada.pdf -o salida.pdf

Donde entrada.pdf será el archivo PDF al que queremos añadirle la capa de texto para poder buscar en él y salida.pdf será el archivo que obtendremos. Si no te encuentras en la carpeta correspondiente, no olvides de añadirle la ruta.

También podemos indicar que use un idioma distinto del inglés para el OCR con la opción -l (ele). En nuestro caso, para el español sería con spa:

pdfocr -i entrada.pdf -o salida.pdf -l spa

Para ver la lista completa de idiomas que soporta cuneiform ejecuta:

cuneiform -l

Si el archivo PDF no indica la resolución, pdfocr la establecerá a 300 y esto implicará que las búsquedas no encontrarán el texto correctamente (estará desplazado).

Vía: Ubuntu forums

4 Responses to “pdfocr: reconocimiento de caracteres para archivos PDF”


  1. 1 Cherry.deb Miércoles, 9 junio 2010 a las 12:36 am

    Hola:

    Este programa también funciona con imágenes .jpg, png, etc?

  2. 2 quervi Miércoles, 9 junio 2010 a las 6:04 am

    que tal.

    como puedo instalar esta aplicación en otra distribución de linux como archlinux por ejemplo ?????


  1. 1 BlogESfera.com Trackback en Martes, 8 junio 2010 a las 5:23 pm
  2. 2 Google Docs añade un OCR para archivos PDF e imágenes « Slice of Linux Trackback en Viernes, 25 junio 2010 a las 10:27 am

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s




Síguenos en Twitter

 

Sitios amigos:

Si has leído nuestro Acerca de, sabes que no publicamos ningún artículo práctico que no hayamos probado. Aún así, no podemos garantizar que en tu sistema funcione como en el nuestro.

Esta página no es de soporte. Compartimos lo que sabemos, pero si resolviésemos todas las dudas que recibimos, no podríamos hacer artículos nuevos. Por eso, si alguien plantea un problema, y sabes la respuesta, siéntete libre para comentarla.

Si tienes una duda y no obtienes respuesta, puedes recurrir a sitios específicos como ubuntu-es.org o Linux Q.

Creative Commons License
Esta obra está bajo una licencia de Creative Commons.


A %d blogueros les gusta esto: