background image

– 1 – 

 

Manual de escaneo, procesamiento y OCR 

Por jparra par

Ajedrez, Mi Pasión

, 2012-08-01 

 

1.  Principios generales de escaneo y OCR 

Un escáner no es más que una fotocopiadora que, en vez de realizar una copia en papel, transforma 

cada página en un archivo de imagen, es decir, exactamente  igual que ocurriría si sacáramos una 
fotografía a la página con una cámara fotográfica. Por tanto, aunque nosotros veamos letras y palabras, 
cada página está formada realmente por un conjunto de “píxeles” (negros, en gris o en color) sin ningún 
significado especial.

 

 Para convertir esta imagen en un texto (formado por letras, números y otros caracteres que se podrán 

“copiar y pegar” como cualquier texto normal y corriente), es necesario realizar un proceso denominado 
Reconocimiento Óptico de Caracteres, que abreviadamente se conoce por sus siglas en inglés OCR 
(Optical Character Recognition).

 

 Es muy importante dejar claro que si el texto escaneado tiene una calidad deficiente, con letras 

borrosas, que les faltan trazos o incluso que se juntan unas con otras, el programa de OCR será incapaz de 
reconocerlas adecuadamente. Esto producirá por ejemplo que al copiar y pegar el texto una vez realizado 
el proceso de OCR, aparecerán  caracteres extraños que no tendrán nada que ver con el texto original 
(ejemplos típicos son “ll” que aparecen como “U”, “rr” como “m”, etc.). Por tanto, nunca me cansaré de 
repetir que “LA CALIDAD FINAL DE UN TRABAJO DEPENDE DIRECTAMENTE DE LA 
CALIDAD DEL  ESCANEO INICIAL”
  y  “EL TIEMPO DE PROCESAMIENTO DE UN 
TRABAJO ES INVERSAMENTE PROPORCIONAL A LA CALIDAD DEL ESCANEO”
. Es más 
rentable volver a escanear un libro como es debido, que pasarse semanas o meses arreglándolo para que 
quede medianamente decente.  Claro que no siempre disponemos del libro para poder volver a 
escanearlo… 

Existen diversos programas capaces de realizar el proceso de OCR. Podríamos dividirlos en dos 

grupos: 

a.  Programas que no modifican el contenido de las páginas escaneadas. 

En realidad sólo  añaden  digamos una capa oculta que contiene las letras y caracteres que 
corresponde a la imagen gráfica del texto. Esto es lo que hacen los programas que vienen con el 
escáner o el propio Adobe Acrobat.  Como desventaja, no permiten interaccionar con el texto 
resultante del OCR (salvo copiarlo y pegarlo), es decir, no es posible corregir errores del texto o 
equivocaciones en el propio proceso de reconocimiento automático del texto. 

b.  Programas que modifican el contenido de las páginas escaneadas. 

A diferencia del caso anterior, estos programas sustituyen por completo las imágenes gráficas 
escaneadas por los caracteres de texto y tipos de letra más parecidos a dichas imágenes. Es decir, 
las imágenes escaneadas se sustituyen por texto real que podemos editar, corregir y modificar 
como hacemos normalmente en cualquier editor o procesador de textos. Como desventaja, aun 
conservando la forma y utilizando tipos de letras similares, se pierde un poco la apariencia y la 
magia del libro original. Dos claros ejemplos de este tipo de programas son ABBY FineReader y 
Ommipage (personalmente me quedo con el primero por goleada). 

La ventaja fundamental de ambos tipos de programas es que “permiten reducir drásticamente  el 

tamaño de los archivos correspondientes al original escaneado”. En el primer caso el programa es capaz 
de eliminar gran cantidad de información de las imágenes que forman el documento, ya que sabe 
quedarse solamente con la información correspondiente a la capa de texto obtenida del resultado del 
proceso de OCR, mientras que en el segundo caso en el archivo de salida permanece única y 
exclusivamente el texto obtenido del proceso de OCR, es decir, exactamente un byte por cada carácter del 
texto en el caso del juego de caracteres ASCII o bien dos bytes por cada carácter en el caso de texto 
Unicode.  

background image

– 2 – 

 

2.  La calidad del escaneo, base de todo 

Como ya comenté anteriormente, sin calidad en el escaneo original no se pueden obtener buenos 

resultados ni se pueden hacer milagros. En páginas sueltas o en libros  que abren perfectamente en un 
ángulo de 180º esto no es problema, pero en libros que abren mal o que tienen muy poco margen interior, 
es importante escanear cada página con sumo cuidado.  Ahorrar unos pocos minutos de tiempo en el 
proceso de escaneo sólo sirve para obtener resultados que dan ganas de tirar a la basura… 

Unos sencillos consejos de escaneo que se pueden leer en muchos sitios y foros de Internet son los 

siguientes: 

1)  Si el programa que viene con el escáner no nos convence, yo recomendaría VueScan. Aunque 

seguro que hay muchos otros estupendos. 

2)  En las opciones de escaneo del programa, seleccionar siempre al menos 300 ppp  (puntos por 

pulgada, en inglés dpi="dots per inch"). Nunca menos si no queremos perder calidad del texto. 
Incluso 600  ppp si disponemos de un buen  escáner y no hay mucha diferencia de tiempo de 
escaneo entre una opción y otra. 

Por si acaso necesita aclaración, los “ppp” definen la denominada RESOLUCIÓN  de las 
imágenes escaneadas, exactamente de la misma forma que hablamos de resolución gráfica en una 
pantalla, un televisor, una cámara fotográfica o una impresora. Así, 300 ppp indica que en una 
pulgada (ya sea en vertical u horizontal) se crean 300 píxeles o puntos de la imagen, mientras que 
600 ppp indicaría que en dicha pulgada se crearían 600 píxeles. Obviamente si en el mismo 
espacio se crean el doble de puntos quiere decir que cada punto ha de tener la mitad de tamaño 
para que quepan, o dicho de otra forma, estamos escaneando al doble de resolución. 

3)  Seleccionar la opción de escanear "Documento en escala de grises" para las páginas en blanco y 

negro o en  gris del libro,  y  "Documento en color" para la portada y contraportada  o  bien para 
aquellas páginas con fotos/dibujos en color. 

4)  Como tipo de salida, seleccionar  archivos de imagen en formato TIFF  (Tagged Image File 

Format), para más información 

http://en.wikipedia.org/wiki/Tagged_Image_File_Format

). Pongo 

el enlace en inglés porque, en este caso y como por desgracia ocurre muchas veces, el artículo de 
la Wikipedia en español resulta bastante pobre… 

5)  Si se escanea el libro a doble página, que es lo habitual, es necesario abrirlo  por completo y 

aplastarlo con la mano mientras se escanea para que quede bien pegado al cristal del escáner y no 
queden zonas cortadas, borrosas o curvadas. 

La curvatura de líneas se puede arreglar con Scan Tailor, aunque lleva su tiempo. Los otros 
defectos son prácticamente irreparables (hace falta restaurar los caracteres defectuosos uno a uno 
con un programa  de retoque de imágenes, un arduo trabajo que muchas personas no saben 
apreciar…).  Aunque parezca muy drástico, muchas veces es necesario destrozar un libro para 
poder  abrirlo completamente sobre el cristal del escáner si realmente queremos obtener buenos 
resultados. Una vez escaneado habrá que echar mano del pegamento para arreglar  el libro y 
volver a dejarlo en buenas condiciones... 

6)  Por favor, escanead TODAS las páginas. Si se quiere conservar la estructura de páginas pares a la 

izquierda e impares a la derecha de cualquier libro, no vale la pena saltarse páginas en blanco o 
las páginas de créditos por ahorrar unos minutos de tiempo que no van a ningún sitio... 

Con estos sencillos consejos (que no tienen por qué influir apenas en el tiempo que se tarda en 

escanear un libro, y que, dependiendo de la pericia de cada uno, no suele pasar de 1 ó 2 horas por cada 
100 páginas),  obtendréis escaneos perfectos que luego serán sencillos de reprocesar y proporcionarán 
copias de excelente calidad sin tener que perder horas, días, semanas e incluso meses limpiando puntitos 
y arreglando caracteres mal escaneados. Y recordad: NO IMPORTA EL TAMAÑO DE LAS PÁGINAS 
OBTENIDAS TRAS EL PROCESO DE ESCANEO, LO QUE IMPORTA ES LA CALIDAD  Y LA 
RESOLUCIÓN. La razón de esto se verá a continuación. 

background image

– 3 – 

 

3.  La navaja suiza del reproceso: Scan Tailor 

Una vez escaneado un libro, lo normal es reprocesarlo (esto también se puede realizar a partir de un 

libro en PDF cuyo aspecto final no sea demasiado bueno y queramos mejorarlo). En esta fase se cortan las 
páginas dobles, se endereza el texto, se eliminan posibles rayones, puntos negros y defectos, y se obtienen 
archivos de imagen TIFF para cada página que ocupan muchísimo menos que los archivos TIFF 
originales. 

En mi opinión la mejor herramienta que existe atendiendo a su facilidad de manejo y los resultados 

obtenidos es el programa gratuito Scan Tailor (otra alternativa gratuita es ScanKromsator, pero, aunque 
reconozco que no sé manejarlo, me parece que tiene un aprendizaje más lento). La página oficial de Scan 
Tailor  es 

http://scantailor.sourceforge.net

, y en el apartado "Documentation"  existe  un Wikitutorial en 

ruso e inglés. Lo importante es que en la parte inferior aparece un enlace en la sección en inglés con un 
vídeo que permite aprender a utilizar el programa en pocos minutos. Está en inglés, pero sólo con verlo es 
suficiente (si yo aprendí con él, entonces es que puede aprender cualquiera…). 

A grandes rasgos, estos serían los pasos que hay que llevar a cabo para reprocesar un libro xon Scan 

Tailor: 

1.  Si se desea reprocesar un libro en PDF, desde Adobe Acrobat (u otro programa de tratamientos de 

archivos en PDF) se debe elegir "Guardar como -  Imagen  - TIFF" para obtener los archivos de 
imagen correspondientes a cada página (es decir, como si realmente hubiéramos escaneado el 
libro). 

Hay que crear  y seleccionar una carpeta en nuestro disco duro. Acrobat  creará  un archivo de 
imagen TIFF por cada página. Si en automático no está  seleccionada  la opción de 300  ppp de 
resolución  (118,11 píxeles/cm)  o si el resultado no es el esperado,  basta con borrar  todos los 
archivos creados en la carpeta y volver a generarlos  eligiendo la resolución manualmente  en el 
botón “Configuración”. Incluso a veces es mejor seleccionar 600 ppp (236,22 píxeles/cm), pero 
no siempre ya que si los archivos de imagen son demasiado grandes, Scan Tailor tarda unos 
segundos en procesar cada página y nuestro trabajo se ralentiza. 

2.  Ya en Scan Tailor, elegir "New Project", indicar la carpeta con los archivos y seleccionar todos 

los archivos. A veces Scan Tailor protesta si todas las páginas no tienen la misma resolución, 
siendo necesario indicarla manualmente. 

Luego  mientras estemos trabajando con Scan Tailor iremos guardando el proyecto con "File  - 
Save project" de vez en cuando. Ojo, esto no guarda ningún archivo TIFF, sino un archivo con 
extensión “.scantailor” que almacena las características del proyecto y las modificaciones 
realizadas en las páginas. Por tanto, este archivo se puede guardar en cualquier sitio y con el 
nombre que queráis, aunque lo lógico es darle un nombre similar al título del libro y guardarlo no 
muy lejos de la carpeta con los archivos TIFF originales. 

Por cierto, Scan Tailor ya tiene traducción al español pero a mí me sigue gustando más la versión 
en inglés… 

3.  Ahora viene el trabajo real de procesamiento, que se realiza mediante los 6 pasos o tareas que 

aparecen arriba a la izquierda: 

•  Fix Orientation, para orientar las páginas en horizontal o vertical. No suele ser necesario 

hacer nada manualmente con esta opción, pero siempre es recomendable darles un repaso a 
las páginas por si acaso (las teclas “AvPág/RePág”  permiten ir rápidamente a la 
siguiente/anterior página, e “Inicio” y “Fin” a la primera y última página respectivamente). 

En casi todas las tareas aparecen opciones a la izquierda. En concreto, los botones “Change” 
o “Apply to” permiten por ejemplo aplicar las mismas opciones a todas las demás páginas o 
las siguientes a la página actual, lo cual suele resultar muy útil. 

También os recomiendo que probéis los menús contextuales (botón derecho del ratón) en 
distintas zonas, por ejemplo en el panel central, en las páginas en miniatura de la parte 
derecha, etc. Experimentando se aprende… 

background image

– 4 – 

 

•  Split Pages, para dividir las páginas si se escaneó el libro a doble página. Suele detectarlo 

bien, aunque hay que repasar las páginas y desplazar la barra vertical de separación si fuese 
necesario. 

•  Deskew, para girar las páginas torcidas o inclinadas. Prácticamente siempre lo hace bien. 
•  Select Content, para seleccionar el contenido de cada página, es decir, exclusivamente el 

texto de la página.  No importa dónde esté situado, ya que luego se alineará según sea 
necesario. Suele funcionar bien de forma automática  al 90%, pero a veces no detecta por 
ejemplo bien las cabeceras o números de página, por lo que habrá que repasar las páginas 
desplazando los bordes del cuadro de contenido cuando sea necesario. 

•  Margins, permite definir los márgenes y el tamaño de las páginas. Esta es la opción, en mi 

opinión,  más complicada de ajustar (suelen resultar de gran utilidad las opciones de 
ordenación que aparecen en la parte inferior del panel de páginas en miniatura, que permiten 
ordenar las páginas por tamaño vertical u horizontal). 

Los márgenes son complicados porque la página con mayor tamaño (contando tanto su caja 
de contenido como sus márgenes) determinará el tamaño de todas las demás y por tanto el 
tamaño final del libro. 

Lo normal es poner márgenes cero a la portada/contraportadas  e indicar un cuadro de 
contenido en “Select Content” que ocupe toda la portada/contraportada. De esta forma  la 
portada/contraportada definirá el tamaño final del libro. 

Para las demás páginas  deberemos jugar con los márgenes hasta dar con el adecuado. 
Normalmente yo suelo definir solamente el margen superior (y todos los demás márgenes a 
cero) y selecciono la opción de alinear las páginas arriba centradas horizontalmente. Probad 
y experimentad hasta que le cojáis el truquillo… En cualquier caso luego hay que repasar las 
páginas para comprobar el resultado (y alinear o arrastrar los márgenes por ejemplo para las 
páginas de títulos, de créditos, etc.). 

Si el tamaño de la portada/contraportada no se adecúa al tamaño que deseamos, basta con 
editarlas en un programa de retoque de imágenes y reducir o aumentar su tamaño un cierto 
porcentaje (por ejemplo reducirlas en un 90% o aumentarlas en un 110% de su tamaño). 
Como comento más adelante, yo utilizo para ello Paint Shop Pro, pero cualquier programa 
de retoque permite realizar estas tareas fácilmente. 

•  Output, permite ver el resultado de salida final de cada página y realizar diversos  procesos 

de limpieza. 

4.  En cuanto a este último paso “Output”, aquí realizaremos las tareas de  limpieza  que podrán 

llevarnos una o dos horas, o bien toda una vida para dejar en condiciones un libro que esté muy 
deteriorado. A modo de resumen podemos comentar lo siguiente: 

•  A la izquierda hay que seleccionar la resolución de salida, el modo (blanco y negro, 

color/escala de grises o mixto) y el grosor de los caracteres. Normalmente se utiliza blanco y 
negro 300 ppp, y color con menor resolución para la portada/contraportada (en la subcarpeta 
"out" quedan los archivos TIFF  definitivos  de salida,  y  habrá  que ir disminuyendo la 
resolución de la portada/contraportada para que sus correspondientes archivos no ocupe más 
de por ejemplo 1MB). La opción “Mixto” se utiliza para páginas con fotos o diagramas en 
color o en escala de grises. 

•  A la derecha aparecen varias pestañas, donde la pestaña "Output" muestra el resultado final 

de la página. 

•  La pestaña "Picture zones" permite señalar (o eliminar con el botón derecho) las zonas que 

se consideran imágenes en caso de que indiquemos como salida que las páginas son mixtas y 
no se detecten automáticamente (en el vídeo se ve cómo utilizar esta opción). 

background image

– 5 – 

 

•  La pestaña "Fill zones" permite eliminar manchas negras o añadir trozos de texto que faltan 

(con el botón derecho se elige el color de las zonas de relleno, lo que permite "dibujar" letras 
o líneas borrosas, un trabajo "de chinos" que desmoraliza al más optimista...). 

•  La pestaña "Dewarping" permite enderezar líneas de texto que han salido curvadas porque 

no se abrió bien el libro al escanearlo o bien por estar fotocopiado. Hay que ir arrastrando los 
puntitos de arriba y abajo (o crear nuevos puntitos sin más que hacer clic o borrarlos con la 
tecla “Supr”) para ajustarlos a la línea del texto. Otro trabajito "de chinos"... 

•  La pestaña "Despecklin" sólo muestra qué puntos de la página estamos eliminando con los 

botones de limpieza de la parte izquierda, ya que si elegimos el botón más agresivo podemos 
perder cosas válidas  (por ejemplo,  con la opción más agresiva a veces desaparecen los 
puntos suspensivos "..." del texto). 

5.  Una vez terminado el trabajo, se cierra Scan Tailor, se  seleccionan todos los archivos de la 

subcarpeta "out" y con el botón derecho se selecciona la opción "Combinar archivos en un PDF" 
de Adobe Acrobat. 

Si no disponéis de Adobe Acrobat, tendréis que montarlos con otro programa (por ejemplo 
“i2pdf”) o bien podréis pasarle la carpeta “out” a alguien para que monte el PDF. 

6.  Por último, en Adobe Acrobat ya se puede realizar el proceso de OCR, seleccionar el zoom por 

defecto, crear bookmarks, etc. 

Finalmente cabe mencionar que a veces hay páginas que están tan defectuosas que resulta imposible 

arreglarlas directamente desde Scan Tailor y es necesario editarlas previamente con algún programa de 
retoque de imágenes. Yo utilizo Paint Shop Pro, pero sirve prácticamente cualquiera. Con dicho programa 
coloreo o arreglo la portada y contraportada de los libros, realzo el texto si Scan Tailor no es capaz de 
reconocer todos los trazos adecuadamente, copio y pego caracteres en buen estado sobre otros 
defectuosos, arreglo diagramas de las partidas, etc. Esto es un  trabajo  “de chinos”, por lo que  hay que 
sopesar si realmente merece la pena llevarlo a cabo o es mejor, como ya comenté varias veces, VOLVER 
A ESCANEAR BIEN EL LIBRO (claro que no siempre podemos disponer de él…). 

background image

– 6 – 

 

4.  La opción OCR ClearScan de Adobe Acrobat 

La opción ClearScan de Adobe Acrobat permite, a la vez que se lleva a cabo el proceso de OCR de 

un documento, modificar la representación gráfica de los caracteres del documento sustituyéndolos por un 
tipo de letra vectorial con la que se elimina el conocido “efecto de dientes de sierra” que se aprecia en los 
bordes  de los caracteres al realizar un zoom y acercar el texto del documento. El resultado tanto al 
visualizar el documento como al imprimirlo es impecable y no veo razón alguna para no llevarlo a cabo 
en cualquier libro escaneado, reprocesado y convertido a PDF. 

Para utilizar la opción OCR ClearScan en Adobe Acrobat, basta con: 

1.  Desplegar el menú "Herramientas" (arriba a la derecha). 

2.  Desplegar la opción "Reconocer texto". 

3.  Seleccionar "En este archivo". 

4.  Aquí es recomendable probar a convertir rangos de páginas (por ejemplo, de 50 en 50 o de 100 en 

100, o incluso sólo la página actual) e ir guardando cada modificación con distinto nombre si todo 
va bien (por ejemplo, muchas  veces no queda bien aplicarle ClearScan a la portada  o 
contraportada). 

5.  Otro detalle: las páginas apaisadas quedarán giradas 90º, por lo que es necesario ponerlas como 

estaban con la opción “Rotar página” de Adobe Acrobat. 

6.  En el cuadro "Configuración", hacer clic en el botón Editar". 

7.  Y aquí finalmente hay que desplegar  "Estilo de salida PDF" y seleccionar  "ClearScan"  (con 

idioma Español, Inglés o lo que corresponda, y normalmente con 300ppp). 

Un último consejo: no utilizar la opción "Herramientas  -  Proceso de documentos -  Optimizar PDF 

digitalizado"  (salvo casos excepcionales), y menos aún antes de utilizar la opción de OCR ClearScan. 
Esta opción realiza una optimización automática de las imágenes que componen el documento (de nuevo 
recalcamos el hecho de que una página escaneada no es más que una imagen), y en la mayoría de los 
casos lo único que se consigue es una pérdida de calidad de dichas imágenes. Si a simple vista no se 
aprecia, basta con hacer un zoom para comprobar que el texto original escaneado se ha deteriorado 
notablemente, apareciendo multitud de puntitos y sombras alrededor de los caracteres del texto. 

 

 

 

 


Document Outline