Tecnología OCR y digitalización de documentos

Las siglas OCR son el acrónimo en inglés de Optical Character Recognition, cuya traducción sería «Reconocimiento Óptico de Caracteres». Esta tecnología está estrechamente relacionada con la digitalización de documentos, multiplicando su utilidad y efectividad.

Podemos entender la digitalización de documentos como un proceso en 3 fases: escaneado de papel, reconocimiento de caracteres y archivo digital. Esta colección de procesos es lo que denominamos genéricamente archivo digital de documentos en nuestro catálogo de productos.

Escaneado de papel

El primer paso del proceso consiste en convertir los trazos dibujados en papel (letras, números, imágenes) en un archivo de imagen digital. El documento digital que se genera es una colección de puntos (píxeles) con un color asignado a cada uno de ellos. Con esa información de color para cada punto, es posible guardar y reconstruir la imagen, simplemente leyendo y mostrando todos esos puntos de colores en forma de imagen mediante cualquier software de visualización.

Los archivos que se generan en este primer proceso pueden almacenarse en diversos formatos más o menos comprimidos (jpg, png, tiff…) en los que se conserva el aspecto exacto que tenía el papel original, pero sólo podría guardarse como una foto que habría que volver a mirar para leer su contenido.

Si nos quedamos en este punto podemos remplazar nuestro archivo en papel por un archivo digital, pero ese archivo digital funcionaría de forma muy parecida al papel a efectos de consulta de la información que contiene. Podemos guardar cada documento con un identificador, pero para acceder a los datos escritos habría que abrirlo y verlo de nuevo.

Reconocimiento óptico de caracteres (OCR)

La tecnología OCR resuelve el paso más difícil del proceso, pero también el de mayor valor añadido. Esta tecnología es capaz de transformar la imagen de cada papel en información (texto) a través de un complejo algoritmo de tratamiento y comparación de imágenes. Este proceso se subdivide en 4 fases.

Transformación a blanco y negro

En un primer momento, el sistema ha de transformar todos los píxeles de la imagen a los colores blanco y negro. Cualquier píxel originalmente blanco o muy próximo al blanco se quedará como fondo y cualquier píxel que se aleje del blanco suficientemente (sea del color que sea) se interpretará como negro.

Lo que se consigue de este modo es que las imágenes que aparezcan en el documento queden representadas como manchas negras, mientras que los números y letras quedarán definidas con un contorno muy nítido frente al fondo blanco. A partir de aquí el software puede diferenciar lo que es texto de lo que no lo es, y tendrá más fácil la identificación de cada letra y número al eliminar muchas de las imprecisiones del escáner.

Fragmentación de la imagen

Una vez tenemos la imagen en blanco y negro puros, viene la parte más complicada del proceso que consiste en dividir los textos en trozos que correspondan a palabras y letras. Se trata de un proceso sencillo para la mente humana, casi trivial, pero resulta muy complejo para una máquina, que habrá de basarse en los tamaños de los espacios entre figuras (letras, números o símbolos) que todavía no se han identificado como tales.

Adelgazamiento de caracteres

Una vez aisladas las figuras individuales, es necesario perfilar de la forma más perfecta posible sus contornos para que las formas resultantes sean lo más perfectas y sencillas posible.

Es importante recordar que toda la información digital que estamos tratando proviene a su vez de una imagen impresa (con imperfecciones) y escaneada (con más imperfecciones) en papel. Todo ese ruido que se introduce en la impresión y escaneado habrá que minimizarlo para que el reconocimiento no falle después.

Comparación con patrones de letras

Una vez que la imagen está totalmente depurada, con sus caracteres individualizados, separados y nítidos, llega el momento de comparar cada uno de ellos con los abecedarios de muestra que incluye el software.

Se trata de un proceso iterativo en el que cada caracter se compara con todos los posibles hasta encontrar la máxima coincidencia, de forma que se puede identificar qué letra es cada una y asignarle su identificación digital.

El objetivo de todo este proceso es el posterior tratamiento de la imagen no como foto, sino como información tratable y editable. Si el reconocimiento de caracteres funciona correctamente, estaremos convirtiendo en información tratable e indexable no solamente cada documento como un conjunto de píxeles, sino toda la información que realmente contiene, lo que nos permite buscar dentro de los documentos por palabras o combinaciones de letras y nos da una accesibilidad total a la información.

Archivo digital de documentos

Una vez se ha reconocido toda la información de cada documento, llega el momento de organizar en bibliotecas todo lo que se va escaneando. Este último paso es tan importante como los anteriores y permitirá que la información quede perfectamente clasificada para su posterior utilización, garantizando además su integridad.

Todos estos procesos requieren de un importante esfuerzo tecnológico, además de un complemento humano muy especializado para hacer que todo fluya a la velocidad adecuada y sin errores. A día de hoy, sigue siendo imprescindible la supervisión visual de los resultados para garantizar que no hay fallos.

Teniendo en cuenta la inversión que implica en medios técnicos y el coste que supone en términos de tiempo, la mayoría de empresas suelen contar con un especialista externo como 60dias para realizar todas estas tareas, optimizando sus procesos internos y facilitando el trabajo de su propia administración.

El resultado es una colaboración en la que la empresa evita incorporar las máquinas, software y personal que sería necesario, mientras que el proveedor externo, totalmente especializado en la tarea, cuenta con todos los medios técnicos, licencias, certificados, así como la experiencia necesaria para realizar la digitalización de forma óptima y eficiente.

Imágenes: Stocksnap.io