OCR de facturas y albaranes: la plataforma no es el cuello de botella

Casi todas las conversaciones sobre digitalización documental empiezan en el sitio equivocado: en la herramienta que lee el papel. En 2026 leer una factura, un albarán o un pedido en PDF es un problema resuelto — hay diez plataformas que extraen el importe, el NIF y la fecha con una precisión altísima, sin plantillas, sobre formatos que no han visto antes. Comprar una de esas plataformas no es una mala decisión; es una decisión incompleta. Porque leer el documento es, como mucho, el veinte por ciento del trabajo. El cuello de botella real está en los dos extremos que nadie incluye en la demo: lo que pasa antes de que el documento llegue (cuántos de esos documentos no deberían existir siquiera) y lo que pasa después de leerlo (el cotejo, la validación, y que el dato entre limpio en el sistema sin que ninguna persona lo toque). Cuando entramos en una operación documental, ahí es donde está casi todo el valor — y casi nadie lo mira.

Leer el documento ya no es el problema

Vale la pena reconocerlo sin rodeos, porque ahorra discusiones: la tecnología de lectura está madura. Los sistemas actuales de procesamiento inteligente de documentos interpretan facturas de proveedores distintos, albaranes con maquetaciones variables y pedidos en cualquier formato sin que haya que entrenar una plantilla por cada uno. Si tu problema es estrictamente “tengo un PDF y quiero los campos en una tabla”, casi cualquier solución del mercado lo resuelve.

Lo hemos comprobado en producción. Uno de los sistemas que mantenemos digitaliza un catálogo industrial completo —388 páginas de PDF— en una sola ejecución, sin que nadie teclee una línea. Otro lee las ofertas de transporte que llegan por correo electrónico y las deja estructuradas y comparables sin que nadie abra el email. Un tercero procesa documentación a diario, sin intervención humana. En ninguno de los tres el mérito está en “saber leer”. Leer lo da la herramienta. El mérito está en todo lo demás.

El cuello de antes: documentos que no deberían existir

Antes de automatizar la lectura de un documento conviene hacerse una pregunta incómoda: ¿este documento por qué existe? Es la misma pregunta que aplicamos a cualquier paso de un flujo, y con los documentos da resultados igual de sorprendentes.

Una parte de los documentos que una empresa procesa a mano son reentradas de información que ya tiene en otro sitio. El albarán que se vuelve a teclear cuando el pedido ya estaba en el sistema. La hoja de cálculo que alguien rellena copiando datos de un correo que a su vez venía de un portal. El campo extra que un cliente pidió en 2019 y que sigue obligando a un paso de validación manual aunque ese cliente ya no compre. Automatizar la lectura de esos documentos es resolver con tecnología un problema que se resuelve mejor eliminándolo: que el dato no haya que volver a capturarlo porque nunca debió salir del sistema.

Por eso nuestro primer paso en una operación documental nunca es montar el OCR. Es sentarse con quien procesa esos documentos cada día y separar, papel a papel, los que aportan información nueva de los que solo reintroducen información que la empresa ya posee. Los segundos no se automatizan: se quitan. Y lo que queda —los documentos que de verdad traen algo de fuera— es un volumen bastante menor del que el equipo creía. Sobre ese volumen ya menor tiene sentido poner tecnología.

En uno de los sistemas de procesamiento de facturas que pusimos en producción, seis de los pasos del flujo desaparecieron antes de escribir una sola línea de código. No se automatizaron: dejaron de existir. La automatización vino después, sobre un flujo que ya pesaba menos.

El cuello de después: el cotejo y la entrada limpia

Aquí es donde se cae la mayoría de los proyectos de OCR que terminan en un cajón. El sistema lee la factura perfectamente, vuelca los campos en una pantalla… y entonces una persona los revisa, los compara con el albarán, comprueba que el pedido existía, corrige una referencia que no cuadra y los teclea en el ERP. La lectura se automatizó. El trabajo, no.

El cotejo entre lo que dice el documento y lo que dice el sistema es el verdadero cuello de botella, y es donde se concentra el tiempo y donde se cuelan los errores. Que un proyecto documental funcione de verdad significa que el dato leído entra solo en el sistema cuando todo encaja, y que cuando algo no encaja —un importe fuera de rango, un proveedor desconocido, un campo que falta, un formato que cambió— el sistema lo sabe y levanta la mano. Esa es la diferencia entre un OCR y una operación documental que de verdad libera horas: la detección de lo anómalo y el aviso explícito de incertidumbre, para que las personas miren solo lo que merece ser mirado, no cada documento por defecto.

Cuando ese tramo está bien construido, el resultado no es “leemos facturas”. Es que la documentación de entrada se procesa a diario y nadie la toca salvo cuando el propio sistema pide ayuda. Esa es la frase que importa, y es una frase sobre el flujo entero, no sobre el lector. En ese mismo sistema de facturas, el tiempo de proceso por documento pasó de unos cuatro minutos a unos veinte segundos; pero ese número, el que se ve, vino después de los seis pasos que quitamos antes, que no se ven.

Producción, o no ha ocurrido

Hay mucho contenido sobre lo que el OCR con IA podría hacer. Nosotros preferimos contar lo que está corriendo. Tres sistemas distintos, tres tipos de documento —catálogos de cientos de páginas, ofertas de transporte por email, documentación operativa diaria—, todos en producción real y todos con la misma característica: el valor no estuvo en la lectura, sino en haber eliminado los documentos que sobraban y haber construido la entrada para que el dato cayera limpio sin intervención.

La conclusión práctica, si estás evaluando meter OCR en tu operación, es sencilla y va en contra de cómo se vende: no empieces eligiendo plataforma. Empieza contando cuántos de esos documentos no deberían ni llegar, y mirando qué pasa con el dato después de leerlo. La herramienta de lectura la decidirás en una tarde. Lo otro es donde está el proyecto.

¿Cuántos de los documentos que tu equipo procesa a mano traen información que la empresa no tenía ya en algún otro sitio?

Si queréis ver esto sobre vuestro propio flujo documental, así abordamos el procesamiento documental: empezamos separando los documentos que aportan dato nuevo de los que solo lo reintroducen, antes de proponer una sola línea de automatización.