OCR y extraccion documental

BiVelio integra capacidades de OCR (Reconocimiento Optico de Caracteres) que permiten digitalizar documentos fisicos, extraer texto de imagenes y obtener datos estructurados de cualquier tipo de documento.

Proceso de OCR

Deteccion automatica

Cuando un documento se sube a BiVelio (manualmente o via ChannelHub), el sistema detecta automaticamente si requiere procesamiento OCR:

PDFs con texto embebido — se indexan directamente sin OCR
PDFs escaneados (imagen) — se procesan con OCR para extraer texto
Imagenes (JPG, PNG, TIFF) — se procesan con OCR
Documentos de texto — se indexan directamente

Pipeline de procesamiento


Documento recibido
  → Deteccion de tipo (texto vs imagen)
  → Si imagen: OCR → extraccion de texto
  → Indexacion para busqueda de texto completo
  → (Opcional) Agente IA → extraccion de datos estructurados
  → Datos disponibles en el sistema

Extraccion inteligente de datos

La capa de IA sobre el OCR permite ir mas alla de la extraccion de texto: interpreta el contenido y genera datos estructurados utilizables por el sistema.

Tipos de documentos soportados

Tipo de documento	Datos extraidos
Facturas	Emisor, NIF, fecha, conceptos, importes, IVA, total
Albaranes	Proveedor, productos, cantidades, fecha de entrega
DNI / Pasaporte	Nombre, apellidos, numero de documento, fecha nacimiento, nacionalidad
Contratos	Partes, objeto, condiciones principales, fechas, clausulas clave
Formularios	Campos rellenados con sus valores (estructura adaptativa)
Recibos	Establecimiento, fecha, importes, metodo de pago
Certificados	Entidad emisora, beneficiario, datos certificados, vigencia

Nivel de confianza

Cada dato extraido incluye un nivel de confianza (0-1) que indica la fiabilidad de la extraccion:

0.90 - 1.00 — alta confianza, dato fiable
0.70 - 0.89 — confianza media, revisar recomendado
< 0.70 — baja confianza, revision manual necesaria

BiVelio marca automaticamente los campos con confianza inferior a 0.70 para que un operador los revise antes de utilizar los datos.

Integracion con el sistema

Los datos extraidos por OCR se integran automaticamente con los modulos de BiVelio:

Con expedientes

Documentos adjuntos a expedientes se procesan automaticamente
Los datos extraidos se asocian al expediente como metadatos
Busqueda de texto completo en documentos OCR desde el expediente

Con CRM

Datos de contacto extraidos de tarjetas de visita o documentos se sugieren para crear contactos
Documentos de identidad asociados a fichas de contacto

Con facturacion

Facturas de proveedores procesadas automaticamente
Datos fiscales extraidos y verificados
Registro contable sugerido basado en los datos extraidos

Con workflows

El agente invocable Data Extractor puede usarse en nodos de workflow
Procesamiento automatizado de documentos en lote
Validacion de datos extraidos mediante nodos Decision

Consumo de creditos

Operacion	Creditos
OCR basico (extraccion de texto)	1 credito
OCR + extraccion estructurada (agente IA)	2-5 creditos
Procesamiento por lote (>10 documentos)	Descuento del 20% en creditos

Idiomas soportados

El motor OCR soporta multiples idiomas para la extraccion de texto:

Espanol, Catalan, Ingles, Frances, Portugues, Italiano, Aleman
Deteccion automatica del idioma del documento