OCR y extraccion documental
BiVelio integra capacidades de OCR (Reconocimiento Optico de Caracteres) que permiten digitalizar documentos fisicos, extraer texto de imagenes y obtener datos estructurados de cualquier tipo de documento.
Proceso de OCR
Deteccion automatica
Cuando un documento se sube a BiVelio (manualmente o via ChannelHub), el sistema detecta automaticamente si requiere procesamiento OCR:
- PDFs con texto embebido — se indexan directamente sin OCR
- PDFs escaneados (imagen) — se procesan con OCR para extraer texto
- Imagenes (JPG, PNG, TIFF) — se procesan con OCR
- Documentos de texto — se indexan directamente
Pipeline de procesamiento
Documento recibido
→ Deteccion de tipo (texto vs imagen)
→ Si imagen: OCR → extraccion de texto
→ Indexacion para busqueda de texto completo
→ (Opcional) Agente IA → extraccion de datos estructurados
→ Datos disponibles en el sistemaExtraccion inteligente de datos
La capa de IA sobre el OCR permite ir mas alla de la extraccion de texto: interpreta el contenido y genera datos estructurados utilizables por el sistema.
Tipos de documentos soportados
| Tipo de documento | Datos extraidos |
|---|---|
| Facturas | Emisor, NIF, fecha, conceptos, importes, IVA, total |
| Albaranes | Proveedor, productos, cantidades, fecha de entrega |
| DNI / Pasaporte | Nombre, apellidos, numero de documento, fecha nacimiento, nacionalidad |
| Contratos | Partes, objeto, condiciones principales, fechas, clausulas clave |
| Formularios | Campos rellenados con sus valores (estructura adaptativa) |
| Recibos | Establecimiento, fecha, importes, metodo de pago |
| Certificados | Entidad emisora, beneficiario, datos certificados, vigencia |
Nivel de confianza
Cada dato extraido incluye un nivel de confianza (0-1) que indica la fiabilidad de la extraccion:
- 0.90 - 1.00 — alta confianza, dato fiable
- 0.70 - 0.89 — confianza media, revisar recomendado
- < 0.70 — baja confianza, revision manual necesaria
BiVelio marca automaticamente los campos con confianza inferior a 0.70 para que un operador los revise antes de utilizar los datos.
Integracion con el sistema
Los datos extraidos por OCR se integran automaticamente con los modulos de BiVelio:
Con expedientes
- Documentos adjuntos a expedientes se procesan automaticamente
- Los datos extraidos se asocian al expediente como metadatos
- Busqueda de texto completo en documentos OCR desde el expediente
Con CRM
- Datos de contacto extraidos de tarjetas de visita o documentos se sugieren para crear contactos
- Documentos de identidad asociados a fichas de contacto
Con facturacion
- Facturas de proveedores procesadas automaticamente
- Datos fiscales extraidos y verificados
- Registro contable sugerido basado en los datos extraidos
Con workflows
- El agente invocable Data Extractor puede usarse en nodos de workflow
- Procesamiento automatizado de documentos en lote
- Validacion de datos extraidos mediante nodos Decision
Consumo de creditos
| Operacion | Creditos |
|---|---|
| OCR basico (extraccion de texto) | 1 credito |
| OCR + extraccion estructurada (agente IA) | 2-5 creditos |
| Procesamiento por lote (>10 documentos) | Descuento del 20% en creditos |
Idiomas soportados
El motor OCR soporta multiples idiomas para la extraccion de texto:
- Espanol, Catalan, Ingles, Frances, Portugues, Italiano, Aleman
- Deteccion automatica del idioma del documento