Skip to Content
IA y AgentesOCR y extraccion

OCR y extraccion documental

OCR processing pipeline

BiVelio integra capacidades de OCR (Reconocimiento Optico de Caracteres) que permiten digitalizar documentos fisicos, extraer texto de imagenes y obtener datos estructurados de cualquier tipo de documento.

Proceso de OCR

Deteccion automatica

Cuando un documento se sube a BiVelio (manualmente o via ChannelHub), el sistema detecta automaticamente si requiere procesamiento OCR:

  • PDFs con texto embebido — se indexan directamente sin OCR
  • PDFs escaneados (imagen) — se procesan con OCR para extraer texto
  • Imagenes (JPG, PNG, TIFF) — se procesan con OCR
  • Documentos de texto — se indexan directamente

Pipeline de procesamiento

Documento recibido → Deteccion de tipo (texto vs imagen) → Si imagen: OCR → extraccion de texto → Indexacion para busqueda de texto completo → (Opcional) Agente IA → extraccion de datos estructurados → Datos disponibles en el sistema

Extraccion inteligente de datos

La capa de IA sobre el OCR permite ir mas alla de la extraccion de texto: interpreta el contenido y genera datos estructurados utilizables por el sistema.

Tipos de documentos soportados

Tipo de documentoDatos extraidos
FacturasEmisor, NIF, fecha, conceptos, importes, IVA, total
AlbaranesProveedor, productos, cantidades, fecha de entrega
DNI / PasaporteNombre, apellidos, numero de documento, fecha nacimiento, nacionalidad
ContratosPartes, objeto, condiciones principales, fechas, clausulas clave
FormulariosCampos rellenados con sus valores (estructura adaptativa)
RecibosEstablecimiento, fecha, importes, metodo de pago
CertificadosEntidad emisora, beneficiario, datos certificados, vigencia

Nivel de confianza

Cada dato extraido incluye un nivel de confianza (0-1) que indica la fiabilidad de la extraccion:

  • 0.90 - 1.00 — alta confianza, dato fiable
  • 0.70 - 0.89 — confianza media, revisar recomendado
  • < 0.70 — baja confianza, revision manual necesaria

BiVelio marca automaticamente los campos con confianza inferior a 0.70 para que un operador los revise antes de utilizar los datos.

Integracion con el sistema

Los datos extraidos por OCR se integran automaticamente con los modulos de BiVelio:

Con expedientes

  • Documentos adjuntos a expedientes se procesan automaticamente
  • Los datos extraidos se asocian al expediente como metadatos
  • Busqueda de texto completo en documentos OCR desde el expediente

Con CRM

  • Datos de contacto extraidos de tarjetas de visita o documentos se sugieren para crear contactos
  • Documentos de identidad asociados a fichas de contacto

Con facturacion

  • Facturas de proveedores procesadas automaticamente
  • Datos fiscales extraidos y verificados
  • Registro contable sugerido basado en los datos extraidos

Con workflows

  • El agente invocable Data Extractor puede usarse en nodos de workflow
  • Procesamiento automatizado de documentos en lote
  • Validacion de datos extraidos mediante nodos Decision

Consumo de creditos

OperacionCreditos
OCR basico (extraccion de texto)1 credito
OCR + extraccion estructurada (agente IA)2-5 creditos
Procesamiento por lote (>10 documentos)Descuento del 20% en creditos

Idiomas soportados

El motor OCR soporta multiples idiomas para la extraccion de texto:

  • Espanol, Catalan, Ingles, Frances, Portugues, Italiano, Aleman
  • Deteccion automatica del idioma del documento