Skip to Content
IA i AgentsOCR i extracció

OCR i extracció documental

OCR processing pipeline

BiVelio integra capacitats d’OCR (Reconeixement Òptic de Caràcters) que permeten digitalitzar documents físics, extreure text d’imatges i obtenir dades estructurades de qualsevol tipus de document.

Procés d’OCR

Detecció automàtica

Quan un document es puja a BiVelio (manualment o via ChannelHub), el sistema detecta automàticament si requereix processament OCR:

  • PDFs amb text incrustat — s’indexen directament sense OCR
  • PDFs escanejats (imatge) — es processen amb OCR per extreure text
  • Imatges (JPG, PNG, TIFF) — es processen amb OCR
  • Documents de text — s’indexen directament

Pipeline de processament

Document rebut → Detecció de tipus (text vs imatge) → Si imatge: OCR → extracció de text → Indexació per a cerca de text complet → (Opcional) Agent IA → extracció de dades estructurades → Dades disponibles al sistema

Extracció intel·ligent de dades

La capa de IA sobre l’OCR permet anar més enllà de l’extracció de text: interpreta el contingut i genera dades estructurades utilitzables pel sistema.

Tipus de documents suportats

Tipus de documentDades extretes
FacturesEmissor, NIF, data, conceptes, imports, IVA, total
AlbaransProveïdor, productes, quantitats, data de lliurament
DNI / PassaportNom, cognoms, número de document, data de naixement, nacionalitat
ContractesParts, objecte, condicions principals, dates, clàusules clau
FormularisCamps emplenats amb els seus valors (estructura adaptativa)
RebutsEstabliment, data, imports, mètode de pagament
CertificatsEntitat emissora, beneficiari, dades certificades, vigència

Nivell de confiança

Cada dada extreta inclou un nivell de confiança (0-1) que indica la fiabilitat de l’extracció:

  • 0.90 - 1.00 — alta confiança, dada fiable
  • 0.70 - 0.89 — confiança mitjana, revisió recomanada
  • < 0.70 — baixa confiança, revisió manual necessària

BiVelio marca automàticament els camps amb confiança inferior a 0.70 perquè un operador els revisi abans d’utilitzar les dades.

Integració amb el sistema

Les dades extretes per OCR s’integren automàticament amb els mòduls de BiVelio:

Amb expedients

  • Documents adjunts a expedients es processen automàticament
  • Les dades extretes s’associen a l’expedient com a metadades
  • Cerca de text complet en documents OCR des de l’expedient

Amb CRM

  • Dades de contacte extretes de targetes de visita o documents es suggereixen per crear contactes
  • Documents d’identitat associats a fitxes de contacte

Amb facturació

  • Factures de proveïdors processades automàticament
  • Dades fiscals extretes i verificades
  • Registre comptable suggerit basat en les dades extretes

Amb workflows

  • L’agent invocable Data Extractor es pot usar en nodes de workflow
  • Processament automatitzat de documents en lot
  • Validació de dades extretes mitjançant nodes Decision

Consum de crèdits

OperacióCrèdits
OCR bàsic (extracció de text)1 crèdit
OCR + extracció estructurada (agent IA)2-5 crèdits
Processament per lot (>10 documents)Descompte del 20% en crèdits

Idiomes suportats

El motor OCR suporta múltiples idiomes per a l’extracció de text:

  • Espanyol, Català, Anglès, Francès, Portuguès, Italià, Alemany
  • Detecció automàtica de l’idioma del document
Last updated on