OCR i extracció documental

BiVelio integra capacitats d’OCR (Reconeixement Òptic de Caràcters) que permeten digitalitzar documents físics, extreure text d’imatges i obtenir dades estructurades de qualsevol tipus de document.

Procés d’OCR

Detecció automàtica

Quan un document es puja a BiVelio (manualment o via ChannelHub), el sistema detecta automàticament si requereix processament OCR:

PDFs amb text incrustat — s’indexen directament sense OCR
PDFs escanejats (imatge) — es processen amb OCR per extreure text
Imatges (JPG, PNG, TIFF) — es processen amb OCR
Documents de text — s’indexen directament

Pipeline de processament


Document rebut
  → Detecció de tipus (text vs imatge)
  → Si imatge: OCR → extracció de text
  → Indexació per a cerca de text complet
  → (Opcional) Agent IA → extracció de dades estructurades
  → Dades disponibles al sistema

Extracció intel·ligent de dades

La capa de IA sobre l’OCR permet anar més enllà de l’extracció de text: interpreta el contingut i genera dades estructurades utilitzables pel sistema.

Tipus de documents suportats

Tipus de document	Dades extretes
Factures	Emissor, NIF, data, conceptes, imports, IVA, total
Albarans	Proveïdor, productes, quantitats, data de lliurament
DNI / Passaport	Nom, cognoms, número de document, data de naixement, nacionalitat
Contractes	Parts, objecte, condicions principals, dates, clàusules clau
Formularis	Camps emplenats amb els seus valors (estructura adaptativa)
Rebuts	Establiment, data, imports, mètode de pagament
Certificats	Entitat emissora, beneficiari, dades certificades, vigència

Nivell de confiança

Cada dada extreta inclou un nivell de confiança (0-1) que indica la fiabilitat de l’extracció:

0.90 - 1.00 — alta confiança, dada fiable
0.70 - 0.89 — confiança mitjana, revisió recomanada
< 0.70 — baixa confiança, revisió manual necessària

BiVelio marca automàticament els camps amb confiança inferior a 0.70 perquè un operador els revisi abans d’utilitzar les dades.

Integració amb el sistema

Les dades extretes per OCR s’integren automàticament amb els mòduls de BiVelio:

Amb expedients

Documents adjunts a expedients es processen automàticament
Les dades extretes s’associen a l’expedient com a metadades
Cerca de text complet en documents OCR des de l’expedient

Amb CRM

Dades de contacte extretes de targetes de visita o documents es suggereixen per crear contactes
Documents d’identitat associats a fitxes de contacte

Amb facturació

Factures de proveïdors processades automàticament
Dades fiscals extretes i verificades
Registre comptable suggerit basat en les dades extretes

Amb workflows

L’agent invocable Data Extractor es pot usar en nodes de workflow
Processament automatitzat de documents en lot
Validació de dades extretes mitjançant nodes Decision

Consum de crèdits

Operació	Crèdits
OCR bàsic (extracció de text)	1 crèdit
OCR + extracció estructurada (agent IA)	2-5 crèdits
Processament per lot (>10 documents)	Descompte del 20% en crèdits

Idiomes suportats

El motor OCR suporta múltiples idiomes per a l’extracció de text:

Espanyol, Català, Anglès, Francès, Portuguès, Italià, Alemany
Detecció automàtica de l’idioma del document