OCR i extracció documental
BiVelio integra capacitats d’OCR (Reconeixement Òptic de Caràcters) que permeten digitalitzar documents físics, extreure text d’imatges i obtenir dades estructurades de qualsevol tipus de document.
Procés d’OCR
Detecció automàtica
Quan un document es puja a BiVelio (manualment o via ChannelHub), el sistema detecta automàticament si requereix processament OCR:
- PDFs amb text incrustat — s’indexen directament sense OCR
- PDFs escanejats (imatge) — es processen amb OCR per extreure text
- Imatges (JPG, PNG, TIFF) — es processen amb OCR
- Documents de text — s’indexen directament
Pipeline de processament
Document rebut
→ Detecció de tipus (text vs imatge)
→ Si imatge: OCR → extracció de text
→ Indexació per a cerca de text complet
→ (Opcional) Agent IA → extracció de dades estructurades
→ Dades disponibles al sistemaExtracció intel·ligent de dades
La capa de IA sobre l’OCR permet anar més enllà de l’extracció de text: interpreta el contingut i genera dades estructurades utilitzables pel sistema.
Tipus de documents suportats
| Tipus de document | Dades extretes |
|---|---|
| Factures | Emissor, NIF, data, conceptes, imports, IVA, total |
| Albarans | Proveïdor, productes, quantitats, data de lliurament |
| DNI / Passaport | Nom, cognoms, número de document, data de naixement, nacionalitat |
| Contractes | Parts, objecte, condicions principals, dates, clàusules clau |
| Formularis | Camps emplenats amb els seus valors (estructura adaptativa) |
| Rebuts | Establiment, data, imports, mètode de pagament |
| Certificats | Entitat emissora, beneficiari, dades certificades, vigència |
Nivell de confiança
Cada dada extreta inclou un nivell de confiança (0-1) que indica la fiabilitat de l’extracció:
- 0.90 - 1.00 — alta confiança, dada fiable
- 0.70 - 0.89 — confiança mitjana, revisió recomanada
- < 0.70 — baixa confiança, revisió manual necessària
BiVelio marca automàticament els camps amb confiança inferior a 0.70 perquè un operador els revisi abans d’utilitzar les dades.
Integració amb el sistema
Les dades extretes per OCR s’integren automàticament amb els mòduls de BiVelio:
Amb expedients
- Documents adjunts a expedients es processen automàticament
- Les dades extretes s’associen a l’expedient com a metadades
- Cerca de text complet en documents OCR des de l’expedient
Amb CRM
- Dades de contacte extretes de targetes de visita o documents es suggereixen per crear contactes
- Documents d’identitat associats a fitxes de contacte
Amb facturació
- Factures de proveïdors processades automàticament
- Dades fiscals extretes i verificades
- Registre comptable suggerit basat en les dades extretes
Amb workflows
- L’agent invocable Data Extractor es pot usar en nodes de workflow
- Processament automatitzat de documents en lot
- Validació de dades extretes mitjançant nodes Decision
Consum de crèdits
| Operació | Crèdits |
|---|---|
| OCR bàsic (extracció de text) | 1 crèdit |
| OCR + extracció estructurada (agent IA) | 2-5 crèdits |
| Processament per lot (>10 documents) | Descompte del 20% en crèdits |
Idiomes suportats
El motor OCR suporta múltiples idiomes per a l’extracció de text:
- Espanyol, Català, Anglès, Francès, Portuguès, Italià, Alemany
- Detecció automàtica de l’idioma del document