Automazione Documentale per Studi Professionali
Decine di documenti al giorno — contratti, fatture, dichiarazioni, PEC — da leggere a mano per estrarne i dati e ribatterli nel gestionale. Un agente LLM li estrae automaticamente e segnala all'operatore solo le eccezioni.
Il problema
Uno studio professionale — commercialisti, consulenti del lavoro, avvocati — riceve ogni giorno decine di documenti eterogenei: contratti, fatture, dichiarazioni, comunicazioni via PEC con allegati multipli. Da ciascuno vanno estratti i dati chiave (importi, date, codici fiscali e partite IVA, parti contraenti, scadenze) per poi inserirli nel gestionale dello studio.
Il lavoro lo fa un addetto di segreteria: apre il documento, lo legge, individua i campi rilevanti, li copia nel gestionale. Per ogni documento sono minuti di attenzione, moltiplicati per decine di pratiche al giorno. È un'attività che assorbe ore, non valorizza le competenze di chi la svolge ed è soggetta a errori di trascrizione su dati delicati come importi e codici fiscali.
Nei periodi di picco — scadenze fiscali, chiusure — il volume cresce e l'inserimento manuale diventa il collo di bottiglia che rallenta tutto lo studio.
Perché nessun SaaS standard lo risolveva
I software di gestione documentale con OCR funzionano bene su moduli a struttura fissa, dove ogni campo sta sempre nella stessa posizione. Qui i documenti sono il contrario: contratti con layout diversi da controparte a controparte, PEC con più allegati in formati misti, dichiarazioni con tabelle complesse e clausole in forma libera. Un OCR a regole posizionali si perde non appena il layout cambia.
La differenza la fa la comprensione del contesto. Un LLM non cerca un dato in una coordinata fissa: legge il documento, capisce che "il sottoscritto" è la parte contraente e che una certa cifra è l'imponibile e non il totale, anche quando il formato non l'ha mai visto prima. È esattamente la capacità che manca ai tool OCR standard e che serve per documenti non strutturati come questi.
L'approccio
Abbiamo costruito una pipeline Python che presidia la cartella dei documenti e la casella PEC. Per ogni nuovo arrivo estrae il testo: direttamente per i PDF nativi, via OCR per le scansioni. Il testo viene poi passato a un LLM con un prompt strutturato sullo schema dati dello studio, che restituisce le entità chiave in formato JSON — importi, date, codici fiscali, parti, scadenze.
I dati estratti passano una validazione (formato del codice fiscale, coerenza delle date, congruenza degli importi) e vengono inseriti nel gestionale dello studio via API o tramite file CSV, a seconda di cosa il gestionale accetta. Solo i documenti che l'agente non riconosce con sufficiente sicurezza vengono accodati per la revisione di un operatore, con i campi già pre-compilati: l'addetto verifica invece di ribattere.
Il modello LLM può essere un'API esterna oppure un modello eseguito localmente, scelta rilevante per uno studio che tratta dati sensibili e vuole mantenere i documenti dentro la propria infrastruttura.
Tecnologie utilizzate in questo tipo di progetto
Cosa si ottiene tipicamente
- Elimina la lettura e la trascrizione manuale per la maggior parte dei documenti in arrivo
- Estrae dati corretti anche da formati non standard che gli OCR tradizionali non gestiscono
- Concentra l'intervento umano solo sulle eccezioni, con i campi già pre-compilati
- Mantiene un audit trail che collega ogni dato inserito al documento sorgente
I risultati concreti dipendono dalla complessità del processo specifico, dai sistemi coinvolti e dalla qualità dei dati esistenti. La discovery serve a stimare questi parametri sul caso reale.
Hai un processo simile?
Raccontaci il flusso — non servono specifiche tecniche. Nella prima call (30 min, gratuita) capiamo insieme se e come possiamo aiutarti.
Parliamone