Scenario illustrativo · Agente AI Custom

Automazione Documentale per Studi Professionali

Decine di documenti al giorno — contratti, fatture, dichiarazioni, PEC — da leggere a mano per estrarne i dati e ribatterli nel gestionale. Un agente LLM li estrae automaticamente e segnala all'operatore solo le eccezioni.

Trasparenza. Quello che segue è uno scenario illustrativo basato su un problema ricorrente negli studi di consulenza, commercialisti e studi legali italiani. Non descrive un cliente specifico né include dati misurati autorizzati alla pubblicazione.

Il problema

Uno studio professionale — commercialisti, consulenti del lavoro, avvocati — riceve ogni giorno decine di documenti eterogenei: contratti, fatture, dichiarazioni, comunicazioni via PEC con allegati multipli. Da ciascuno vanno estratti i dati chiave (importi, date, codici fiscali e partite IVA, parti contraenti, scadenze) per poi inserirli nel gestionale dello studio.

Il lavoro lo fa un addetto di segreteria: apre il documento, lo legge, individua i campi rilevanti, li copia nel gestionale. Per ogni documento sono minuti di attenzione, moltiplicati per decine di pratiche al giorno. È un'attività che assorbe ore, non valorizza le competenze di chi la svolge ed è soggetta a errori di trascrizione su dati delicati come importi e codici fiscali.

Nei periodi di picco — scadenze fiscali, chiusure — il volume cresce e l'inserimento manuale diventa il collo di bottiglia che rallenta tutto lo studio.

Perché nessun SaaS standard lo risolveva

I software di gestione documentale con OCR funzionano bene su moduli a struttura fissa, dove ogni campo sta sempre nella stessa posizione. Qui i documenti sono il contrario: contratti con layout diversi da controparte a controparte, PEC con più allegati in formati misti, dichiarazioni con tabelle complesse e clausole in forma libera. Un OCR a regole posizionali si perde non appena il layout cambia.

La differenza la fa la comprensione del contesto. Un LLM non cerca un dato in una coordinata fissa: legge il documento, capisce che "il sottoscritto" è la parte contraente e che una certa cifra è l'imponibile e non il totale, anche quando il formato non l'ha mai visto prima. È esattamente la capacità che manca ai tool OCR standard e che serve per documenti non strutturati come questi.

L'approccio

Abbiamo costruito una pipeline Python che presidia la cartella dei documenti e la casella PEC. Per ogni nuovo arrivo estrae il testo: direttamente per i PDF nativi, via OCR per le scansioni. Il testo viene poi passato a un LLM con un prompt strutturato sullo schema dati dello studio, che restituisce le entità chiave in formato JSON — importi, date, codici fiscali, parti, scadenze.

I dati estratti passano una validazione (formato del codice fiscale, coerenza delle date, congruenza degli importi) e vengono inseriti nel gestionale dello studio via API o tramite file CSV, a seconda di cosa il gestionale accetta. Solo i documenti che l'agente non riconosce con sufficiente sicurezza vengono accodati per la revisione di un operatore, con i campi già pre-compilati: l'addetto verifica invece di ribattere.

Il modello LLM può essere un'API esterna oppure un modello eseguito localmente, scelta rilevante per uno studio che tratta dati sensibili e vuole mantenere i documenti dentro la propria infrastruttura.

Tecnologie utilizzate in questo tipo di progetto

Python LLM (Claude API / Ollama locale) pdfplumber OCR (Tesseract) FastAPI REST API gestionale SQLite AWS S3

Cosa si ottiene tipicamente

  • Elimina la lettura e la trascrizione manuale per la maggior parte dei documenti in arrivo
  • Estrae dati corretti anche da formati non standard che gli OCR tradizionali non gestiscono
  • Concentra l'intervento umano solo sulle eccezioni, con i campi già pre-compilati
  • Mantiene un audit trail che collega ogni dato inserito al documento sorgente

I risultati concreti dipendono dalla complessità del processo specifico, dai sistemi coinvolti e dalla qualità dei dati esistenti. La discovery serve a stimare questi parametri sul caso reale.

Hai un processo simile?

Raccontaci il flusso — non servono specifiche tecniche. Nella prima call (30 min, gratuita) capiamo insieme se e come possiamo aiutarti.

Parliamone
Raccontaci il progetto
Scrivici su WhatsApp