Analisi Statistica e Quantificazione del Rischio nell’Estrazione Dati Automatizzata tramite AI: Un Caso Studio nel Settore Assicurativo = Statistical Analysis and Risk Quantification in Automated Data Extraction Using AI: A Case Study in the Insurance Sector

Sofia Iani

Analisi Statistica e Quantificazione del Rischio nell’Estrazione Dati Automatizzata tramite AI: Un Caso Studio nel Settore Assicurativo = Statistical Analysis and Risk Quantification in Automated Data Extraction Using AI: A Case Study in the Insurance Sector.

Rel. Franco Pellerey. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Matematica, 2026

Preview

PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.
Download (5MB) | Preview

Abstract

L’automazione dei processi di rimborso assicurativo mediante Intelligenza Artificiale rappresenta un’opportunità strategica per ridurre i costi operativi, ma introduce del rischio sull’affidabilità dei sistemi. Questa tesi analizza quantitativamente il sistema di estrazione automatica, implementato da una compagnia assicurativa cliente di Accenture, che mira a ridurre i costi da 0,20€ a 0,02€ per documento. Tuttavia, un’analisi preliminare condotta da Accenture ha rivelato un tasso di errore del 22% nei dati estratti dall’AI. L’analisi si basa su un dataset di più di 221.253 documenti assicurativi (tra prescrizioni cliniche e fatture amministrative) raccolti tra settembre e novembre. Mediante tecniche di statistica inferenziale, teoria delle probabilità e gestione quantitativa del rischio, questa tesi evidenzia quattro aree: identificazione di pattern tem- porali (test Chi-Quadrato, t-test), analisi delle correlazioni tra errori (test di indipendenza di Pearson e Fisher), modellazione probabilistica con gestione della sovradispersione (Distribuzione Binomiale Negativa) e quantificazione del rischio dovuto all’introduzione del sistema automatizzato (Value at Risk, Conditional Value at Risk).

I risultati principali evidenziano: forte correlazione tra errori su Patologia e Numero Prescrizione nei documenti clinici (ρ = 0.75, p < 0.0001), indicante una causa comune di fallimento sistematico; marcata sovradispersione (indice: 12.05 per clinici, 33.55 per amministrativi) che esclude l’ipotesi della Poisson e richiede modelli con code pesanti; soglie critiche VaR0.95 di 1461 errori/giorno (clinici) e 685 (amministrativi), con necessità di sovradimensionamento del 210-220% rispetto alla media per poter gestire picchi di errori; confronto degli impatti di estrazione errata e di mancata estrazione