polito.it
Politecnico di Torino (logo)

Interpretabilità dei risultati ottenuti dall'applicazione di algoritmi di Machine Learning ai Sistemi di Rating Interni: analisi del modulo cash-flow del modello SME Retail di Intesa Sanpaolo = Interpretability of the results obtained from the application of Machine Learning algorithms to the Internal Rating Systems: analysis of the cash flow module of the Intesa Sanpaolo SME Retail model

Angelo Tripodi

Interpretabilità dei risultati ottenuti dall'applicazione di algoritmi di Machine Learning ai Sistemi di Rating Interni: analisi del modulo cash-flow del modello SME Retail di Intesa Sanpaolo = Interpretability of the results obtained from the application of Machine Learning algorithms to the Internal Rating Systems: analysis of the cash flow module of the Intesa Sanpaolo SME Retail model.

Rel. Franco Varetto. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Gestionale, 2019

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB) | Preview
Abstract:

Il presente lavoro di tesi si pone l'obiettivo di valutare l'interpretabilità dei risultati ottenuti con gli algoritmi di machine learning applicati nella stima delle probabilità di default. La suddetta probabilità rappresenta il rischio che una controparte, nei confronti della quale esiste un'esposizione, vada in default in un determinato orizzonte temporale. Per calcolare la probabilità di default, è possibile utilizzare metodi statistici, quali ad esempio la regressione logistica, oppure algoritmi di machine learning. Tali tecniche processano i dati in input e ottengono un output sulla base delle features fornite: maggiore è il numero di features utilizzato, maggiore è l'informazione contenuta nel modello. All'aumentare del numero di features gli algoritmi si adattano meglio ai dati riuscendo a cogliere l'esistenza di relazioni, anche non lineari, tra le diverse caratteristiche presenti. Sulla base di queste relazioni è generato un output che in questo caso rappresenta la probabilità di default associata a ciascuna controparte. Data l'elevata numerosità delle caratteristiche e la complessità di calcolo sviluppata, è difficile predire le scelte prese dal modello durante il processo decisionale, pertanto gli algoritmi di machine learning sono intesi come delle black-box. Negli ultimi anni si sono sviluppati modelli di interpretabilità degli output del machine learning, con l'obiettivo di rendere più comprensibile l’evoluzione del modello e la sua capacità predittiva. Con il termine interpretabilità si intende l’abilità di prevederne il risultato: maggiore è l'interpretabilità di un modello di machine learning, più facile è comprendere per quale ragione sono state prese determinate decisioni. I modelli di interpretabilità si suddividono in modelli di interpretabilità globale e locale. I primi hanno l'obiettivo di individuare la relazione esistente tra le variabili e l'output del modello; i secondi individuano le variabili chiave nella determinazione degli output a livello di singola istanza, quindi a livello di singola controparte. I modelli di interpretabilità, ad oggi esistenti, sono quattro: - Local Interpretable Model Explanation (LIME) con l'obiettivo di spiegare la singola previsione, rappresentando le variabili chiave che interagiscono nel modello; - Partial Dependence Plot (PDP) che rappresenta la relazione media esistente tra una variabile e l'output del modello; - Individual Conditional Expectation (ICE-box) che coglie la relazione esistente tra una variabile e l'output del modello, facendo variare per ogni istanza del database i valori che la suddetta variabile può assumere rappresentando l'impatto che essa ha con l'output predetto; - SHAP, che basandosi sulla teoria del valore di Shapley, la quale trae origine dalla teoria dei giochi, associa ad ogni feature (giocatore) un peso o contributo marginale (payoff) nella definizione delle previsioni (gioco cooperativo). Definito il contesto in cui si opera, nel presente lavoro di tesi sono stati applicati due algoritmi distinti di machine learning, Random Forest e XGBoost, al modulo “cash-flow” del segmento Small Medium Enterprises Retail del portafoglio crediti di banca Intesa Sanpaolo. È stato scelto come modello ufficiale quello con potere discriminante migliore e, sulla base dei risultati, sono stati applicati i modelli di interpretabilità per valutarne meglio la capacità predittiva e la causa delle scelte da esso effettuate.

Relatori: Franco Varetto
Anno accademico: 2019/20
Tipo di pubblicazione: Elettronica
Numero di pagine: 115
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Gestionale
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-31 - INGEGNERIA GESTIONALE
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/13529
Modifica (riservato agli operatori) Modifica (riservato agli operatori)