polito.it
Politecnico di Torino (logo)

Tecniche di machine learning per la valutazione del rischio di default: previsione multi-periodale = Machine learning techniques for default risk assessment: multi-period prediction

Alessandro Baronti

Tecniche di machine learning per la valutazione del rischio di default: previsione multi-periodale = Machine learning techniques for default risk assessment: multi-period prediction.

Rel. Patrizia Semeraro. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Matematica, 2025

[img] PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB)
Abstract:

Negli ultimi decenni, la valutazione del rischio di credito ha assunto un ruolo sempre più centrale nel settore finanziario, in particolare nelle istituzioni bancarie e società di credito. La capacità di prevedere correttamente il default di un cliente o di un gruppo di clienti riveste un'importanza cruciale per la gestione del rischio e per l’allocazione delle risorse. In questo contesto, la previsione per un cliente singolo viene solitamente effettuata utilizzando uno strumento statistico chiamato Regressione Logistica. Solo in tempi più recenti si è assistito a un crescente interesse verso l’utilizzo di tecniche di Machine Learning, che permettono una modellizzazione più flessibile e, in alcuni casi, più performante. La maggior parte della letteratura attuale si è concentrata proprio sull’identificazione del metodo di apprendimento più efficace per migliorare l’accuratezza delle previsioni di default. Questa tesi si propone di analizzare il problema della previsione del default dei clienti di una banca attraverso l’utilizzo di tecniche di machine learning, adottando un modello comunemente utilizzato nella pratica, ovvero il modello misto scambiabile di Bernoulli. I principali parametri che prendiamo in considerazione sono la probabilità di default p, il coefficiente di equicorrelazione tra default rho, e una misura di rischio, chiamata Value at Risk, associata ad un dato portfolio di clienti. A questo viene aggiunta un'analisi della dimensione temporale, per vedere come evolvono i parametri al variare del tempo e dell'orizzonte di previsione. Per le nostre analisi, è stato utilizzato il dataset Default of Credit Card Clients, reso disponibile dalla piattaforma Kaggle. Kaggle è una piattaforma online di professionisti e appassionati di data science e machine learning che consente di accedere a dataset pubblici, partecipare a competizioni, e condividere soluzioni. Il dataset utilizzato contiene informazioni su 30.000 clienti di una banca di Taiwan, raccolte tra aprile e settembre 2005, e comprende variabili demografiche, finanziarie e comportamentali, oltre alla storia dei pagamenti e dei saldi dei clienti nei mesi considerati. Le tecniche di classificazione supervisionata impiegate nelle nostre analisi sono la regressione logistica (LR), il multi-layer-perceptron (MLP), k-nearest neighbors (KNN) e AdaBoost (AB). L’obiettivo del lavoro è duplice: da un lato, valutare quale tra i modelli considerati fornisce le migliori prestazioni in termini di previsione del default, secondo alcune metriche di valutazione standard (score f1, AUC e accuratezza), dall'altro analizzare l'evoluzione dei parametri di rischio al variare dell'orizzonte di previsione.

Relatori: Patrizia Semeraro
Anno accademico: 2024/25
Tipo di pubblicazione: Elettronica
Numero di pagine: 59
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Matematica
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-44 - MODELLISTICA MATEMATICO-FISICA PER L'INGEGNERIA
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/36248
Modifica (riservato agli operatori) Modifica (riservato agli operatori)