polito.it
Politecnico di Torino (logo)

Reinforcement Learning per apprendere strategie di recupero crediti su NPL (Non-Performing Loans) e UTP (Unlikely To Pay) = Reinforcement Learning to find out strategies of credit recovery on NPL (Non-Performing Loans) and UTP (Unlikely To Pay)

Michele Vioglio

Reinforcement Learning per apprendere strategie di recupero crediti su NPL (Non-Performing Loans) e UTP (Unlikely To Pay) = Reinforcement Learning to find out strategies of credit recovery on NPL (Non-Performing Loans) and UTP (Unlikely To Pay).

Rel. Paolo Brandimarte. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Matematica, 2023

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB) | Preview
Abstract:

Il recupero crediti su posizioni bancarie deteriorate è un tema economico-sociale diventato di grande importanza negli ultimi anni, soprattutto per la grande mole di rapporti con problemi di insolvenza che le banche si sono trovate nelle proprie passività. In questa tesi si cerca di trovare un metodo per suggerire alle società di gestione di questi crediti, ricevuti dalle banche stesse, quali siano le migliori strategie da intraprendere su una pratica. Per fare ciò si è utilizzato un algoritmo di reinforcement learning (RL), caratterizzando le pratiche in alcune variabili discrete. I dati per supportare lo studio sono stati estrapolati da un database fornito da AMCO, una compagnia di gestione di asset finanziari. In particolare, lo stato di ogni pratica nasce dalla combinazione di dati provenienti da tabelle diverse, spesso comportando discretizzazione di valori originariamente nel continuo. Le azioni del RL rappresentano le strategie di recupero crediti più comuni o anche altre azioni tipiche degli agenti. Si è fatto uso di un modello off-policy tabulare di RL, noto come Q-Learning su una matrice di stati e azioni molto ampia. Una variante detta smooth Q-Learning viene utilizzata a tal proposito in modo da popolare maggiormente la suddetta matrice sfruttando la similarità tra stati coinvolti. È stato svolto un lavoro di tuning per gli iper-parametri più importanti al fine di garantire la massima performance all’apprendimento. Si è concluso che una policy viene appresa per i tipi più frequenti di pratica, sfruttando la storia di pratiche già concluse o in corso di evoluzione. Per la visualizzazione dei risultati e il suggerimento di azioni su uno stato della pratica scelto dall’utente, é stato sviluppato un prototipo con la libreria Streamlit.

Relatori: Paolo Brandimarte
Anno accademico: 2022/23
Tipo di pubblicazione: Elettronica
Numero di pagine: 55
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Matematica
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-44 - MODELLISTICA MATEMATICO-FISICA PER L'INGEGNERIA
Aziende collaboratrici: ORS GROUP GMBH
URI: http://webthesis.biblio.polito.it/id/eprint/26135
Modifica (riservato agli operatori) Modifica (riservato agli operatori)