
Milo Repossi
Generative Modeling: Hierarchical Feature Discovery in Undersampled Structured Data.
Rel. Andrea Pagnani, Olivier Rivoire. Politecnico di Torino, Corso di laurea magistrale in Physics Of Complex Systems (Fisica Dei Sistemi Complessi), 2025
![]() |
PDF (Tesi_di_laurea)
- Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives. Download (1MB) |
Abstract: |
Questa tesi esplora come la scarsità di dati (undersampling) influenzi i modelli statistici utilizzati per studiare le sequenze proteiche, concentrandosi sull’analisi dei collegamenti diretti (DCA – Direct Coupling Analysis). L’obiettivo della DCA è individuare le interazioni tra amminoacidi che determinano la struttura e la funzione di una proteina. Tuttavia, nella pratica, questi modelli spesso cercano di stimare un numero molto elevato di parametri partendo da un numero limitato di dati, il che può portare a risultati poco affidabili. Per comprendere meglio questo problema, il lavoro utilizza una versione semplificata della DCA (chiamata Gaussian DCA) e un approccio controllato in cui si generano dati sintetici da un modello noto (il "maestro") e un altro modello (lo "studente") cerca di imparare da questi dati. I risultati mostrano che diverse caratteristiche dei dati vengono apprese in momenti diversi: i segnali più semplici o più forti vengono appresi per primi, mentre quelli più sottili richiedono più dati. Queste transizioni si manifestano come cambiamenti netti — dei picchi — nei parametri stimati man mano che cresce la quantità di dati. Lo studio mostra che queste dinamiche di apprendimento dipendono dalla struttura dei dati e dall’uso della regolarizzazione, un metodo per evitare l’overfitting. In modo interessante, il comportamento osservato è simile a effetti noti nel machine learning, come il “double descent”, in cui le prestazioni del modello variano in modo complesso al variare della quantità di dati o della dimensione del modello. In sintesi, la tesi offre nuove prospettive su come i modelli apprendono da dati biologici limitati e fornisce indicazioni utili per interpretare o migliorare l’inferenza statistica nello studio delle proteine. |
---|---|
Relatori: | Andrea Pagnani, Olivier Rivoire |
Anno accademico: | 2024/25 |
Tipo di pubblicazione: | Elettronica |
Numero di pagine: | 43 |
Soggetti: | |
Corso di laurea: | Corso di laurea magistrale in Physics Of Complex Systems (Fisica Dei Sistemi Complessi) |
Classe di laurea: | Nuovo ordinamento > Laurea magistrale > LM-44 - MODELLISTICA MATEMATICO-FISICA PER L'INGEGNERIA |
Aziende collaboratrici: | Institut Langevin -CNRS - ESPCI Paris - PSL University |
URI: | http://webthesis.biblio.polito.it/id/eprint/36441 |
![]() |
Modifica (riservato agli operatori) |