Milo Repossi
Generative Modeling: Hierarchical Feature Discovery in Undersampled Structured Data.
Rel. Andrea Pagnani, Olivier Rivoire. Politecnico di Torino, Master of science program in Physics Of Complex Systems, 2025
|
Preview |
PDF (Tesi_di_laurea)
- Thesis
Licence: Creative Commons Attribution Non-commercial No Derivatives. Download (1MB) | Preview |
Abstract
Questa tesi esplora come la scarsità di dati (undersampling) influenzi i modelli statistici utilizzati per studiare le sequenze proteiche, concentrandosi sull’analisi dei collegamenti diretti (DCA – Direct Coupling Analysis). L’obiettivo della DCA è individuare le interazioni tra amminoacidi che determinano la struttura e la funzione di una proteina. Tuttavia, nella pratica, questi modelli spesso cercano di stimare un numero molto elevato di parametri partendo da un numero limitato di dati, il che può portare a risultati poco affidabili. Per comprendere meglio questo problema, il lavoro utilizza una versione semplificata della DCA (chiamata Gaussian DCA) e un approccio controllato in cui si generano dati sintetici da un modello noto (il "maestro") e un altro modello (lo "studente") cerca di imparare da questi dati.
I risultati mostrano che diverse caratteristiche dei dati vengono apprese in momenti diversi: i segnali più semplici o più forti vengono appresi per primi, mentre quelli più sottili richiedono più dati
Relators
Academic year
Publication type
Number of Pages
Course of studies
Classe di laurea
Aziende collaboratrici
URI
![]() |
Modify record (reserved for operators) |
