Milo Repossi
Generative Modeling: Hierarchical Feature Discovery in Undersampled Structured Data.
Rel. Andrea Pagnani, Olivier Rivoire. Politecnico di Torino, Corso di laurea magistrale in Physics Of Complex Systems (Fisica Dei Sistemi Complessi), 2025
|
Preview |
PDF (Tesi_di_laurea)
- Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives. Download (1MB) | Preview |
Abstract
Questa tesi esplora come la scarsità di dati (undersampling) influenzi i modelli statistici utilizzati per studiare le sequenze proteiche, concentrandosi sull’analisi dei collegamenti diretti (DCA – Direct Coupling Analysis). L’obiettivo della DCA è individuare le interazioni tra amminoacidi che determinano la struttura e la funzione di una proteina. Tuttavia, nella pratica, questi modelli spesso cercano di stimare un numero molto elevato di parametri partendo da un numero limitato di dati, il che può portare a risultati poco affidabili. Per comprendere meglio questo problema, il lavoro utilizza una versione semplificata della DCA (chiamata Gaussian DCA) e un approccio controllato in cui si generano dati sintetici da un modello noto (il "maestro") e un altro modello (lo "studente") cerca di imparare da questi dati.
I risultati mostrano che diverse caratteristiche dei dati vengono apprese in momenti diversi: i segnali più semplici o più forti vengono appresi per primi, mentre quelli più sottili richiedono più dati
Relatori
Anno Accademico
Tipo di pubblicazione
Numero di pagine
Corso di laurea
Classe di laurea
Aziende collaboratrici
URI
![]() |
Modifica (riservato agli operatori) |
