Generative Modeling: Hierarchical Feature Discovery in Undersampled Structured Data

Milo Repossi

Generative Modeling: Hierarchical Feature Discovery in Undersampled Structured Data.

Rel. Andrea Pagnani, Olivier Rivoire. Politecnico di Torino, Corso di laurea magistrale in Physics Of Complex Systems (Fisica Dei Sistemi Complessi), 2025

Preview

PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.
Download (1MB) | Preview

Abstract

Questa tesi esplora come la scarsità di dati (undersampling) influenzi i modelli statistici utilizzati per studiare le sequenze proteiche, concentrandosi sull’analisi dei collegamenti diretti (DCA – Direct Coupling Analysis). L’obiettivo della DCA è individuare le interazioni tra amminoacidi che determinano la struttura e la funzione di una proteina. Tuttavia, nella pratica, questi modelli spesso cercano di stimare un numero molto elevato di parametri partendo da un numero limitato di dati, il che può portare a risultati poco affidabili. Per comprendere meglio questo problema, il lavoro utilizza una versione semplificata della DCA (chiamata Gaussian DCA) e un approccio controllato in cui si generano dati sintetici da un modello noto (il "maestro") e un altro modello (lo "studente") cerca di imparare da questi dati.

I risultati mostrano che diverse caratteristiche dei dati vengono apprese in momenti diversi: i segnali più semplici o più forti vengono appresi per primi, mentre quelli più sottili richiedono più dati

Tipo di pubblicazione

Elettronica

URI

https://webthesis.biblio.polito.it/id/eprint/36441

Modifica (riservato agli operatori)