polito.it
Politecnico di Torino (logo)

Generative Modeling: Hierarchical Feature Discovery in Undersampled Structured Data

Milo Repossi

Generative Modeling: Hierarchical Feature Discovery in Undersampled Structured Data.

Rel. Andrea Pagnani, Olivier Rivoire. Politecnico di Torino, Corso di laurea magistrale in Physics Of Complex Systems (Fisica Dei Sistemi Complessi), 2025

[img] PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (1MB)
Abstract:

Questa tesi esplora come la scarsità di dati (undersampling) influenzi i modelli statistici utilizzati per studiare le sequenze proteiche, concentrandosi sull’analisi dei collegamenti diretti (DCA – Direct Coupling Analysis). L’obiettivo della DCA è individuare le interazioni tra amminoacidi che determinano la struttura e la funzione di una proteina. Tuttavia, nella pratica, questi modelli spesso cercano di stimare un numero molto elevato di parametri partendo da un numero limitato di dati, il che può portare a risultati poco affidabili. Per comprendere meglio questo problema, il lavoro utilizza una versione semplificata della DCA (chiamata Gaussian DCA) e un approccio controllato in cui si generano dati sintetici da un modello noto (il "maestro") e un altro modello (lo "studente") cerca di imparare da questi dati. I risultati mostrano che diverse caratteristiche dei dati vengono apprese in momenti diversi: i segnali più semplici o più forti vengono appresi per primi, mentre quelli più sottili richiedono più dati. Queste transizioni si manifestano come cambiamenti netti — dei picchi — nei parametri stimati man mano che cresce la quantità di dati. Lo studio mostra che queste dinamiche di apprendimento dipendono dalla struttura dei dati e dall’uso della regolarizzazione, un metodo per evitare l’overfitting. In modo interessante, il comportamento osservato è simile a effetti noti nel machine learning, come il “double descent”, in cui le prestazioni del modello variano in modo complesso al variare della quantità di dati o della dimensione del modello. In sintesi, la tesi offre nuove prospettive su come i modelli apprendono da dati biologici limitati e fornisce indicazioni utili per interpretare o migliorare l’inferenza statistica nello studio delle proteine.

Relatori: Andrea Pagnani, Olivier Rivoire
Anno accademico: 2024/25
Tipo di pubblicazione: Elettronica
Numero di pagine: 43
Soggetti:
Corso di laurea: Corso di laurea magistrale in Physics Of Complex Systems (Fisica Dei Sistemi Complessi)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-44 - MODELLISTICA MATEMATICO-FISICA PER L'INGEGNERIA
Aziende collaboratrici: Institut Langevin -CNRS - ESPCI Paris - PSL University
URI: http://webthesis.biblio.polito.it/id/eprint/36441
Modifica (riservato agli operatori) Modifica (riservato agli operatori)