Domenico Muscillo
Metadata classification via affordable NLP.
Rel. Giovanni Squillero, Francesco Zucaro. Politecnico di Torino, Corso di laurea magistrale in Data Science And Engineering, 2025
Abstract
La gestione e il recupero efficiente delle informazioni all'interno della pubblica amministrazione si basano in larga misura sull'accuratezza dei metadati dei documenti. Questa tesi affronta affronta la classificazione dei metadati attraverso metodologie di natural language processing (NLP), abbinate a un'analisi delle tecniche tradizionali di apprendimento automatico (ML) e di apprendimento profondo (DL). Utilizzando un insieme di dati curati da enti della pubblica amministrazione italiana, questa ricerca indaga l'efficacia di diversi approcci, tra cui le Support Vector Machine (SVM), in combinazione con metodi di preprocessing come la tokenizzazione (Unigram o base), la Term Frequency (TF), la Term Frequency-Inverse Document Frequency (TF-IDF) e Doc2Vec.
Sono state inoltre esplorate tecniche di riduzione della dimensionalità, in particolare la non negative matrix factorization (NMF) e latent semantic analysis (LSA)
Relatori
Anno Accademico
Tipo di pubblicazione
Numero di pagine
Informazioni aggiuntive
Corso di laurea
Classe di laurea
Aziende collaboratrici
URI
![]() |
Modifica (riservato agli operatori) |
