
Domenico Muscillo
Metadata classification via affordable NLP.
Rel. Giovanni Squillero, Francesco Zucaro. Politecnico di Torino, Corso di laurea magistrale in Data Science And Engineering, 2025
Abstract: |
La gestione e il recupero efficiente delle informazioni all'interno della pubblica amministrazione si basano in larga misura sull'accuratezza dei metadati dei documenti. Questa tesi affronta affronta la classificazione dei metadati attraverso metodologie di natural language processing (NLP), abbinate a un'analisi delle tecniche tradizionali di apprendimento automatico (ML) e di apprendimento profondo (DL). Utilizzando un insieme di dati curati da enti della pubblica amministrazione italiana, questa ricerca indaga l'efficacia di diversi approcci, tra cui le Support Vector Machine (SVM), in combinazione con metodi di preprocessing come la tokenizzazione (Unigram o base), la Term Frequency (TF), la Term Frequency-Inverse Document Frequency (TF-IDF) e Doc2Vec. Sono state inoltre esplorate tecniche di riduzione della dimensionalità, in particolare la non negative matrix factorization (NMF) e latent semantic analysis (LSA). L'approccio sviluppato mostra prestazioni soddisfacenti, raggiungendo un'accuratezza del 95% dell'intera tupla di metadati su tre distinti obiettivi, con un'accuratezza che in alcuni casi ha raggiunto il 100%. In particolare, una combinazione ha prodotto l'equilibrio ottimale tra risultati e tempi di addestramento, significativamente aumentando i primi e riducendo i secondi, a dimostrazione della fattibilità pratica di questi approcci per una classificazione automatizzata dei metadati che sia al contempo robusta ed efficiente e che richieda un basso fabbisogno di risorse. |
---|---|
Relatori: | Giovanni Squillero, Francesco Zucaro |
Anno accademico: | 2024/25 |
Tipo di pubblicazione: | Elettronica |
Numero di pagine: | 93 |
Informazioni aggiuntive: | Tesi secretata. Fulltext non presente |
Soggetti: | |
Corso di laurea: | Corso di laurea magistrale in Data Science And Engineering |
Classe di laurea: | Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA |
Aziende collaboratrici: | Wave Informatica srl |
URI: | http://webthesis.biblio.polito.it/id/eprint/36341 |
![]() |
Modifica (riservato agli operatori) |