polito.it
Politecnico di Torino (logo)

BERTopic vs STM: Text Mining su Raccolte di Testi Sintetici di Digital Voice of Customer = BERTopic vs. STM: Text Mining on Collections of Short Texts of Digital Voice of Customer

Abele Sanzari

BERTopic vs STM: Text Mining su Raccolte di Testi Sintetici di Digital Voice of Customer = BERTopic vs. STM: Text Mining on Collections of Short Texts of Digital Voice of Customer.

Rel. Federico Barravecchia. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Gestionale, 2025

[img] PDF (Tesi_di_laurea) - Tesi
Accesso riservato a: Solo utenti staff fino al 26 Novembre 2028 (data di embargo).
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (6MB)
[img] Archive (ZIP) (Documenti_allegati) - Altro
Accesso riservato a: Solo utenti staff fino al 26 Novembre 2028 (data di embargo).
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (96MB)
Abstract:

L'aumento esponenziale di dati digitali ha trasformato il modo in cui le informazioni vengono analizzate, specialmente nel campo del topic modeling, una tecnica fondamentale per l’estrazione automatica di argomenti da vasti corpora testuali. Questo lavoro di tesi si concentra su un'analisi comparativa tra due tra i più utilizzati algoritmi di topic modeling: la Latent Dirichlet Allocation (LDA), nella sua derivazione STM, uno dei modelli statistici più affermati, e BERTopic, un modello più recente basato su tecniche di embedding e clustering. L'obiettivo è valutare quale dei due approcci si dimostri più efficace nell'analisi di testi brevi, un campo in cui i modelli convenzionali spesso faticano a produrre risultati coerenti e significativi. La tesi è suddivisa in diverse fasi. Inizialmente viene offerto un excursus letterario del topic modeling, delineando le differenze tra gli approcci statistici e quelli basati su embedding. La LDA, nonostante la sua popolarità e il suo utilizzo diffuso, presenta limiti nella capacità di gestire testi brevi, poiché la scarsità di informazioni compromette la coerenza tematica dei risultati. BERTopic, invece, supera queste limitazioni attraverso l'uso di rappresentazioni vettoriali semantiche, che permettono una migliore cattura delle relazioni tra i testi. Il cuore del lavoro è costituito dall'applicazione pratica di questi algoritmi su un dataset fornito da Stellantis SPA, composto da documenti di testo di breve entità. La fase sperimentale prevede una serie di test e ottimizzazioni sui due modelli, con l’obiettivo di estrarre argomenti tematici coerenti e interpretabili. Nello specifico, la procedura implementata per BERTopic si basa sull'uso della tecnica TF-IDF per migliorare la classificazione dei termini rilevanti all'interno dei documenti, mentre LDA (STM) viene testata nella sua forma classica, evidenziandone limiti e potenzialità. I risultati mostrano che BERTopic, grazie alla sua capacità di generare embedding contestuali attraverso modelli di trasformatori, offre una maggiore precisione nella determinazione degli argomenti, soprattutto in contesti dinamici e frammentati come quelli dei testi brevi. Al contrario, LDA si dimostra meno adatto a questo tipo di analisi, poiché tende a produrre argomenti più generici e meno rappresentativi delle peculiarità dei dati. Un ulteriore aspetto affrontato nella tesi riguarda l'ottimizzazione dei parametri. Per entrambi i modelli, è stata eseguita una serie di test per identificare il numero ottimale di argomenti, migliorando così la coerenza e la rilevanza dei risultati. In particolare, BERTopic si distingue per la sua flessibilità nell’adattare il numero di argomenti in base alla struttura del dataset, mentre LDA richiede un processo di tuning più complesso e meno immediato. Le conclusioni di questo studio suggeriscono che BERTopic rappresenta un’evoluzione significativa rispetto ai modelli tradizionali di topic modeling, specialmente in scenari aziendali e di analisi di dati in tempo reale, dove la capacità di interpretare testi brevi e non strutturati è cruciale. Questo lavoro contribuisce a delineare le migliori pratiche per l'uso di algoritmi di topic modeling su testi brevi e offre spunti per ulteriori ricerche sull’applicazione di queste tecniche in contesti pratici e aziendali.

Relatori: Federico Barravecchia
Anno accademico: 2025/26
Tipo di pubblicazione: Elettronica
Numero di pagine: 94
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Gestionale
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-31 - INGEGNERIA GESTIONALE
Aziende collaboratrici: STELLANTIS EUROPE SPA
URI: http://webthesis.biblio.polito.it/id/eprint/38147
Modifica (riservato agli operatori) Modifica (riservato agli operatori)