polito.it
Politecnico di Torino (logo)

Automatizzazione della tecnica di analisi delle componenti principali sparse caratterizzanti una collezione di documenti testuali = Automating sparse PCA for textual document collection

Sara Verbaro

Automatizzazione della tecnica di analisi delle componenti principali sparse caratterizzanti una collezione di documenti testuali = Automating sparse PCA for textual document collection.

Rel. Tania Cerquitelli, Evelina Di Corso. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Matematica, 2019

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (1MB) | Preview
Abstract:

Con il passare degli anni i progressi nella tecnologia hardware e software hanno portato ad un costante aumento della quantità di dati in circolazione. In particolare con l'aumento di dati testuali, generati e raccolti dai social network alle biblioteche digitali, hanno avuto sempre più importanza processi come il text mining e il topic modeling che studiano algoritmi in grado di estrarre l'informazione utile da un'ampia collezione di documenti. Questo tipo di attività comporta più fasi e richiede la scelta di parametri specifici per ogni algoritmo proposto: diventa perciò necessaria la presenza di esperti e di analisti in grado di guidare il processo di recupero delle informazioni nascoste. Affinchè il processo di mining sia efficiente si ha l'esigenza di renderlo automatico, senza il bisogno di una continua visione umana dell'attività. Questa tesi mira ad implementare un approccio proposto da Zou et al. in grado di raggruppare automaticamente i documenti presenti in una collezione di dati testuali in gruppi coerenti e ben separati attraverso una metodologia di topic modeling. La tecnica proposta in questo elaborato è l'analisi delle componenti principali sparse la quale, dati il numero di topics e il parametro di sparsità, ci consente di individuare documenti che appartengono allo stesso topic e per ogni topic ci fornisce una lista di parole che meglio lo descrivono. Per supportare l'analista nella corretta selezione dei parametri sono stati proposti due approcci. L'algoritmo è stato sviluppato in Python e convalidato su diverse raccolte di dati reali, con caratteristiche e proprietà testuali diverse. Dal risultato sperimentale ottenuto, il tuning dei parametri supporta in maniera automatica l'analista. Inoltre, l'algoritmo è efficiente nel descrivere e raggruppare le collezioni di documenti testuali forniti ed è efficace nel semplificare il processo di analisi.

Relatori: Tania Cerquitelli, Evelina Di Corso
Anno accademico: 2019/20
Tipo di pubblicazione: Elettronica
Numero di pagine: 52
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Matematica
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-44 - MODELLISTICA MATEMATICO-FISICA PER L'INGEGNERIA
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/12737
Modifica (riservato agli operatori) Modifica (riservato agli operatori)