polito.it
Politecnico di Torino (logo)

Caratterizzazione semantica di una collezione di documenti mediante tecniche probabilistiche = Semantic characterization of a collection of documents through probabilistic techniques

Elena Citera'

Caratterizzazione semantica di una collezione di documenti mediante tecniche probabilistiche = Semantic characterization of a collection of documents through probabilistic techniques.

Rel. Tania Cerquitelli. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2018

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (4MB) | Preview
Abstract:

Con le moderne applicazioni e tecnologie, il volume dei dati generati è cresciuto enormemente. Oggi la tecnologia sta radicalmente trasformando le nostre abitudini: viviamo in un mondo sempre più connesso e digitalizzato in cui, ad esempio, utilizzando gli smartphone, i pc, i social network, la tessera dei trasporti pubblici, e ogni altra nostra singola attività crea una grande quantità di dati. Questo trend vale anche per collezioni di dati testuali, che oggigiorno sono prodotti ad un ritmo sempre maggiore, ad esempio per mezzo di social network, librerie e enciclopedie digitali. I dati raccolti generano dataset molto grandi, i cui domini e distribuzioni sono per lo più ignoti e variano considerevolmente tra di loro. Per questo motivo le operazioni di data mining, e in particolare nel caso testuale le operazioni di text mining e topic modeling, sono complesse e le scelte riguardanti le migliori metodologie da usare nell’analisi, nella validazione dei risultati e nell’estrazione di una conoscenza che sia efficace ed effettiva, sono un problema noto e attuale che necessita approfondimenti e nuovi strumenti per aiutare gli utenti finali, senza che essi siano esperti di dominio. Essendo il text mining un processo a più fasi che richiede configurazioni e parametri specifici per ogni algoritmo coinvolto nel processo, dovrebbe essere richiesta la presenza di esperti e analisti del settore dell’analisi testuale. Per questo motivo, data la complessità di tali fasi, obiettivo di questa tesi è sviluppare un framework in grado di visualizzare i risultati prodotti dalla clusterizzazione in maniera ottimale, intuitiva e semplice, in modo tale che l’utente possa visualizzare e validare i risultati dell’analisi efficacemente. Tra le rappresentazioni approfondite troviamo grafici t-SNE, stacked-bar, grafo e word cloud. I risultati ottenuti sono promettenti e in gran parte soddisfacenti: grazie al framework sviluppato in supporto all’utente, quest’ultimo riesce a intuire con facilità le configurazioni ottimali dell’algoritmo preso in considerazione. Infine, i risultati fanno premettere che tale framework possa essere applicato anche a grandi collezioni di dati.

Relatori: Tania Cerquitelli
Anno accademico: 2018/19
Tipo di pubblicazione: Elettronica
Numero di pagine: 61
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/8994
Modifica (riservato agli operatori) Modifica (riservato agli operatori)