Automatizzazione della tecnica di analisi delle componenti principali sparse caratterizzanti una collezione di documenti testuali = Automating sparse PCA for textual document collection

Sara Verbaro

Automatizzazione della tecnica di analisi delle componenti principali sparse caratterizzanti una collezione di documenti testuali = Automating sparse PCA for textual document collection.

Rel. Tania Cerquitelli, Evelina Di Corso. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Matematica, 2019

Preview

PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.
Download (1MB) | Preview

Abstract

Con il passare degli anni i progressi nella tecnologia hardware e software hanno portato ad un costante aumento della quantità di dati in circolazione. In particolare con l'aumento di dati testuali, generati e raccolti dai social network alle biblioteche digitali, hanno avuto sempre più importanza processi come il text mining e il topic modeling che studiano algoritmi in grado di estrarre l'informazione utile da un'ampia collezione di documenti. Questo tipo di attività comporta più fasi e richiede la scelta di parametri specifici per ogni algoritmo proposto: diventa perciò necessaria la presenza di esperti e di analisti in grado di guidare il processo di recupero delle informazioni nascoste.

Affinchè il processo di mining sia efficiente si ha l'esigenza di renderlo automatico, senza il bisogno di una continua visione umana dell'attività