polito.it
Politecnico di Torino (logo)

Metodologia per l'identificazione del Data Drift in una collezione di documenti testuali = A Metodology for Concept Drift Detection in a collection of textual documents

Elisa Grassi

Metodologia per l'identificazione del Data Drift in una collezione di documenti testuali = A Metodology for Concept Drift Detection in a collection of textual documents.

Rel. Tania Cerquitelli. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Matematica, 2020

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (10MB) | Preview
Abstract:

Nel contesto del Data Mining e del Machine Learning, esistono delle applicazioni in cui i dati evolvono nel tempo, e con essi cambiano le strutture e relazioni interne che li caratterizzano. Questo fenomeno, chiamato Concept Drift, determina la presenza di "concetti" diversi nei nuovi dati, cioe’ di strutture che non erano presenti nei dati iniziali. In questo contesto, i modelli di analisi creati sulla base dei dati di partenza, possono ad un certo punto diventare obsoleti e non adatti a descrivere i nuovi dati in ingresso. L’obiettivo sarebbe quindi quello di sviluppare dei modelli che siano in grado di riconoscere il drift dei dati e di adattarsi ad esso, in modo da imparare a riconoscere le nuove strutture interne che li caratterizzano.La metodologia proposta in questa tesi mira alla creazione di un procedimento per l’identificazione del Concept Drift in dati testuali. In particolare si analizza il caso di un classificatore one-class, in grado inizialmente di identificare la classe dei dati di partenza. Si vuole determinare se, in presenza di nuovi dati, esso continua a funzionare correttamente o se si degrada. I dati nuovi infatti, se non appartengono alla stessa classe dei dati di partenza, verranno identificati come rumore o anomalie.Tramite algoritmi di clustering si analizzera’ il rumore identificato, in particolare si determinera’ se al suo interno si creano delle nuove classi. In questo caso il classificatore one-class non sara’ piu’ adatto a descrivere i nuovi dati in ingresso.Il metodo e’ stato testato su articoli di Wikipedia di due diversi argomenti e su recensioni di film positive e negative. I dati testuali vengono trasformati mediante la rete neurale del Word2vec in vettori numerici. Questa rete neurale trasforma le parole presenti nei documenti in vettori in modo che parole che si trovano spesso negli stessi contesti occuperanno le stesse regioni dello spazio.Nel primo esperimento si considerano come dati storici i testi del primo argomento e come dati nuovi i testi del secondo. Il classificatore one-class e’ addestrato per imparare a riconoscere la classe dei dati storici, quindi i dati nuovi vengono classificati come rumore o anomalie. Tramite tecniche di clustering sul rumore riconosciuto, si identifica la presenza di nuove classi al suo interno, che in questo caso corrispondono alla presenza di argomenti nuovi, inizialmente non conosciuti dal classificatore.Nel secondo esperimento si considerano come dati storici le recensioni positive e come dati nuovi le negative. Il classificatore imparera’ a riconoscere la classe delle recensioni positive, ma questa volta all' interno del rumore identificato non si riesce a distinguere la presenza di nuovi cluster. Cio’ avviene a causa della trasformazione operata sulle parole, che pone nelle stesse regioni dello spazio parole che si trovano in contesti simili. Infatti in questo caso, l’argomento trattato nei documenti testuali non varia, e non si riescono ad identificare dei nuovi cluster nel rumore analizzato.Sviluppi futuri della metodologia potrebbero essere la creazione di una metrica per l’identificazione quantitativa delle nuove classi formatesi e di strumenti specifici perla caratterizzazione delle nuove classi alternative alle word-cloud.

Relatori: Tania Cerquitelli
Anno accademico: 2020/21
Tipo di pubblicazione: Elettronica
Numero di pagine: 114
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Matematica
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-44 - MODELLISTICA MATEMATICO-FISICA PER L'INGEGNERIA
Ente in cotutela: INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE (INPG) - ENSIMAG (FRANCIA)
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/15594
Modifica (riservato agli operatori) Modifica (riservato agli operatori)