Metodologia per l'identificazione del Data Drift in una collezione di documenti testuali = A Metodology for Concept Drift Detection in a collection of textual documents

Elisa Grassi

Metodologia per l'identificazione del Data Drift in una collezione di documenti testuali = A Metodology for Concept Drift Detection in a collection of textual documents.

Rel. Tania Cerquitelli. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Matematica, 2020

Preview

PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.
Download (10MB) | Preview

Abstract

Nel contesto del Data Mining e del Machine Learning, esistono delle applicazioni in cui i dati evolvono nel tempo, e con essi cambiano le strutture e relazioni interne che li caratterizzano. Questo fenomeno, chiamato Concept Drift, determina la presenza di "concetti" diversi nei nuovi dati, cioe’ di strutture che non erano presenti nei dati iniziali. In questo contesto, i modelli di analisi creati sulla base dei dati di partenza, possono ad un certo punto diventare obsoleti e non adatti a descrivere i nuovi dati in ingresso. L’obiettivo sarebbe quindi quello di sviluppare dei modelli che siano in grado di riconoscere il drift dei dati e di adattarsi ad esso, in modo da imparare a riconoscere le nuove strutture interne che li caratterizzano.La metodologia proposta in questa tesi mira alla creazione di un procedimento per l’identificazione del Concept Drift in dati testuali.

In particolare si analizza il caso di un classificatore one-class, in grado inizialmente di identificare la classe dei dati di partenza