polito.it
Politecnico di Torino (logo)

Machine Learning per l'automazione di processi di Data Quality = Machine learning for the automation of data quality processes

Vito Valente

Machine Learning per l'automazione di processi di Data Quality = Machine learning for the automation of data quality processes.

Rel. Paolo Garza. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2020

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (1MB) | Preview
Abstract:

L'aumento esponenziale delle fonti di dati a disposizione delle organizzazioni, ha spinto la crescita di modelli decisionali con approccio data-driven. La consapevolezza del fatto che la bontà dei risultati ottenuti è direttamente proporzionale alla qualità dei dati analizzati, ha come conseguenza un incremento dell'attenzione da parte delle aziende nei processi di data quality. La difficoltà nel definire in maniera oggettiva e generica il concetto di qualità, che risulta variabile in base all'ambito in cui ci si trova, rende gli algoritmi tradizionali di analisi della qualità delle informazioni dispendiosi e poco accurati. Lo scopo di questo lavoro è dunque quello di migliorare tale approccio sfruttando meccanismi basati sul Machine Learning al fine di eliminare le soglie fisse dettate dagli esperti di settore ed inserite nelle regole di business che dominano gli algoritmi tradizionali. Verranno presentate di seguito due strategie atte al miglioramento della fase di data quality all'interno di una pipeline di raccolta ed elaborazione di informazioni provenienti da veicoli. La prima strategia prevede l'uso dell'algoritmo di Isolation Forest e si pone come obiettivo la ricerca efficace ed automatica di outliers all'interno dei dati caratterizzati da un elevato numero di dimensioni. Tale problematica risulta particolarmente complicata dal momento che le dimensioni meno rilevanti tendono ad aumentare il livello di sparsità dei dati e nascondere così gli elementi sospetti. Il secondo approccio è mirato invece alla ricerca locale di anomalie all'interno di un sottospazio definito e limitato dei dati, facendo uso del metodo di Local Outlier Factor. In questo caso ci si allontanerà dall'esplorazione globale al fine di analizzare dimensioni caratterizzate da legami particolarmente importanti. Entrambe le soluzioni permetteranno di eliminare i lunghi tempi necessari all'identificazione dei parametri di accettabilità dei dati da parte degli esperti di dominio e i possibili errori tipici dell'operazione. Le performance dei metodi implementati verranno misurate e comparate in termini di precisione e richiamo nell'ultima parte dell'elaborato, dove verranno inoltre evidenziate le principali limitazioni e i possibili sviluppi futuri.

Relators: Paolo Garza
Academic year: 2020/21
Publication type: Electronic
Number of Pages: 75
Subjects:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: New organization > Master science > LM-32 - COMPUTER SYSTEMS ENGINEERING
Aziende collaboratrici: DATA Reply S.r.l. con Unico Socio
URI: http://webthesis.biblio.polito.it/id/eprint/16661
Modify record (reserved for operators) Modify record (reserved for operators)