Machine Learning per l'automazione di processi di Data Quality = Machine learning for the automation of data quality processes

Vito Valente

Machine Learning per l'automazione di processi di Data Quality = Machine learning for the automation of data quality processes.

Rel. Paolo Garza. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2020

Preview

PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.
Download (1MB) | Preview

Abstract

L'aumento esponenziale delle fonti di dati a disposizione delle organizzazioni, ha spinto la crescita di modelli decisionali con approccio data-driven. La consapevolezza del fatto che la bontà dei risultati ottenuti è direttamente proporzionale alla qualità dei dati analizzati, ha come conseguenza un incremento dell'attenzione da parte delle aziende nei processi di data quality. La difficoltà nel definire in maniera oggettiva e generica il concetto di qualità, che risulta variabile in base all'ambito in cui ci si trova, rende gli algoritmi tradizionali di analisi della qualità delle informazioni dispendiosi e poco accurati. Lo scopo di questo lavoro è dunque quello di migliorare tale approccio sfruttando meccanismi basati sul Machine Learning al fine di eliminare le soglie fisse dettate dagli esperti di settore ed inserite nelle regole di business che dominano gli algoritmi tradizionali.

Verranno presentate di seguito due strategie atte al miglioramento della fase di data quality all'interno di una pipeline di raccolta ed elaborazione di informazioni provenienti da veicoli