Enrico Cecchetti
AutoDSM: Un framework per Auto-preprocessing = AutoDSM: An Auto-Preprocessing framework.
Rel. Paolo Garza. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2020
Abstract: |
Lo scopo di questo documento è quello di descrivere il lavoro svolto nel periodo compreso tra il 2 di Settembre e il 28 di Febbraio, durante il quale ho lavorato presso il data science Lab dell'azienda Alten di Sphia-Antipolis. Lo scopo del progetto al quale mi sono unito è stata la creazione di uno strumento di Auto-MachineLearning in ambito BigData. Come per un normale Machine Learning process, il lavoro è stato diviso in 2 parti: la prima parte, che punta a creare e ottenere automaticamente un buon data-set a scopo di analisi suiccessive; la seconda, che tratta la scelta del modello e il fine tuning dei parametri di configurazione, il tutto utile al miglioramento dell'accuratezza delle previsioni da parte del modello. In particolare il mio lavoro si è incentrato sulla parte nota come preprocessing, la quale rappresenta tipicasmente il 70-80% del lavoro di un data scientist. Nello specifico, sono stato incaricato di creare uno strumento di ETL per l' Estrazione di dati grezzi da qualsiasi DB(SQL, NOSQL, GRAPH), la loro Trasformazione, con scopo di rimozione di probabili inconsistenze e errori al proprio interno, e per ultimo il Caricamento di questi in delle strutture predefinite e generiche(GDO) pronti per essere usati da algoritmi di ML presenti nei seguenti moduli del sistema. |
---|---|
Relatori: | Paolo Garza |
Anno accademico: | 2019/20 |
Tipo di pubblicazione: | Elettronica |
Numero di pagine: | 82 |
Informazioni aggiuntive: | Tesi secretata. Fulltext non presente |
Soggetti: | |
Corso di laurea: | Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering) |
Classe di laurea: | Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA |
Ente in cotutela: | ALTEN (FRANCIA) |
Aziende collaboratrici: | ALTEN International |
URI: | http://webthesis.biblio.polito.it/id/eprint/14545 |
Modifica (riservato agli operatori) |