polito.it
Politecnico di Torino (logo)

DETECTING ERRORS IN ENVIRONMENTAL DATA A MACHINE LEARNING DATA CLEANING ALGORITHM APPLIED TO SNOW DATA

Giulia Blandini

DETECTING ERRORS IN ENVIRONMENTAL DATA A MACHINE LEARNING DATA CLEANING ALGORITHM APPLIED TO SNOW DATA.

Rel. Alberto Viglione, Francesco Avanzi. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Per L'Ambiente E Il Territorio, 2022

Abstract:

L’accesso in tempo reale a sensori di monitoraggio ambientale (es. stazioni meteorologiche, pluviometri, dispositivi di telerilevamento, ecc.) ha reso disponibile un elevata quantità di dati. La validazione della qualità, aspetto rilevante nella scienza ambientale, si è tradizionalmente basata sul controllo visivo da parte di esperti. Tuttavia, la sempre più crescente quantità di dati registrati ha reso tale procedura insostenibile. Questo studio valuta il contributo di un algoritmo di Machine Learning nel rilevamento degli errori nei grandi set di dati. Oggetto di studio è un classificatore Random Forest testato su un dataset di altezze di neve, raccolte ogni 30 minuti su un pool di 43 stazioni in 18 anni dal Centro Funzionale della Valle D'Aosta. Riferendosi alla preesistente classificazione manuale, il modello è stato allenato per distinguere l'altezza di neve dal manto erboso, identificando errori casuali e sistematici. Essendo gli errori eventi rari nel set di dati, l'algoritmo proposto sovra campiona le classi meno popolate ed esegue una 3-fold cross validation su un sottoinsieme rappresentativo. Gli iper parametri migliori sono stati scelti per ottenere una elevata precisione di classificazione e un ridotto carico computazionale. Si è scelto di utilizzare l’indice F1 score, media armonica tra precision e recall, come metrica di valutazione più efficace per questo caso di multi-classificazione sbilanciata. Il modello risulta affidabile nella classificazione dei dati rilevati di altezza di neve, copertura erbosa ed errori sistematici, raggiungendo valori F1 superiori al 90%. Un punteggio F1 inferiore al 70% registrato per le classi di errori casuali e dati ricostruiti abbassa il valore F1 medio del modello al 79%. Un test in fase predittiva su una singola stazione ha evidenziato, tramite un F1 pari a 0, difficoltà nella classificazione dell'errore casuale in caso di maggiore variabilità di codifica condensata in un breve intervallo temporale. L’algoritmo identifica le variabili di copertura osservata, temperatura oraria, umidità relativa oraria e radiazione oraria come migliori predittori per una corretta classificazione delle misurazioni registrate. Considerando implementazioni future, una Random Forest allenata con la procedura proposta consentirebbe un punteggio F1 superiore al 90% per la classificazione dei dati di altezza di neve e la discriminazione tra neve ed erba con l’utilizzo di 10000 campioni codificati, rappresentanti una stazione codificata per un anno. Si ottengono prestazioni affidabili nel rilevamento degli errori sistematici, mentre un punteggio F1 inferiore o uguale al 60% suggerisce la necessità di più campioni per il rilevamento di errori casuali. Un modello simile presentato registra migliori prestazioni negli anni estremi; punteggi F1 del 95% e dell'86% sono registrati negli anni con altezza di neve media cumulativa giornaliera inferiore a 25,6 cm (25th percentile) e superiore a 50,1 cm (75th percentile); per anni intermedi, caratterizzati da una maggiore variabilità di codici, si registra un punteggio F1 del 76%. Questo elaborato identifica nell’intelligenza artificiale uno strumento funzionale alla pulizia dei dati ambientali. In particolare, l’algoritmo di Machine Learning proposto risulta essere un supporto utile o una alternativa alla procedura manuale di classificazione dell'altezza di neve, discriminazione del manto erboso e rilevamento degli errori sistematici, richiedendo tuttavia ulteriori miglioramenti per il rilevamento degli errori casuali.

Relatori: Alberto Viglione, Francesco Avanzi
Anno accademico: 2021/22
Tipo di pubblicazione: Elettronica
Numero di pagine: 109
Informazioni aggiuntive: Tesi secretata. Fulltext non presente
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Per L'Ambiente E Il Territorio
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-35 - INGEGNERIA PER L'AMBIENTE E IL TERRITORIO
Ente in cotutela: Wroclaw University of Technology (POLONIA)
Aziende collaboratrici: Fondazione CIMA
URI: http://webthesis.biblio.polito.it/id/eprint/22041
Modifica (riservato agli operatori) Modifica (riservato agli operatori)