polito.it
Politecnico di Torino (logo)

Anomaly Detection: implementazione e integrazione di modelli non supervisionati su metriche di performance. = Anomaly Detection: implementation and integration of unsupervised models on performance metrics.

Camilla Gaudiani

Anomaly Detection: implementazione e integrazione di modelli non supervisionati su metriche di performance. = Anomaly Detection: implementation and integration of unsupervised models on performance metrics.

Rel. Tania Cerquitelli. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Gestionale, 2022

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (3MB) | Preview
Abstract:

In un mercato sempre più competitivo e in continuo mutamento, la digitalizzazione dei processi aziendali determina l’elaborazione di grandi quantità di dati, i cosiddetti Big Data. La loro elaborazione richiede tecnologie innovative; tramite tecniche di Machine Learning è possibile estrarre informazioni dai dati, con molta più efficienza di quanto farebbe l’uomo. La tesi è stata sviluppata per rispondere alla necessità di rendere più efficiente il sistema di gestione degli allarmi di un’azienda, con l'obiettivo di trasformare l’approccio reattivo alla rilevazione delle anomalie, basato sulla comunicazione diretta tra operatore e cliente, in un approccio proattivo, tramite l’implementazione di modelli di Machine Learning. Tale evoluzione apporta molteplici miglioramenti all’attuale sistema di monitoraggio adottato dall’azienda tra cui maggiore tempestività ed efficienza nella gestione e nella risoluzione dei problemi, con riduzione dei costi aziendali. La prima fase di analisi si è basata sulla selezione delle metriche di performance tramite l’analisi di correlazione e degli andamenti delle metriche. L’analisi di correlazione è stata effettuata per identificare le features ridondanti. Per effettuare l’analisi si è scelto di adottare un approccio grafico. Nello specifico, per determinare il coefficiente di correlazione ottimale, da considerare per ridurre le features, sono stati condotti test di unità tramite valutazioni a coppie di metriche. Per identificare le features irrilevanti ai fini dell’ Anomaly Detection sono state effettuate analisi univariate, con lo scopo di individuare metriche con andamenti costanti. La seconda fase si è incentrata sull’implementazione di modelli di Machine Learning. Sono stati utilizzati due approcci: il primo si è basato sull’applicazione di cinque modelli di serie temporali, il secondo, invece, sull’implementazione di un algoritmo di Machine Learning non supervisionato che sfrutta gli alberi decisionali, quale l’Isolation Forest. Le analisi hanno mostrato che, nel caso di metriche caratterizzate da andamenti costanti e da un numero di picchi limitato, generalmente, tutti gli algoritmi erano in grado di identificare le anomalie globali. Le principali criticità sono emerse sia nelle metriche caratterizzate da più oscillazioni, in questo caso alcuni picchi venivano rilevati come anomali solo da alcuni metodi, sia nel caso delle anomalie contestuali. Al fine di rendere le analisi più efficienti, per effettuare il rilevamento delle anomalie, sono state utilizzate delle “rolling windows”. Le analisi hanno mostrato che l’ampiezza della finestra di calcolo impatta nel rilevamento delle anomalie. Infine, per l’Isolation Forest si è proceduto con un processo di feature engineering. Le analisi hanno mostrato che, nonostante il metodo non sia un modello di serie temporali, esso non si discosta maggiormente dai risultati ottenuti dalle altre metodologie. Nel progetto di tesi è stato proposto un modello che ha integrato tutti i metodi di Anomaly Detection implementati. Il concetto sul quale si è fondato il modello integrato è il cosiddetto “Majority Voting”. Quest’ultimo è stato ideato per rispondere all’assenza di etichettatura circa il reale stato di anomalia di un‘osservazione, assegnando lo stato di anomalia per “maggioranza di voti”. Il modello proposto si è posto l’obiettivo di migliorare il risultato finale, sfruttando la potenza di più algoritmi e, dunque, superando le criticità del singolo metodo.

Relatori: Tania Cerquitelli
Anno accademico: 2022/23
Tipo di pubblicazione: Elettronica
Numero di pagine: 117
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Gestionale
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-31 - INGEGNERIA GESTIONALE
Aziende collaboratrici: Mediamente Consulting srl
URI: http://webthesis.biblio.polito.it/id/eprint/25384
Modifica (riservato agli operatori) Modifica (riservato agli operatori)