polito.it
Politecnico di Torino (logo)

Anomaly detection su database tramite tecniche di machine learning e analisi dati = Anomaly detection in a database, by employing machine learning and data analysis tools

Ilenia Giunta

Anomaly detection su database tramite tecniche di machine learning e analisi dati = Anomaly detection in a database, by employing machine learning and data analysis tools.

Rel. Daniele Apiletti. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Gestionale, 2022

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB) | Preview
Abstract:

Questa tesi ha l’obiettivo di individuare/rilevare anomalie di una base dati attraverso modelli di tipo non supervisionato partendo da un dataset di indicatori facenti riferimento alla performance di un database. Il lavoro è stato svolto all’interno dell’azienda di consulenza informatica Mediamente Consulting srl, in particolare nella business unit di Infrastruttura Tecnologica, nella quale sono create e gestite oltre che monitorate strutture informatiche. Al giorno d’oggi l’anomaly detection ricopre un vasto ambito di ricerca del machine learning, viste le numerose possibilità di applicazione in settori come, ad esempio, biologia, prevenzione di frodi, riconoscimento oggetti, analisi di immagini. Il progetto si basa sull’idea di utilizzare modelli di machine learning in supporto agli odierni metodi di monitoraggio di un database; il percorso, intrapreso già da altri lavori di tesi sviluppati nella stessa azienda, prosegue cercando di trovare dei modelli in grado di distinguere gli istanti in cui la base dati non è performante/status di salute. È stato seguito il processo del KDD (Knowledge Discovery in Databases) che, attraverso le fasi di data cleaning, data integration, data transformation, data mining, pattern evaluation e knowledge presentation, è in grado di portare a dei risultati consistenti. In questo caso studio, si è partiti dalla creazione di un dataset all’interno di un ambiente di sviluppo mediante Swingbench, un tool di simulazione di attività impattanti su un database e successivamente analizzato utilizzando librerie e tool del linguaggio di programmazione Python. A Swingbench - e i benchmarks utilizzati al suo interno quali Sales History, Order Entry e TPCDS – è stato affiancato in parallelo un test personalizzato allo scopo di aumentare il carico/sforzo del database. Seguendo un approccio esplorativo, sono stati analizzati i valori del dataset, depurati e trasformati per essere più significativi con il fine di estrarre conoscenza e informazione dall’applicazione di modelli di tipo non supervisionato. L’approccio non supervisionato in particolare permette di trovare anche pattern non visibili senza l’intervento umano, da sfruttare successivamente per creare o migliorare degli strumenti più mirati al problema preso in esame.

Relatori: Daniele Apiletti
Anno accademico: 2022/23
Tipo di pubblicazione: Elettronica
Numero di pagine: 73
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Gestionale
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-31 - INGEGNERIA GESTIONALE
Aziende collaboratrici: Mediamente Consulting srl
URI: http://webthesis.biblio.polito.it/id/eprint/24187
Modifica (riservato agli operatori) Modifica (riservato agli operatori)