polito.it
Politecnico di Torino (logo)

Machine Learning per identificazione e caratterizzazione di malware = Machine Learning for malware characterization and identification

Francesco Romano

Machine Learning per identificazione e caratterizzazione di malware = Machine Learning for malware characterization and identification.

Rel. Antonio Lioy, Andrea Atzeni. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2023

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (3MB) | Preview
Abstract:

La lotta tra gli analisti della sicurezza e gli sviluppatori di malware è una battaglia senza fine, con la complessità del malware che cambia tanto rapidamente quanto cresce l'innovazione. Ogni anno vediamo la crescita incontrollata del numero di nuovi malware, con ben 97.050.954 nuovi malware registrati negli ultimi 12 mesi da soli. Oltre alla loro crescita, un altro parametro preoccupante è quanto danni economici causano. Sempre più spesso sentiamo parlare di ransomware, una famiglia di malware il cui obiettivo è ottenere un riscatto per recuperare l'accesso ai dati "rubati". Attraverso i riscatti ottenuti dalle infezioni da ransomware i criminali informatici hanno causato danni per 457 milioni di dollari nel 2022, mentre nel 2021 l'importo era molto più alto, pari a 766 milioni di dollari. Per calcolare i danni economici, non è sufficiente parlare solo dei danni legati ai riscatti, ma è necessario considerare anche i danni all'immagine, i costi dovuti a una violazione dei dati e il tempo di lavoro necessario per ripristinare le infrastrutture, per questi motivi il costo totale è difficile da calcolare. Questa tesi è progettata per superare questa difficoltà, aiutando gli esperti di sicurezza informatica a gestire l'evoluzione del malware nel corso degli anni. Negli ultimi anni, l'apprendimento automatico è diventato sempre più importante in una vasta gamma di settori. Miglioramenti significativi nella capacità di raccogliere, elaborare e analizzare grandi quantità di dati, nonché miglioramenti nella potenza di calcolo dei computer, sono stati le forze trainanti di questo sviluppo. Il grande numero di infezioni da malware ogni giorno può essere sfruttato per ottenere un gran numero di dati che possono essere utilizzati per migliorare l'apprendimento dei modelli di apprendimento automatico, aiutando gli analisti della sicurezza a rendere la battaglia tra loro e gli sviluppatori di malware più fattibile. La tesi segue un processo ben definito, partendo dalla ricerca e dalla creazione del dataset, passando per una fase di pre-elaborazione dei dati, ottenendo le informazioni più significative per scopi di apprendimento automatico attraverso il data mining, e infine definendo un ciclo di addestramento e test dei modelli di apprendimento automatico, che mira a migliorarli e ottenere metriche ottimali per la gestione del compito per cui sono stati progettati. I test sono stati condotti con algoritmi di machine learning quali Random Forest, Gradient Boosting e K-Nearest Neighbors. Inoltre, nelle fasi finali dell'esperimento è stato utilizzato il Repeated Stratified K-Fold cross validator come possibile sostituto nella fase di data mining, i cui risultati si sono rivelati leggermente inferiori al corrispettivo, ma al tempo stesso i tempi di calcolo sono significativamente ridotti. Il modello proposto è stato quindi verificato come idoneo a gestire il compito di classificare le famiglie di malware, tenendo conto della loro possibile evoluzione nel corso degli anni; con l'algoritmo Random Forest è stato possibile ottenere una media di accuratezza dell'89% e una media di punteggio F1 dell'87%. Il modello proposto ridefinisce l'analisi del malware offrendo una base per strumenti avanzati. Può aiutare o sostituire le tecniche esistenti, garantendo un'adattabilità a lungo termine all'evoluzione del malware. Il principale vantaggio è l'eliminazione dell'analisi manuale intensiva in termini di tempo e costi e delle comparazioni tra versioni, rendendolo un elemento rivoluzionario nel campo.

Relatori: Antonio Lioy, Andrea Atzeni
Anno accademico: 2023/24
Tipo di pubblicazione: Elettronica
Numero di pagine: 103
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/28585
Modifica (riservato agli operatori) Modifica (riservato agli operatori)