Reinforcement Learning per l'Analisi Dinamica di Malware Evasivo = Reinforcement Learning-aided Dynamic Analysis of Evasive Malware

Matteo Bunino

Reinforcement Learning per l'Analisi Dinamica di Malware Evasivo = Reinforcement Learning-aided Dynamic Analysis of Evasive Malware.

Rel. Francesco Vaccarino. Politecnico di Torino, Corso di laurea magistrale in Data Science And Engineering, 2022

Preview

PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.
Download (2MB) | Preview

Abstract:	Man mano che il cyberspazio diventa sempre più complesso, i cyber criminali cercano di trarre vantaggio del numero crescente di vulnerabilità. Ciò richiede agli esperti di sicurezza di investire maggiori risorse nello sviluppo di strumenti per l'analisi automatizzata del malware, in grado di far fronte al ritmo crescente di files binari sospetti. Il tallone d'Achille degli strumenti di analisi automatizzata è il malware evasivo, il quale mette in atto innumerevoli strategie per ostacolare l'analisi. Ad esempio, un malware evasivo è in grado di riconoscere la presenza di alcuni strumenti di analisi nell'ambiente in cui è eseguito, nascondendo, di conseguenza, la sua natura malevola, eseguendo solamente operazioni innocue. Un malware evasivo può ostacolare l'analisi offuscando staticamente il codice (es. tramite packer, crypter) o mettendo in pratica qualche sorta di evasione dinamica durante l'esecuzione (ad es. evasione da sandbox e debugger). L'obiettivo di questa tesi è di esplorare l'applicazione del Reinforcement Learning (RL) all'analisi dinamica del malware, al fine di rilevare nuovi schemi evasivi, riducendo l'onere dell'esplorazione esaustiva del grafo condizionale di un file binario sospetto. Gli approcci nello stato dell'arte, generalmente identificano le evasioni attraverso fingerprinting, che non è efficace nell'individuare lievi mutazioni dello stesso schema di evasione. Al contrario, questo lavoro utilizza un modello linguistico ispirato alle tecniche di Natural Language Processing (NLP), al fine di astrarre dalla sintassi del codice binario, preservandone la semantica. Inoltre, per migliorare rispetto alle soluzioni attualmente presenti nello stato dell'arte, la soluzione presentata considera allo stesso tempo sia gli schemi di evasione che la natura del codice protetto dalle condizioni evasive, con l'obiettivo di distinguere meglio i comportamenti evasivi dai falsi positivi. Di conseguenza, questo metodo è estendibile alla ricerca di funzionalità dannose nascoste in un binario sospetto. Tuttavia, rispetto al supervised learning, RL con approssimazione di funzione è soggetto a ulteriori fonti di instabilità durante l'apprendimento, siccome l'assunzione di avere accesso a campioni indipendenti e uniformemente distribuiti è spesso violata. Inoltre, come in molte applicazioni di RL nel mondo reale, l'analisi è complicata dalla presenza di ricompense sparse e stati non markoviani. Per raggiungere buoni risultati, abbiamo condotto numerosi esperimenti volti a raggiungere la convergenza ad una buona policy, confrontando tre miglioramenti rispetto al modello DQN. I risultati ottenuti dimostrano come gli agenti di RL siano in grado di apprendere buone policies, agendo contemporaneamente su più file binari ed essendo in grado di riconoscere correttamente le funzionalità malevole nascoste.
Relatori:	Francesco Vaccarino
Anno accademico:	2021/22
Tipo di pubblicazione:	Elettronica
Numero di pagine:	106
Soggetti:
Corso di laurea:	Corso di laurea magistrale in Data Science And Engineering
Classe di laurea:	Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Ente in cotutela:	INSTITUT EURECOM (FRANCIA)
Aziende collaboratrici:	NON SPECIFICATO
URI:	http://webthesis.biblio.polito.it/id/eprint/22588

Modifica (riservato agli operatori)