Tecniche di Binary Code Similarity e Binary Diffing per la classificazione di malware

Daniele Bevilacqua

Tecniche di Binary Code Similarity e Binary Diffing per la classificazione di malware.

Rel. Giovanni Squillero, Andrea Marcelli. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2019

Preview

PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.
Download (6MB) | Preview

Abstract

La tesi affronta il problema della valutazione della similarità tra binari (Binary Code Similarity Detection), che consiste nel determinare, a partire dal codice compilato, se due funzioni sono simili tra loro. Il problema trova diverse applicazioni pratiche, tra cui l’analisi dei malware, la ricerca di nuove vulnerabilità e dispute sul copyright. Lo stato dell’arte è rappresentato da modelli basati su “embeddings”, una tecnica di machine learning che mappa ciascuna porzione di codice in un vettore all’interno di uno spazio n-dimensionale, permettendo di catturare la somiglianza sintattica e semantica tra binari. Le tecniche esistenti differiscono nel pre-processamento utilizzato per estrarre gli embeddings, come l’estrazione del Control Flow Graph (CFG), o l’utilizzo di attributi statistici e strutturali dei programmi.

Mentre altri modelli basano il loro funzionamento sugli algoritmi di Locality Sensitive Hashing (LSH) applicati ai frammenti di codice che compongono il binario

Relatori

Giovanni Squillero, Andrea Marcelli

Anno Accademico

2018/19

Tipo di pubblicazione

Elettronica

Numero di pagine

Corso di laurea

Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)

Classe di laurea

Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA

URI

https://webthesis.biblio.polito.it/id/eprint/10900

Modifica (riservato agli operatori)