polito.it
Politecnico di Torino (logo)

Sviluppo e applicazione di un algoritmo di Machine Learning per l'identificazione di e-mail di phishing = Development and application of a Machine Learning algorithm for phishing emails identification

Vito Christian Carulli

Sviluppo e applicazione di un algoritmo di Machine Learning per l'identificazione di e-mail di phishing = Development and application of a Machine Learning algorithm for phishing emails identification.

Rel. Cataldo Basile. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2024

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (1MB) | Preview
Abstract:

Il fenomeno delle e-mail di phishing rappresenta una delle principali minacce alla sicurezza informatica, mirata a ingannare gli utenti al fine di ottenere informazioni personali, come credenziali di accesso, informazioni finanziarie o altri dati sensibili. Spesso le e-mail di phishing contengono caratteristiche comuni come errori grammaticali, grafica di bassa qualità e richieste urgenti di fornire informazioni personali o cliccare su link. Un algoritmo di machine learning, sfruttando questi schemi ricorrenti, grazie alla sua capacità di apprendere da grandi quantità di dati, offre soluzioni efficaci per l'identificazione e la mitigazione di queste minacce. L'obiettivo di questa tesi, svolta presso Spike Reply, è applicare tali algoritmi per individuare potenziali e-mail malevoli. Lo studio prende in analisi l'intera e-mail per garantire la robustezza del processo contro tutte le variazioni possibili in un contesto reale. Per ogni e-mail vengono considerati header, testo e allegati che subiscono un processo di preprocessing volto a semplificare e uniformare i dati da utilizzare per l’addestramento dell’algoritmo. Al termine dell’esecuzione vengono riportate predizioni sugli input forniti con associata confidenza che specifica quanto siano affidabili. L'approccio seguito si è dimostrato estremamente efficace nell'identificare le e-mail di phishing, raggiungendo un buon livello di accuratezza. Un aspetto particolarmente rilevante è stato il limitato numero di falsi positivi, che è un elemento cruciale per garantire l'affidabilità del sistema in contesti reali poiché consente di evitare che e-mail legittime vengano erroneamente segnalate come pericolose.

Relatori: Cataldo Basile
Anno accademico: 2024/25
Tipo di pubblicazione: Elettronica
Numero di pagine: 61
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: SECURITY REPLY SRL
URI: http://webthesis.biblio.polito.it/id/eprint/33029
Modifica (riservato agli operatori) Modifica (riservato agli operatori)