Individuazione di data breach su Telegram via crawler e machine learning = Detection of data breach on Telegram via crawler and machine learning

Armando Chimirri

Individuazione di data breach su Telegram via crawler e machine learning = Detection of data breach on Telegram via crawler and machine learning.

Rel. Marco Mellia. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2023

Abstract:	Nell’ambito della cybersecurity si pone grande attenzione al problema del data breach, ossia alla violazione dei dati personali che consiste nella distruzione, perdita, modifica o divulgazione non autorizzata. Fare breccia nel sistema informatico di un’organizzazione e privarla dei suoi dati, non solo rappresenta un allarme alla sicurezza dei vari utenti, ma genera anche una spesa onerosa, a cui ogni azienda deve far fronte per contenere la falla e mettere in piedi un nuovo sistema di sicurezza e monitoraggio più efficiente e sicuro. In un’epoca come la nostra, in cui il dato ha un valore elevato, i cracker che portano a termine con successo un data breach usano mezzi veloci e non rintracciabili, come servizi di messaggistica istantanea, per vendere la propria refurtiva al miglior offerente. In quest’ambito, Telegram si contraddistingue come uno tra gli strumenti presenti sul mercato più appetibili per tali soggetti. Questa applicazione, infatti, a causa della sua fitta rete social e, soprattutto, del regime di privacy adottato e della garanzia di anonimato dell’utente che vi opera, si configura come una tra le migliori piattaforme in cui il “mercato nero” dei dati trova terreno favorevole per proliferare. Con il presente elaborato si è provveduto allo studio e alla realizzazione di uno strumento automatizzato che possa aiutare gli addetti a rintracciare in breve tempo un data breach divulgato su Telegram, in modo da poter segnalare la violazione all’organizzazione interessata. Tali finalità sono state raggiunte attraverso l’utilizzo di un crawler che esplora l’estesa rete di gruppi e canali Telegram, raccogliendo le conversazioni che vengono scambiate all’interno di questi ultimi. In questo modo, è stato popolato un dataset che possiede attualmente le conversazioni di 12.658 canali, per un totale di circa dieci milioni di messaggi. Una parte di questi è stata processata attraverso tecniche di NLP (natural language processing), al fine di addestrare un modello supervisionato di machine learning che riveli quali sono i messaggi che contengono dei dati violati e segnalare, così, il canale interessato. Questa tesi ha, quindi, l’obiettivo di contribuire alla lotta al cybercrimine, fornendo uno strumento di supporto innovativo in grado di gestire con rapidità le segnalazioni di data breach.
Relatori:	Marco Mellia
Anno accademico:	2022/23
Tipo di pubblicazione:	Elettronica
Numero di pagine:	58
Informazioni aggiuntive:	Tesi secretata. Fulltext non presente
Soggetti:
Corso di laurea:	Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea:	Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici:	ERMES CYBER SECURITY S.R.L.
URI:	http://webthesis.biblio.polito.it/id/eprint/26909

Modifica (riservato agli operatori)