Identification and Clustering of Anomalies on Online Social Networks

Paola Caso

Identification and Clustering of Anomalies on Online Social Networks.

Rel. Martino Trevisan, Luca Vassio. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2022

Preview

PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.
Download (15MB) | Preview

Abstract:	I Social Network Online (OSNs) sono diventati parte integrante della vita moderna. Le piattaforme dei social media vengono utilizzate per condividere pensieri, storie, notizie e trasmettere eventi. La scoperta di argomenti di discussione all'interno degli OSNs può aiutare, ad esempio, a consigliare contenuti agli utenti in base ai loro interessi, o a scoprire eventi e avvenimenti importanti in tutto il mondo, spesso ancor prima che vengano riportati da giornali o altre forme di media classici. Questo lavoro mira a identificare gli eventi del mondo reale che hanno influenzato il flusso di post pubblicati sugli OSNs. Il nuovo approccio proposto prevede l'individuazione dei post anomali, cioè quelli che hanno ricevuto più reazioni del previsto, e il raggruppamento settimanale degli stessi, sulla base della somiglianza testuale dei loro contenuti, al fine di identificare gli eventi peculiari che probabilmente hanno indotto tale coinvolgimento atipico. La scelta per questa ricerca è ricaduta sulla piattaforma di condivisione di immagini Instagram, uno degli OSN più famosi e utilizzati al mondo, per sfruttare contenuti multimediali multimodali. Il set di dati è stato raccolto tra il 2015 e il 2021, contenente circa 1611 account di influencer italiani e 2.036.966 post, da CrowdTangle, uno strumento sui dati statistici pubblici di Facebook, permette di analizzare e fornire report su ciò che avviene relativamente ai contenuti pubblici sui social media. Il dataset è stato pre-elaborato, estraendo le caratteristiche principali, rimuovendo attributi non utili o dati errati, calcolando un punteggio di performance (in termini di reazioni ricevute) per ogni post, ed eseguendo analisi di Natural Language Processing (NLP) sul testo contenuto nella didascalia o all'interno dei media, dei post. Per la fase di Anomaly Detection sui post sono stati implementati quattro metodi classici dello stato dell'arte: un Modello ARIMA, il metodo Boxplot Rule, l'Isolation Forest e la tecnica Z-Score, tutti applicati sulle serie storiche del punteggi di performance assegnati ai post di ciascun influencer. Alle anomalie riscontrate con i vari metodi si sono aggiunte ulteriori caratteristiche testuali macchina-intelligibili, come la TF-IDF e la TF-IDF Sublineare, calcolate per ogni settimana del dataset. La fase finale prevede il raggruppamento delle anomalie settimanali per somiglianza testuale. A questo scopo sono stati implementati quattro algoritmi: il DBSCAN, applicato su una matrice di distanza a coppie precalcolata che coinvolge le didascalie dei post anomali, il K-Means, applicati su un vettore hash pesato delle parole didascalie, un modello LDA e algoritmi di Community Detection, applicati su un grafico di post anomali. I risultati ottenuti suggeriscono che alcuni post hanno effettivamente ricevuto più/meno reazioni del previsto in quanto il loro contenuto era correlato ad eventi esterni al mondo reale, mentre altri, classificati come "rumore" non sono correlati a tali eventi, quindi probabilmente hanno ottenuto un coinvolgimento anomalo per cause endogene all'OSN.
Relatori:	Martino Trevisan, Luca Vassio
Anno accademico:	2021/22
Tipo di pubblicazione:	Elettronica
Numero di pagine:	188
Soggetti:
Corso di laurea:	Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea:	Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici:	Politecnico di Torino
URI:	http://webthesis.biblio.polito.it/id/eprint/22841

Modifica (riservato agli operatori)