polito.it
Politecnico di Torino (logo)

Extractive Timeline Summarization based on Unsupervised Techniques

Stefano Munna

Extractive Timeline Summarization based on Unsupervised Techniques.

Rel. Luca Cagliero. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2020

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (835kB) | Preview
Abstract:

Con l’importanza crescente che Internet sta assumendo con il passare del tempo, vengono pubblicati nei numerosi siti web di notizie sempre più articoli riguardanti vari argomenti: agli utenti che sono interessati a conoscere lo sviluppo di un evento in particolare potrebbe far comodo un sistema che gli presenti un riassunto di quel particolare evento o una descrizione della sua evoluzione nel tempo. Questi sono i problemi che vengono affrontati dai task di Multi-document summarization, con l’obiettivo di fornire all’utente un riassunto completo e privo di ridondanze che condensi al suo interno le informazioni su uno specifico evento provenienti da diversi articoli, temporal summarization, con l’obiettico di tenere informato l’utente sullo svilupparsi di un evento, fornendo aggiornamenti significativi e non ridondanti non appena essi sono disponibili, e timeline summarization, con l’obiettivo di descrivere la “storia” di un evento concluso, evidenziando le date e gli avvenimenti più significativi per quell’evento,riassumendola in una timeline. In questa tesi sono stati analizzati e presentati i vari algoritmi di text, temporal e timeline summarization presenti allo stato dell’arte: l’obiettivo di questa tesi è creare un framework che performi la timeline summarization seguendo una pipeline (selezione delle date, estrazione del riassunto “giornaliero”,visualizzazione della timeline) che consiste nel selezionare le date più significative (a partire da un insieme di frasi riguardanti l’evento di interesse), per poi selezionare le frasi più rappresentative per ogni data tra le frasi associate alla data stessa tramite un algoritmo di text summmarization, con l’obiettivo di esplorare le performance dei vari algoritmi di text summarization implementati per questo step, confrontando alla fine i risultati ottenuti testando i vari algoritmi su due diversi datasets (CRISIS e T17) e valutando le timeline prodotte, da ogni algoritmo e su ogni dataset, usando delle varianti della metrica ROUGE. Per l’ultimo blocco della timeline, presentiamo un’applicazione web che costruisce unna rappresentazione grafica della timeline, con l’obiettivo di fornire all’utente un metodo comodo e user-oriented di esplorare il contenuto della timeline generata dal sistema.

Relatori: Luca Cagliero
Anno accademico: 2020/21
Tipo di pubblicazione: Elettronica
Numero di pagine: 98
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/16702
Modifica (riservato agli operatori) Modifica (riservato agli operatori)