Enrico Giuseppe Grasso
Clustering di serie storiche finanziarie = Clustering of historical stock prices series.
Rel. Elena Maria Baralis, Luca Cagliero. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2019
|
PDF (Tesi_di_laurea)
- Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives. Download (48MB) | Preview |
Abstract: |
Fra degli algoritmi di data mining il clustering è sicuramente una delle tecniche più usate. Negli ultimi anni la ricerca si è soffermata su una nuova tipologia di dataset a cui applicare il clustering: le serie temporali. All'interno di questo lavoro gli algoritmi di clustering verranno applicati su un dataset formato da serie temporali che descrivono l'andamento del prezzo dei titoli azionari dell'indice S&P500, di cui fanno parte le 500 aziende statunitensi a maggiore capitalizzazione. Il clustering di serie temporali che descrivono l'andamento dei prezzi dei titoli è un utile strumento a supporto della gestione degli investimenti. L'individuazione delle correlazioni tra titoli è infatti un principio base per la diversificazione del portafoglio. L'obiettivo della diversificazione è diminuire il rischio degli investimenti tramite la presenza in portafoglio di più attività finanziarie il cui andamento non è correlato. Il clustering di serie temporali presenta alcune sfide nuove rispetto al clustering tradizionale. La principale difficoltà è legata alla definizione della misura di similarità. È anche importante valutare quanto debbano essere lunghe le serie temporali da analizzare. Al fine di creare uno strumento utile alla gestione del portafoglio, a differenza del clustering di generiche serie temporali, è un prerequisito fornire delle misure quantitative della somiglianza, tra singoli titoli o tra titoli appartenenti ad un cluster, in modo da dare un'indicazione misurabile all'analista. Inoltre risulta necessario anche poter settare i parametri che regolano la formazione dei cluster in modo che, differenti esecuzioni con differenti parametri, producano risultati diversi da poter confrontare. Questo lavoro propone l'utilizzo dell'algoritmo di clustering K-Shape e l'implementazione di una metodologia che consente di definire i parametri di similarità. La scelta di K-Shape, presentato all'interno del paper dal titolo “K-Shape Efficient and Accurate Clustering of Time Series” (J. Paparrizos & Luis Gravano - ACM SIGMOD Record, 45(1):69-76), è motivata principalmente dagli ottimi risultati che ha registrato in termini di accuratezza ed efficienza indipendentemente dal dominio in cui è stato applicato. L'obiettivo che ci si pone in questo lavoro è duplice: individuare i cluster all'interno del nostro dataset e individuare i singoli titoli con andamento simile tra loro. Si è definita una metodologia che prevede di eseguire l'algoritmo n volte, con n definito come parametro di input. Da queste esecuzioni viene creata una matrice, detta “matrice di similarità”. La matrice di similarità ha i simboli che identificano gli oggetti (le singole serie temporali) in ascissa e in ordinata. Nelle celle all'interno della matrice avremo il numero di volte (compreso tra 0 e n) che, nelle n esecuzioni, i due oggetti sono stati assegnati allo stesso cluster. Questo parametro verrà chiamato ``somiglianza''. In questo modo è diventato possibile: (1) definire i cluster con più robustezza considerando nella definizione dei cluster quante volte, nelle n esecuzioni, degli oggetti venivano assegnati allo stesso cluster e (2) escludere dall'analisi gli oggetti che, per quella fascia temporale, non possono considerarsi parte di un cluster. |
---|---|
Relators: | Elena Maria Baralis, Luca Cagliero |
Academic year: | 2019/20 |
Publication type: | Electronic |
Number of Pages: | 79 |
Subjects: | |
Corso di laurea: | Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering) |
Classe di laurea: | New organization > Master science > LM-32 - COMPUTER SYSTEMS ENGINEERING |
Aziende collaboratrici: | UNSPECIFIED |
URI: | http://webthesis.biblio.polito.it/id/eprint/13170 |
Modify record (reserved for operators) |