polito.it
Politecnico di Torino (logo)

Statistics and Volleyball: detection of the most significant skills and their importance in the results prediction.

Francesca Leo

Statistics and Volleyball: detection of the most significant skills and their importance in the results prediction.

Rel. Franco Pellerey, José Maria Fernandez Ponce. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Matematica, 2019

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (1MB) | Preview
Abstract:

In questo elaborato si è cercato di individuare i gesti tecnici più rilevanti nel mondo della pallavolo e, grazie ad essi, predire il risultato di un match. In particolare, il dataset utilizzato contiene 120 partite di volley maschile giocate durante la Nations League 2018 dalle migliori nazionali del mondo. Il primo strumento che ben si addice al raggiungimento del nostro obiettivo è la regressione logistica, essa richiede però che sia le osservazioni che i predittori siano tra loro indipendenti. Per questo motivo, inizialmente si è implementato l'algoritmo estraendo sottoinsiemi indipendenti di variabili, ma la massima accuratezza ottenuta è stata del 78.13%. Di conseguenza, per migliorare tale percentuale, è stata avviata una fase di pre-processing sulle variabili: l'Analisi delle Componenti Principali (PCA). La regressione logistica è stata nuovamente implementata basandosi sulle nuove variabili generate e l'accuratezza della predizione è salita all'82.59%. Una seconda tecnica denominata Random Forest ci ha concesso di predire il risultato di ogni set con un'accuratezza molto simile alla precedente. Ciò che distinguiamo in questo algoritmo è la possibilità di non sottostare ad alcuna fase di preparazione dei dati e soprattutto di fornirci un ranking diretto delle variabili considerate. Le variabili offensive sono risultate essere decisamente significative rispetto a quelle di difesa. Infine, sono stati selezionati due test non parametrici di confronto tra le distribuzioni empiriche dei dati relativi a vincitori e perdenti, il test di Kolmogorov-Smirnov tra due campioni e quello di Mann-Whitney. Essi confermano quanto riscontrato in precedenza: la fase di ricezione, per esempio, presenta Funzioni di Distribuzioni Cumulative Empiriche (ECDF) molto simili, mentre la densità ottenuta per i vincitori riguardante variabili positive rilevanti è sempre shiftata verso destra rispetto a quella dei perdenti. Un ulteriore approfondimento relativo a questa tipologia di dati potrebbe essere l'implementazione del PP-plot per effettuare un ordinamento stocastico dei campioni. Si potrebbero inoltre ripetere gli stessi modelli cambiando le variabili usate come predittori o infine confrontando i risultati che si otterrebbero analizzando le nazionali femminili.

Relatori: Franco Pellerey, José Maria Fernandez Ponce
Anno accademico: 2018/19
Tipo di pubblicazione: Elettronica
Numero di pagine: 95
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Matematica
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-44 - MODELLISTICA MATEMATICO-FISICA PER L'INGEGNERIA
Ente in cotutela: Departamento Estadística e Investigación Operativa, Universidad de Sevilla (SPAGNA)
Aziende collaboratrici: Universidad de Sevilla
URI: http://webthesis.biblio.polito.it/id/eprint/10369
Modifica (riservato agli operatori) Modifica (riservato agli operatori)