polito.it
Politecnico di Torino (logo)

Judo Online Action Detection e Pose Estimation

Federico Vasile

Judo Online Action Detection e Pose Estimation.

Rel. Tatiana Tommasi. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2021

Abstract:

Dall'avvento dell'architettura AlexNet nel 2012, Deep Learning e Computer Vision hanno acquisito molta importanza partendo da compiti quali classificazione di immagini fino ad arrivare a sfide più importanti e attuali legate ad esempio al dominio dei video e la classificazione di azioni. La classificazione di azioni è un problema molto ampio a sua volta diviso in sotto-compiti a seconda del tipo e della granularità dell'informazione che si vuole estrarre dal video. Nonostante questa sia attuale un'attiva area di ricerca, la maggior parte degli sforzi sono spesi nel migliorare l'accuratezza di tali modelli piuttosto che la loro efficienza. In particolare, il processamento real-time è essenziale per applicazioni come la video sorveglianza e la guida autonoma; questo porta alla definizione di un compito specifico: Online Action Detection. Lo scopo di questa tesi è esplorare la Online Action Detection, partendo da una profonda analisi dello stato dell'arte fino ad arrivare alla soluzione proposta, la quale non solo migliora drasticamente l'efficienza della rete ma bensì porta anche un leggero ma significativo incremento in termini di accuratezza. Infine, si vogliono migrare i modelli di Online Action Detection su un dataset proprietario contenente incontri di Judo, qui l'obiettivo è di individuare temporalmente e classificare tutte le azioni che i due judoka eseguono durante il combattimento. Durante questa fase lo studio si evolve in due direzioni. La prima consiste nel prendere tutti i modelli precedentemente esaminati su di un dataset pubblicamente disponibile e trasferirli sul Judo dataset, con lo scopo di analizzare se le conclusioni tratte sul dataset pubblico rimangono valide anche sul dataset privato. I risultati ottenuti da questi modelli migrati sul dataset privato verranno utilizzati come base di riferimento per svolgere confronti con delle varianti progettate specificatamente per il Judo dataset. La seconda direzione è totalmente interessata ai dati: dato che il dataset proprietario presenta un'etichettatura grossolana, rumorosa e il numero di campioni non è così elevato da permettere un allenamento robusto di modelli aventi molti parametri, è necessario effettuare un'estensiva investigazione volta a cercare di stimare quanto ognuno di questi problemi influisca realmente sui modelli. Inoltre, per migliorare ulteriormente l'efficienza del modello, un recente modello di Pose Estimation è stato integrato nel modello complessivo. Questo è stato utilizzato sia durante l'allenamento del modello per pulire il dataset e in fase di inferenza per gestire in maniera intelligente lo stream di input, permettendo che ogni componente del modello complessivo processi l'input solamente quando necessario, portando notevoli benefici in termini di efficienza. Nonostante il modello finale ottenga buona prestazioni sul Judo dataset, ogni azione di Judo (che il modello è attualmente in grado di classificare) è a sua volta divisa in più azioni che differiscono per delle caratteristiche a grana molto più fine, ciò vuol dire che molte strade sono ancora da esplorare, provando sia una diversa sorgente di acquisizione dati (es. usando video di allenamenti piuttosto che incontri) che un più sofisticato utilizzo delle componenti hardware e relativo software (es. l'uso di telecamere multiple anziché una).

Relatori: Tatiana Tommasi
Anno accademico: 2020/21
Tipo di pubblicazione: Elettronica
Numero di pagine: 110
Informazioni aggiuntive: Tesi secretata. Fulltext non presente
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: ADDFOR S.p.A
URI: http://webthesis.biblio.polito.it/id/eprint/18199
Modifica (riservato agli operatori) Modifica (riservato agli operatori)