polito.it
Politecnico di Torino (logo)

Locality-Sensitive Hashing per Open Vocabulary Multi-Object Tracking efficiente = Locality-Sensitive Hashing for efficient Open Vocabulary Multi-Object Tracking

Pietro Siliani

Locality-Sensitive Hashing per Open Vocabulary Multi-Object Tracking efficiente = Locality-Sensitive Hashing for efficient Open Vocabulary Multi-Object Tracking.

Rel. Lia Morra. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2025

[img] PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (12MB)
Abstract:

recenti sviluppi nei modelli multimodali, come CLIP, hanno abilitato il paradigma di open-vocabulary object detection, in cui gli oggetti possono essere individuati e classificati a partire da una query testuale, superando il vincolo di aderenza ad un insieme fisso di categorie. L’applicazione di queste tecnologie in contesti di tracking ha portato alla nascita di sistemi open vocabulary multi-object tracking (OV-MOT). Tuttavia, la complessità computazionale tipica di questi modelli ne ostacola l’impiego in scenari real-time. Il lavoro presentato ha come obiettivo la progettazione, implementazione e valutazione di una soluzione di OV-MOT in tempo reale. Il sistema proposto alleggerisce la fase di ricostruzione delle traiettorie, sostituendo le misure di similarità tradizionali, come cosine similarity o meccanismi di attention, con la distanza di Hamming tra rappresentazioni binarie apprese appositamente. L’architettura del tracker comprende una embedding net, una hashing net e un modulo di associazione e ricostruzione delle traiettorie. L’embedding net è costituita da una Feature Pyramid Network, che estrae dei region embedding per ciascuna predizione ottenuta da una backbone di open vocabulary object-detection (OV-OD) preaddestrata. La hashing net implementa una fun- zione di learnable locality-sensitive hashing (LLSH), che comprime e quantizza i region embedding in region encoding binari. L’associazione temporale tra le istanze è infine realizzata confrontando le codifiche binarie mediante distanza di Hamming. La rete è addestrata sul training set di TAO, tramite una combinazione di triplet loss e quantization loss, con l’obiettivo di garantire la robustezza degli encoding prodotti. Attraverso l’integrazione con una backbone di OV-OD efficiente, il tracker riesce a raggiungere prestazioni di OV-MOT real-time. I risultati sperimentali mostrano che il sistema, denominato BEHEMOTH (Binary Encodings by Hashing Every object for Multi-Object Tracking through Hamming-based comparison), risulta il modello open vocabulary più rapido tra le soluzioni attualmente disponibili. Sebbene si osservi una riduzione dell’accuratezza sulle base classes di TAO, le prestazioni zero-shot si collocano alla pari dello stato dell’arte. Ciò evidenzia sia la capacità discriminativa dei region encoding ottenuti tramite LSH, sia gli attuali limiti delle tecnologie open vocabulary.

Relatori: Lia Morra
Anno accademico: 2024/25
Tipo di pubblicazione: Elettronica
Numero di pagine: 77
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: AIDIA SRL
URI: http://webthesis.biblio.polito.it/id/eprint/36454
Modifica (riservato agli operatori) Modifica (riservato agli operatori)