polito.it
Politecnico di Torino (logo)

Progettazione e generazione di un dataset sintetico fotorealistico orientato al grasp learning = Design and generation of a photorealistic synthetic dataset oriented to grasp learning

Jacopo Bertoglio

Progettazione e generazione di un dataset sintetico fotorealistico orientato al grasp learning = Design and generation of a photorealistic synthetic dataset oriented to grasp learning.

Rel. Andrea Bottino, Francesco Strada. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione, 2023

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (41MB) | Preview
Abstract:

L’identificazione della posizione e dell’orientamento che un braccio robotico deve assumere per ottenere una presa stabile di un determinato oggetto viene denominata grasp synthesis. Il problema in questione viene risolto, nell’ambito della computer vision, tramite dei dataset contenenti immagini che raffigurano oggetti di vario genere, utilizzati per allenare algoritmi orientati al grasping. Le immagini che compongono un dataset di questo tipo possono essere collezionate con apposite fotocamere nel mondo reale, comportando costi e tempistiche elevate, oppure in modo sintetico all’interno di un ambiente virtuale. Il lavoro svolto per questa tesi prevede la costruzione di un dataset sintetico contenente immagini fotorealistiche, generate all’interno del game engine Unity tramite l’ausilio della High Definition Render Pipeline, una pipeline di render che permette di ottenere i risultati fotorealistici desiderati. Per avvicinarsi il più possibile alla realtà è stato sfruttato il motore fisico interno a Unity, effettuando la simulazione di un certo numero di oggetti che, cadendo, si dispongono su di una superficie piana in modo casuale. Modificando il tipo di illuminazione, l’ambiente di background, il numero di oggetti presenti nella scena e, di conseguenza, il livello di clusterizzazione degli stessi, si è andata ad impostare una difficoltà crescente all’interno del dataset. La caratteristica principale del dataset costruito per questa tesi risiede nella segmentazione delle parti degli oggetti, la quale rende possibile il riconoscimento di singole parti di un oggetto orientate allo svolgimento di una specifica funzione, come ad esempio l’impugnatura di un coltello o il tappo di una bottiglia. La segmentazione per parti viene resa disponibile sotto forma di particolari immagini, definite maschere, che associano ciascuna parte di ogni oggetto ad un unico colore, fornendo l’associazione colore-parte tramite un apposito dizionario. Per garantire il raggiungimento di risultati soddisfacenti è necessario che la scala del dataset sia opportunamente grande per poter allenare a dovere l’algoritmo di grasping. Per questo motivo, il dataset è composto in totale da 174000 immagini e 88 oggetti, appartenenti a 38 differenti categorie. Il dataset è suddiviso in una porzione più consistente dedicata a train e validation e in una porzione più ridotta dedicata al test.

Relatori: Andrea Bottino, Francesco Strada
Anno accademico: 2023/24
Tipo di pubblicazione: Elettronica
Numero di pagine: 71
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/28460
Modifica (riservato agli operatori) Modifica (riservato agli operatori)