polito.it
Politecnico di Torino (logo)

Analisi delle prestazioni di reti neurali per la ricostruzione di oggetti 3D = Performance analysis of neural networks for 3D object reconstruction

Emanuela Favasuli

Analisi delle prestazioni di reti neurali per la ricostruzione di oggetti 3D = Performance analysis of neural networks for 3D object reconstruction.

Rel. Andrea Sanna, Federico Manuri. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione, 2023

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (8MB) | Preview
Abstract:

L’avanzamento delle capacità di calcolo e il potenziamento delle tecnologie hanno reso possibile l'addestramento di reti neurali per digitalizzare oggetti reali in ambienti virtuali. Ad oggi, le reti neurali sono in grado di ricostruire modelli tridimensionali partendo da immagini 2D. La mancanza di standardizzazione nei dataset per l’addestramento delle reti neurali rende complesso comprendere quali parametri delle immagini siano più influenti sulla qualità di ricostruzione 3D. Tale sfida è stata affrontata precedentemente in una tesi intitolata “Creazione di dataset di immagini sintetiche per l’addestramento di reti neurali dedicate alla generazione automatica di oggetti 3D” condotta dall’ing. Piparo, il cui scopo è stato quello di esplorare quale fosse l’impatto dei vari parametri delle immagini sintetiche, usate per il training di una rete neurale, sulla qualità dell'oggetto 3D ricostruito. Quest' ultimo elaborato è stato utilizzato come punto di riferimento nel presente lavoro per estendere l’approccio metodologico ad altre reti neurali con architetture diverse dalla rete BSP-Net. Inizialmente, è stata condotta un’analisi dettagliata delle diverse reti neurali coinvolte nella ricostruzione 3D, concentrandosi in particolare su quelle in grado di eseguire una ricostruzione da singola vista utilizzando immagini RGB. Dopo aver effettuato un’analisi comparativa, la rete neurale Pix2Vox è stata selezionata come caso studio di questo lavoro. Inizialmente, si è proceduto a configurare e adattare tale rete in modo da addestrarla con lo stesso dataset di immagini usato nella tesi precedente. Questo dataset è stato generato raccogliendo modelli tridimensionali rappresentativi di diverse categorie di oggetti ed effettuando diverse fasi di rendering, tramite il software Blender, per ottenere le relative immagini sintetiche. Poiché era già emerso che vari fattori come la risoluzione delle immagini, le condizioni di illuminazione, la presenza o l'assenza di materiale, l’utilizzo di immagini in scala di grigi, influenzano il processo di addestramento della rete, si è scelto di organizzare il dataset in categorie corrispondenti a specifiche tipologie di oggetti, ognuna delle quali presenta caratteristiche specifiche. L’addestramento in fase iniziale è stato eseguito ridimensionando le immagini del dataset di riferimento alle dimensioni operative della rete Pix2Vox, e poi successivamente, la rete è stata sottoposta ad ulteriori cicli di addestramento utilizzando immagini di dimensioni maggiori. Infine, è stato eseguito un confronto tra i risultati ottenuti nelle diverse prove e quelli ottenuti nella tesi precedente. L’obiettivo principale di questo confronto è stato quello di analizzare l’andamento della metrica di valutazione al variare dei parametri fondamentali che influenzano il processo di addestramento e la successiva qualità di ricostruzione 3D.

Relatori: Andrea Sanna, Federico Manuri
Anno accademico: 2023/24
Tipo di pubblicazione: Elettronica
Numero di pagine: 100
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: Politecnico di Torino
URI: http://webthesis.biblio.polito.it/id/eprint/28641
Modifica (riservato agli operatori) Modifica (riservato agli operatori)