Creazione di dataset di immagini sintetiche per l'addestramento di reti neurali dedicate alla generazione automatica di oggetti 3D = Creation of synthetic image datasets for training neural networks dedicated to the automatic generation of 3D objects

Ismaele Piparo

Creazione di dataset di immagini sintetiche per l'addestramento di reti neurali dedicate alla generazione automatica di oggetti 3D = Creation of synthetic image datasets for training neural networks dedicated to the automatic generation of 3D objects.

Rel. Andrea Sanna, Federico Manuri. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione, 2022

Preview

PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.
Download (10MB) | Preview

Abstract:	Negli ultimi anni si è visto un generale aumento di interesse nel campo dell’intelligenza artificiale e delle reti neurali soprattutto nell’ambito della Computer Vision. Se in principio la maggior parte delle reti neurali erano progettate per compiti come il riconoscimento o la classificazione di immagini, oggi l’intelligenza artificiale viene spesso usata anche per la ricostruzione di oggetti 3D a partire da una o più immagini bidimensionali dello stesso oggetto. Per fare ciò la rete viene allenata utilizzando dei dataset di immagini che mostrano diversi oggetti ripresi da varie angolazioni e pose. Diversi studi hanno mostrato inoltre che non è necessario utilizzare immagini “reali” di oggetti ma che sia possibile utilizzare anche dataset di immagini sintetiche per il training di una rete neurale. In particolare, però non esistono indicazioni specifiche in letteratura riguardo i parametri che le immagini sintetiche devono avere per permettere ad una rete neurale di ottenere buoni risultati in fase di ricostruzione. Lo scopo di questa tesi è, dunque, quello di indagare quali parametri di un’immagine sintetica, usata per il training di una rete neurale, vadano ad impattare di più sulla qualità dell’oggetto 3D ricostruito. Più in generale, dato che sia il processo di training della rete neurale che il processo di generazione di immagini sintetiche possono essere molto onerosi in termini di risorse hardware e di tempo di calcolo, si è voluto indagare quali fossero i parametri che potessero ottimizzare al meglio le due fasi ottenendo comunque buoni risultati in termine di ricostruzione di un oggetto 3D. Per svolgere tale compito si è scelto di usare come modello di riferimento BSP-net una rete neurale che permette la ricostruzione di mesh 3D a partire da una singola immagine 2D in input. Tramite lo sviluppo di una pipeline dedicata alla creazione di dataset di immagini sintetiche, pensata appositamente per lo scopo della ricerca, si è proceduto alla creazione dei vari dataset di immagini usati per il training della rete neurale. Le immagini utilizzate sono state ottenute attraverso render di vari modelli 3D utilizzando il software Blender e le funzioni offerte dalle librerie di Blenderproc. Per testare le capacità di ricostruzione della rete neurale si è sfruttato invece il dataset Pix3D che fornisce sia dei modelli 3D di oggetti, usati come ground truth per valutare la qualità degli oggetti ricostruiti dalla rete neurale, sia una corrispondente serie di immagini reali di tale oggetto usate come input in fase di ricostruzione. Lo studio è stato effettuato su tre classi di oggetti: sedie, tavoli e armadi/librerie. Per ognuna di queste classi è stato analizzato come la risoluzione delle immagini usate per il training potesse incidere sulla ricostruzione di un oggetto 3D. In seguito, sono stati analizzati altri fattori che potessero influire sulla ricostruzione come, ad esempio, la presenza o meno di materiali applicati al modello 3D, la posizione della camera usata per i render, la tipologia di illuminazione o la scelta di utilizzare immagini in scala di grigi al posto di immagini a colori. Infine, analizzando tutti i risultati ottenuti si è cercato di fornire un’indicazione generale su quali potessero essere i parametri migliori che ottimizzino al meglio sia la fase di creazione di un dataset di immagini sintetiche che le prestazioni della rete neurale che utilizzerà quel dataset.
Relatori:	Andrea Sanna, Federico Manuri
Anno accademico:	2022/23
Tipo di pubblicazione:	Elettronica
Numero di pagine:	95
Soggetti:
Corso di laurea:	Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione
Classe di laurea:	Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici:	NON SPECIFICATO
URI:	http://webthesis.biblio.polito.it/id/eprint/25431

Modifica (riservato agli operatori)