Generazione automatica di animazioni 3D da contenuti multimodali = Automatic generation of 3D animations from multimodal content

Luca Macis

Generazione automatica di animazioni 3D da contenuti multimodali = Automatic generation of 3D animations from multimodal content.

Rel. Fabrizio Lamberti, Alberto Cannavo', Valentina Gatteschi. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2021

Preview

PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.
Download (7MB) | Preview

Abstract:	Spesso, la comprensione di informazioni testuali può essere migliorata attraverso adeguati contenuti visivi, quali immagini e video. Un caso d’uso può essere rappresentato dai manuali utente, nei quali le istruzioni testuali sono spesso accompagnate da immagini esemplificative. Contenuti video, come pure, applicazioni grafiche (interattive o meno), ad esempio in realtà virtuale o aumentata, potrebbero aumentare ulteriormente l’efficacia di tale materiale, mostrando in maniera animata lo svolgimento dei passi richiesti. Tuttavia, la generazione di questi contenuti è, ad oggi, un processo manuale e lento, poiché ogni contenuto deve essere specifico, ad esempio nel caso d’uso menzionato, per la particolare procedura e la relativa sequenza di istruzioni. Lo strumento realizzato nel presente lavoro di tesi mira a generare in modo automatico un video in computer grafica, utilizzando in ingresso una sorgente multi-modale, ovvero un testo in linguaggio naturale e una serie di immagini, provenienti da un documento collegato, ed una libreria di modelli 3D animati. Lo strumento utilizza una rete neurale profonda (Mask R-CNN) per il riconoscimento dei componenti delle immagini ed utilizza le caratteristiche geometriche di tali componenti per dedurne posizione e rotazione. Per l’analisi del testo utilizza invece una soluzione di Natural Language Processing (Scene Graph Parser) con il quale estrarre i componenti menzionati nel documento, e collegarli, attraverso analisi semantiche, a quelli rilevati nelle immagini e presenti nella libreria di modelli. Lo strumento è stato validato nel caso d’uso considerato, con diversi manuali di stampanti. I risultati sono promettenti, sebbene siano stati rilevati limiti nell’analisi di frasi complesse e nell’individuazione di determinati componenti nelle immagini. Come detto, lo strumento è stato realizzato con l’obiettivo di generare velocemente ed in maniera automatica un video che possa integrare o sostituire, ad esempio, un manuale di istruzioni. Esso potrebbe essere adoperato anche in altri contesti, ad esempio per l’animazione di sceneggiature cinematografiche. Lavori futuri potrebbero includere la generalizzazione del contenuto da animare e l’utilizzo, durante la fase di analisi del testo, di una fase di semplificazione delle frasi in ingresso in modo da migliorare le capacità di riconoscimento.
Relatori:	Fabrizio Lamberti, Alberto Cannavo', Valentina Gatteschi
Anno accademico:	2021/22
Tipo di pubblicazione:	Elettronica
Numero di pagine:	131
Soggetti:
Corso di laurea:	Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea:	Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici:	Politecnico di Torino
URI:	http://webthesis.biblio.polito.it/id/eprint/21212

Modifica (riservato agli operatori)