polito.it
Politecnico di Torino (logo)

Generazione automatica di animazioni 3D da contenuti multimodali = Automatic generation of 3D animations from multimodal content

Luca Macis

Generazione automatica di animazioni 3D da contenuti multimodali = Automatic generation of 3D animations from multimodal content.

Rel. Fabrizio Lamberti, Alberto Cannavo', Valentina Gatteschi. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2021

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (7MB) | Preview
Abstract:

Spesso, la comprensione di informazioni testuali può essere migliorata attraverso adeguati contenuti visivi, quali immagini e video. Un caso d’uso può essere rappresentato dai manuali utente, nei quali le istruzioni testuali sono spesso accompagnate da immagini esemplificative. Contenuti video, come pure, applicazioni grafiche (interattive o meno), ad esempio in realtà virtuale o aumentata, potrebbero aumentare ulteriormente l’efficacia di tale materiale, mostrando in maniera animata lo svolgimento dei passi richiesti. Tuttavia, la generazione di questi contenuti è, ad oggi, un processo manuale e lento, poiché ogni contenuto deve essere specifico, ad esempio nel caso d’uso menzionato, per la particolare procedura e la relativa sequenza di istruzioni. Lo strumento realizzato nel presente lavoro di tesi mira a generare in modo automatico un video in computer grafica, utilizzando in ingresso una sorgente multi-modale, ovvero un testo in linguaggio naturale e una serie di immagini, provenienti da un documento collegato, ed una libreria di modelli 3D animati. Lo strumento utilizza una rete neurale profonda (Mask R-CNN) per il riconoscimento dei componenti delle immagini ed utilizza le caratteristiche geometriche di tali componenti per dedurne posizione e rotazione. Per l’analisi del testo utilizza invece una soluzione di Natural Language Processing (Scene Graph Parser) con il quale estrarre i componenti menzionati nel documento, e collegarli, attraverso analisi semantiche, a quelli rilevati nelle immagini e presenti nella libreria di modelli. Lo strumento è stato validato nel caso d’uso considerato, con diversi manuali di stampanti. I risultati sono promettenti, sebbene siano stati rilevati limiti nell’analisi di frasi complesse e nell’individuazione di determinati componenti nelle immagini. Come detto, lo strumento è stato realizzato con l’obiettivo di generare velocemente ed in maniera automatica un video che possa integrare o sostituire, ad esempio, un manuale di istruzioni. Esso potrebbe essere adoperato anche in altri contesti, ad esempio per l’animazione di sceneggiature cinematografiche. Lavori futuri potrebbero includere la generalizzazione del contenuto da animare e l’utilizzo, durante la fase di analisi del testo, di una fase di semplificazione delle frasi in ingresso in modo da migliorare le capacità di riconoscimento.

Relatori: Fabrizio Lamberti, Alberto Cannavo', Valentina Gatteschi
Anno accademico: 2021/22
Tipo di pubblicazione: Elettronica
Numero di pagine: 131
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: Politecnico di Torino
URI: http://webthesis.biblio.polito.it/id/eprint/21212
Modifica (riservato agli operatori) Modifica (riservato agli operatori)