Luca Macis
Generazione automatica di animazioni 3D da contenuti multimodali = Automatic generation of 3D animations from multimodal content.
Rel. Fabrizio Lamberti, Alberto Cannavo', Valentina Gatteschi. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2021
|
PDF (Tesi_di_laurea)
- Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives. Download (7MB) | Preview |
Abstract: |
Spesso, la comprensione di informazioni testuali può essere migliorata attraverso adeguati contenuti visivi, quali immagini e video. Un caso d’uso può essere rappresentato dai manuali utente, nei quali le istruzioni testuali sono spesso accompagnate da immagini esemplificative. Contenuti video, come pure, applicazioni grafiche (interattive o meno), ad esempio in realtà virtuale o aumentata, potrebbero aumentare ulteriormente l’efficacia di tale materiale, mostrando in maniera animata lo svolgimento dei passi richiesti. Tuttavia, la generazione di questi contenuti è, ad oggi, un processo manuale e lento, poiché ogni contenuto deve essere specifico, ad esempio nel caso d’uso menzionato, per la particolare procedura e la relativa sequenza di istruzioni. Lo strumento realizzato nel presente lavoro di tesi mira a generare in modo automatico un video in computer grafica, utilizzando in ingresso una sorgente multi-modale, ovvero un testo in linguaggio naturale e una serie di immagini, provenienti da un documento collegato, ed una libreria di modelli 3D animati. Lo strumento utilizza una rete neurale profonda (Mask R-CNN) per il riconoscimento dei componenti delle immagini ed utilizza le caratteristiche geometriche di tali componenti per dedurne posizione e rotazione. Per l’analisi del testo utilizza invece una soluzione di Natural Language Processing (Scene Graph Parser) con il quale estrarre i componenti menzionati nel documento, e collegarli, attraverso analisi semantiche, a quelli rilevati nelle immagini e presenti nella libreria di modelli. Lo strumento è stato validato nel caso d’uso considerato, con diversi manuali di stampanti. I risultati sono promettenti, sebbene siano stati rilevati limiti nell’analisi di frasi complesse e nell’individuazione di determinati componenti nelle immagini. Come detto, lo strumento è stato realizzato con l’obiettivo di generare velocemente ed in maniera automatica un video che possa integrare o sostituire, ad esempio, un manuale di istruzioni. Esso potrebbe essere adoperato anche in altri contesti, ad esempio per l’animazione di sceneggiature cinematografiche. Lavori futuri potrebbero includere la generalizzazione del contenuto da animare e l’utilizzo, durante la fase di analisi del testo, di una fase di semplificazione delle frasi in ingresso in modo da migliorare le capacità di riconoscimento. |
---|---|
Relators: | Fabrizio Lamberti, Alberto Cannavo', Valentina Gatteschi |
Academic year: | 2021/22 |
Publication type: | Electronic |
Number of Pages: | 131 |
Subjects: | |
Corso di laurea: | Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering) |
Classe di laurea: | New organization > Master science > LM-32 - COMPUTER SYSTEMS ENGINEERING |
Aziende collaboratrici: | Politecnico di Torino |
URI: | http://webthesis.biblio.polito.it/id/eprint/21212 |
Modify record (reserved for operators) |