polito.it
Politecnico di Torino (logo)

Sviluppo di un framework per la gestione di animazioni e sintetizzazione vocale di Empathic Embodied Conversational Agents = Development of a framework for the management of animations and speech synthesis of Empathic Embodied Conversational Agents

Francesco Cali', Pietro Pingitore

Sviluppo di un framework per la gestione di animazioni e sintetizzazione vocale di Empathic Embodied Conversational Agents = Development of a framework for the management of animations and speech synthesis of Empathic Embodied Conversational Agents.

Rel. Andrea Giuseppe Bottino, Edoardo Battegazzorre, Francesco Strada. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2021

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (5MB) | Preview
Abstract:

La tesi ha lo scopo di gettare le basi per la creazione di un framework relativo all'implementazione e personalizzazione di Embodied Empathic Conversational Agent, agenti intelligenti che interagiscono con l'ambiente attraverso un corpo virtuale umanoide e in grado di gestire un modello emozionale influenzato da input esterni. Il nostro progetto di tesi riguarda principalmente lo sviluppo di due parti del framework: la componente di animazione, strutturata secondo il concetto di azione e sotto-azione, e la componente di text-to-speech, sviluppata attraverso l'utilizzo di un modello di rete neurale capace di restituire una voce con un buon livello di naturalezza. L'implementazione e la struttura di entrambe le parti sono state pensate in modo da poter essere il più possibile modulabili e ampliabili a seconda delle esigenze del programmatore. Per la componente di animazione abbiamo utilizzato due tool di Unity per la creazione e l'adattamento delle animazioni con l'ambiente virtuale circostante: Motion Matching for Unity (MxM), un tool che gestisce il database di animazioni desiderate in maniera più intuitiva e meno dispendiosa rispetto al classico mechanim animator integrato in Unity; Final IK, un tool tramite il quale è possibile generalizzare le azioni e le animazioni attraverso l'Inverse Kinematic in base alle esigenze e all'ambiente in cui si trova l'agente virtuale. Per quanto riguarda il text-to-speech abbiamo utilizzato un modello preallenato di rete neurale Tacotron 2, un'architettura di rete neurale per la sintetizzazione vocale effettuata direttamente da un testo.

Relatori: Andrea Giuseppe Bottino, Edoardo Battegazzorre, Francesco Strada
Anno accademico: 2020/21
Tipo di pubblicazione: Elettronica
Numero di pagine: 100
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/19134
Modifica (riservato agli operatori) Modifica (riservato agli operatori)