polito.it
Politecnico di Torino (logo)

Assistente Conversazionale in Ambienti XR = Conversational Assistant in XR Environments

Matteo Giuseppe Filpi

Assistente Conversazionale in Ambienti XR = Conversational Assistant in XR Environments.

Rel. Andrea Bottino. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione, 2025

[img] PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (4MB)
Abstract:

Il presente lavoro riguarda lo sviluppo di un assistente conversazionale per ambienti di realtà estesa (XR), progettato per gestire interrogazioni vocali in scenari immersivi. Il prototipo è stato sperimentato all’interno di un museo virtuale aziendale, ma la sua architettura modulare ne consente l’adattamento a diversi contesti XR con opportune personalizzazioni. L’obiettivo è stato realizzare un chatbot in grado di rispondere a domande pertinenti a un dominio tematico ben definito, nel rispetto dei vincoli progettuali e aziendali, e coerente con il ruolo e la posizione assegnati all’interno dell’esperienza immersiva. Particolare attenzione è stata posta sulla riduzione della latenza tra domanda e risposta, al fine di mantenere un flusso comunicativo fluido e naturale. Il sistema integra il modello di linguaggio di OpenAI (LLM) per l’elaborazione semantica, Whisper per la trascrizione speech-to-text e Amazon Polly per la sintesi vocale text-to-speech, orchestrati da una pipeline che gestisce l’intero ciclo di interazione: acquisizione della domanda, elaborazione del contenuto e riproduzione della risposta. L’approccio metodologico ha previsto anche l’integrazione di un avatar 3D con animazioni di idle, di interazione vocale e sincronizzazione labiale, nonché la gestione della lingua tramite un selettore a pulsante separato, che permette di attivare un avatar e un accento specifici per ciascuna lingua. Inoltre, la pipeline è stata ottimizzata attraverso tecniche di prompt engineering per migliorare la pertinenza e la precisione delle risposte. I risultati evidenziano un prototipo funzionante, capace di rispondere in tempo quasi reale: sebbene sia presente un breve intervallo tra input e output, il sistema mantiene una reattività adeguata a garantire l’immersione. La sfida principale ha riguardato l’ottimizzazione del bilanciamento tra velocità di risposta e accuratezza semantica. In conclusione, l'architettura modulare del sistema supporta la scalabilità verso altri progetti XR. I futuri sviluppi prevedono un perfezionamento delle animazioni, una maggiore ottimizzazione del codice e l'esplorazione di tecnologie alternative per la trascrizione e la sintesi, nonché l'integrazione di modelli AI aggiuntivi per potenziare funzionalità e prestazioni.

Relatori: Andrea Bottino
Anno accademico: 2024/25
Tipo di pubblicazione: Elettronica
Numero di pagine: 136
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: AKKODIS ITALY SRL
URI: http://webthesis.biblio.polito.it/id/eprint/36355
Modifica (riservato agli operatori) Modifica (riservato agli operatori)