
Matteo Giuseppe Filpi
Assistente Conversazionale in Ambienti XR = Conversational Assistant in XR Environments.
Rel. Andrea Bottino. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione, 2025
![]() |
PDF (Tesi_di_laurea)
- Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives. Download (4MB) |
Abstract: |
Il presente lavoro riguarda lo sviluppo di un assistente conversazionale per ambienti di realtà estesa (XR), progettato per gestire interrogazioni vocali in scenari immersivi. Il prototipo è stato sperimentato all’interno di un museo virtuale aziendale, ma la sua architettura modulare ne consente l’adattamento a diversi contesti XR con opportune personalizzazioni. L’obiettivo è stato realizzare un chatbot in grado di rispondere a domande pertinenti a un dominio tematico ben definito, nel rispetto dei vincoli progettuali e aziendali, e coerente con il ruolo e la posizione assegnati all’interno dell’esperienza immersiva. Particolare attenzione è stata posta sulla riduzione della latenza tra domanda e risposta, al fine di mantenere un flusso comunicativo fluido e naturale. Il sistema integra il modello di linguaggio di OpenAI (LLM) per l’elaborazione semantica, Whisper per la trascrizione speech-to-text e Amazon Polly per la sintesi vocale text-to-speech, orchestrati da una pipeline che gestisce l’intero ciclo di interazione: acquisizione della domanda, elaborazione del contenuto e riproduzione della risposta. L’approccio metodologico ha previsto anche l’integrazione di un avatar 3D con animazioni di idle, di interazione vocale e sincronizzazione labiale, nonché la gestione della lingua tramite un selettore a pulsante separato, che permette di attivare un avatar e un accento specifici per ciascuna lingua. Inoltre, la pipeline è stata ottimizzata attraverso tecniche di prompt engineering per migliorare la pertinenza e la precisione delle risposte. I risultati evidenziano un prototipo funzionante, capace di rispondere in tempo quasi reale: sebbene sia presente un breve intervallo tra input e output, il sistema mantiene una reattività adeguata a garantire l’immersione. La sfida principale ha riguardato l’ottimizzazione del bilanciamento tra velocità di risposta e accuratezza semantica. In conclusione, l'architettura modulare del sistema supporta la scalabilità verso altri progetti XR. I futuri sviluppi prevedono un perfezionamento delle animazioni, una maggiore ottimizzazione del codice e l'esplorazione di tecnologie alternative per la trascrizione e la sintesi, nonché l'integrazione di modelli AI aggiuntivi per potenziare funzionalità e prestazioni. |
---|---|
Relatori: | Andrea Bottino |
Anno accademico: | 2024/25 |
Tipo di pubblicazione: | Elettronica |
Numero di pagine: | 136 |
Soggetti: | |
Corso di laurea: | Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione |
Classe di laurea: | Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA |
Aziende collaboratrici: | AKKODIS ITALY SRL |
URI: | http://webthesis.biblio.polito.it/id/eprint/36355 |
![]() |
Modifica (riservato agli operatori) |