polito.it
Politecnico di Torino (logo)

Movimenti labiali reali e sintetici in ambienti virtuali immersivi per l'Audio Space Lab del Politecnico di Torino: integrazione e analisi dei contributi ai fini dell'intelligibilità del parlato = Real and synthetic lip movements in immersive virtual environments for the Audio Space Lab at the Politecnico di Torino: integration and analysis of contributions to speech intelligibility

Andrea Galletto

Movimenti labiali reali e sintetici in ambienti virtuali immersivi per l'Audio Space Lab del Politecnico di Torino: integrazione e analisi dei contributi ai fini dell'intelligibilità del parlato = Real and synthetic lip movements in immersive virtual environments for the Audio Space Lab at the Politecnico di Torino: integration and analysis of contributions to speech intelligibility.

Rel. Arianna Astolfi, Angela Guastamacchia, Andrea Bottino, Louena Shtrepi. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione, 2024

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (55MB) | Preview
Abstract:

I disturbi dell’udito sono malattie invalidanti, influenzano le capacità cognitive e portano chi ne soffre all’isolamento sociale. Gli apparecchi acustici possono mitigare tali problemi, ma il 20% dei portatori è restìa al loro uso. Le cause risiedono nei metodi di test dei dispositivi che non rispecchiano scenari acustici realistici come una conversazione in un bar o aeroporto: situazioni critiche per un orecchio sano con alle spalle migliaia di anni di evoluzione biologica, vera e propria sfida per un dispositivo acustico che non gode di pari esperienza evolutiva. Tali metodi si concentrano sull’acustica tralasciando elementi visivi che concorrono alla comprensione, come il labiale dell’interlocutore. La ricerca ha iniziato a integrare la realtà virtuale nei test uditivi per ricreare ambienti AudioVisivi (AV) immersivi, testare più fedelmente la resa degli apparecchi e valutare i fattori che influenzano la comprensione del parlato. Tuttavia, tali ambienti sono basati su simulazioni acustiche e rendering video 3D aventi avatar come interlocutori: condizioni non del tutto realistiche per le investigazioni. Questa tesi si propone di valutare l’influenza del labiale sulla comprensione tramite test immersivi creati con registrazioni AV 3D. I test AV di intelligibilità del parlato, composti da filmati 3D 360° con audio ambisonico del 3° ordine, già disponibili presso l’Audio Space Lab (ASL) del Politecnico di Torino, sono stati integrati con video dove fosse visibile il labiale del parlatore target del test. Per un’indagine completa e attuale, sono stati confrontati l’apporto del labiale di una persona reale e di un avatar realistico animato con intelligenza artificiale (IA). Tre gli scenari selezionati, ambientati in una sala conferenze altamente riverberante con parlatore target frontale, parlatore interferente a 120°, 180° o assente e rapporto segnale rumore di -5 dB. Un’attrice ha fornito il labiale per il discorso target rappresentato dal test di intelligibilità “Italian Matrix Sentence Test”, aiutata da un sistema di gobbo creato ad-hoc. Le riprese sono state girate in modalità 3D 360° e in post-processing il soggetto è stato integrato negli scenari; tramite analisi audio sono state scelte le clip dove il labiale era sincrono con l’audio dei relativi enunciati. L’avatar è stato animato con le tracce audio dello stesso test e integrato negli stessi scenari, nella medesima posizione dell’attrice. La sperimentazione presso l’ASL ha coinvolto 20 soggetti normoudenti, divisi in due gruppi, ognuno sottoposto a una diversa condizione di test: con labiale reale o sintetico. Le percentuali di intelligibilità raggiunte sono state inoltre confrontate con quelle dei test pregressi per gli stessi scenari privi dell’informazione visiva fornita dal labiale. Nei test con parlatore interferente, l’aggiunta del labiale del parlatore target, sintetico e non, ha significativamente migliorato l’intelligibilità; in particolare, i test con labiale reale hanno raggiunto la migliore percentuale di intelligibilità media, nell’ordine 78%, 68,5% e 58,5%. Il labiale è importante per l’intelligibilità, ma sebbene il labiale sintetico la migliori, al momento, non compete con quello reale che ha un apporto informativo superiore. Includere nei test il labiale reale risulta essenziale per ricreare situazioni verosimili ed essere funzionale al miglioramento delle protesi, mentre la continua evoluzione dell’IA potrebbe portare il labiale sintetico a competere con quello reale e aprire nuovi scenari di sperimentazione.

Relatori: Arianna Astolfi, Angela Guastamacchia, Andrea Bottino, Louena Shtrepi
Anno accademico: 2023/24
Tipo di pubblicazione: Elettronica
Numero di pagine: 115
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/31738
Modifica (riservato agli operatori) Modifica (riservato agli operatori)