UiVLA: Vision–Language–Action Model per l’Adattamento delle Interfacce Utente in Mixed Reality

Giacomo Ponzuoli

UiVLA: Vision–Language–Action Model per l’Adattamento delle Interfacce Utente in Mixed Reality.

Rel. Luigi De Russis, Per Ola Kristensson. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2026

Preview

PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.
Download (2MB) | Preview

Abstract

Le interfacce utente in Mixed Reality (MR) offrono nuove modalità di interazione, ma la loro integrazione nello spazio reale introduce criticità legate a visibilità, interferenza con il compito e sicurezza. Le soluzioni attuali per il posizionamento degli elementi virtuali si basano spesso su regole statiche, senza considerare in modo esplicito il contesto visivo e l’attenzione dell’utente. Questa tesi propone UiVLA, un proof-of-concept basato su un Vision–Language Model (VLM), nello specifico Qwen2.5-VL, esteso in una pipeline vision–language–action per l’adattamento contestuale di interfacce MR. Il sistema è in grado di comprendere il contesto semantico della scena osservata al fine di produrre decisioni operative sulla UI.

In particolare, affronta due compiti principali: la valutazione della visibility (mostrare o nascondere un overlay) e la scelta del placement più appropriato tra posizioni candidate