polito.it
Politecnico di Torino (logo)

Progetto e realizzazione di un sistema full stack per l'analisi vocale = Design and implementation of a full stack system for speech analysis

Maria Zuccara'

Progetto e realizzazione di un sistema full stack per l'analisi vocale = Design and implementation of a full stack system for speech analysis.

Rel. Giovanni Malnati. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2019

Abstract:

Il mondo dell’audio rappresenta un settore che spazia in diversi ambiti, tra cui analisi, sintesi, modulazione e visualizzazione. Tra questi, l’analisi vocale è particolarmente significativa in settori che riguardano l’ambito forense, giudiziario e finanziario, in cui il timbro vocale costituisce un tratto distintivo di ogni individuo. Inoltre, il crescente sviluppo di applicazioni lato web ha introdotto la necessità di implementare strumenti che riescano ad offrire le stesse funzionalità di un software professionale sviluppato come applicazione lato desktop. L’obiettivo della tesi è quello di progettare e realizzare un sistema full stack, lato web, che permetta l’analisi vocale da diversi punti di vista. Innanzitutto, viene fatta una trattazione sulla tecnologia Web Based delle API Web Audio, presentandola come uno strumento potente attraverso il quale l’audio può essere analizzato sia nel dominio del tempo che delle frequenze, può essere manipolato per aggiungere filtri atti ad eliminare rumori o ad evidenziare tonalità particolari, per aggiungere effetti, per sintetizzarlo e modularlo. A seguito della trattazione è stato implementato un player, utilizzando il framework React e gli strumenti offerti dal mondo WebAudio. Inoltre, è stato utilizzato il software Phonexia, tecnologia di analisi e d’identificazione vocale. Servendosi delle API fornite dal motore vocale, è stato sviluppato, utilizzando il framework Spring, un wrapper per Phonexia, che consenta il riconoscimento e la clusterizzazione di parlatori, basandosi sul confronto delle biometrie vocali. Tale wrapper avrà l’obiettivo di diventare, a seguito di un’analisi dettagliata dei risultati ottenuti e di un conseguente miglioramento dell’algoritmo, uno strumento che riesca a processare carichi di audio di diverse dimensioni, rappresentando un valido supporto per il riconoscimento vocale in diversi ambiti.

Relatori: Giovanni Malnati
Anno accademico: 2019/20
Tipo di pubblicazione: Elettronica
Numero di pagine: 128
Informazioni aggiuntive: Tesi secretata. Fulltext non presente
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/12455
Modifica (riservato agli operatori) Modifica (riservato agli operatori)