polito.it
Politecnico di Torino (logo)

Miglioramento delle prestazioni dei moderni codificatori video con reti neurali = Improving modern video encoders performances with neural networks

Tiziano Carnevale

Miglioramento delle prestazioni dei moderni codificatori video con reti neurali = Improving modern video encoders performances with neural networks.

Rel. Maurizio Martina. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione, 2023

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (19MB) | Preview
Abstract:

Miglioramento delle prestazioni dei moderni codificatori video con reti neurali: Come è ormai noto, l’avvento del digitale ha permesso di rappresentare segnali ed informazioni sotto forma di codice binario. Anche per i contenuti multimediali, ovvero dati video ed audio, questo si traduce nel “codificare” i file: analizzarne i dati per riscrivere il tutto come stringa di bit. Tali operazioni vengono normalmente svolte dai codificatori che, inoltre, comprimono le informazioni eliminando i dati in eccesso e ottenendo così contenuti a più bassa memoria. Se fino ad oggi i codificatori si sono identificati in semplici script, ora le reti neurali stanno piano piano entrando in questo mondo per svolgere alcune fasi di codifica sostituendosi ai codificatori stessi. Il tutto è ovviamente mirato ad ottenere codifiche più prestanti: meno dati e qualità più alta. Questo progetto di tesi vuole esplorare le soluzioni ad oggi proposte riguardo reti neurali introdotte come supporto dei moderni codificatori. Se ne analizzeranno le prestazioni per poi sperimentare le stesse idee la dove non sono ancora state applicate. Dopo un leggero approfondimento riguardo reti già esistenti e utilizzate per migliorare le prestazioni del codec HEVC, il trattato in questione si sofferma sul funzionamento del MIF-Net: sistema di reti che sostituisce il filtro di deblocking in HEVC. La grande intuizione alla base del MIF-Net consiste nell’approccio multi-frame: per ogni frame da filtrare, la rete utilizza due o più frames passati come predittori, per aumentare l’efficienza del filtro [7]. Verranno mostrati i risultati di diverse codifiche con MIF-Net mirate a verificarne le prestazioni, sperimentando con le diverse modalità di approccio. Tutto questo lavoro è stato svolto a fronte del tirocinio di 300 ore presso il gruppo di ricerca Video del centro sperimentale di Rai – Radiotelevisione italiana. Terminata la fase dedicata a quanto fatto da tirocinante, il presente lavoro si impegna a mostrare infine quali sono i primi passi compiuti per cominciare a riportare un sistema come il MIF-Net su un altro codec: EVC. Questa è la fase di porting ed è fondamentale perché, ad oggi, non vi è ancora una rete neurale che sostituisca il DBF in EVC. L’elaborato vuole quindi risultare un ottimo punto di partenza per quanto sarà sviluppato poi da MPAI: progetto di gruppo su scala mondiale con lo scopo di migliorare le prestazioni di EVC sostituendolo con reti neurali. Il collegamento con MPAI è stato possibile grazie al tutor aziendale del tirocinio, Roberto Iacoviello, che ne fa parte. Questa tesi ha l’obiettivo di mostrare i momenti chiave del processo di codifica e dare il giusto spazio alla fase di deblocking, analizzandone gli aspetti cruciali e descrivendo come possa essere potenziato grazie al Machine-Learning. In futuro, ci immaginiamo una situazione nella quale le codifiche verranno realizzate per gran parte da reti neurali, così da fornire in poco tempo output su numerosi frames ad alta qualità e risoluzione. Tutto questo permetterà di rispettare le moderne specifiche video come 4K, HDR e WCG, senza inciampare in una enorme complessità di calcolo. L’intero progetto è stato svolto dall’autore della tesi, su direzione ed assistenza del tutor aziendale Roberto Iacoviello, con aiuto e supervisione di colleghi MPAI Alessandra Mosca e Attilio Fiandrotti e grazie alla disponibilità e concessione del professore Martina Maurizio.

Relatori: Maurizio Martina
Anno accademico: 2022/23
Tipo di pubblicazione: Elettronica
Numero di pagine: 102
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Del Cinema E Dei Mezzi Di Comunicazione
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: Rai Radotelevisione Italiana
URI: http://webthesis.biblio.polito.it/id/eprint/26633
Modifica (riservato agli operatori) Modifica (riservato agli operatori)