polito.it
Politecnico di Torino (logo)

Development of a Fault Injection Environment for the Evaluation of Hardening Techniques on GPGPU via the NVBitFI Framework

Stefano Pisciotta

Development of a Fault Injection Environment for the Evaluation of Hardening Techniques on GPGPU via the NVBitFI Framework.

Rel. Luca Sterpone, Sarah Azimi. Politecnico di Torino, Corso di laurea magistrale in Mechatronic Engineering (Ingegneria Meccatronica), 2022

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (14MB) | Preview
Abstract:

Le GPGPU stanno diventando più essenziali che mai, principalmente per la loro flessibilità di utilizzo e la crescita esponenziale degli algoritmi paralleli. Queste GPGPU sono ampiamente utilizzate nel riconoscimento di oggetti in molteplici applicazioni. Una delle più significative applicazioni del riconoscimento delle immagini viene usato dalle auto a guida autonoma, che sono attualmente in fase di sperimentazione presso molteplici aziende, dalle case automobilistiche come Tesla ai noti produttori di GPU come NVIDIA. Questi sistemi integrati devono essere sicuri e soddisfare lo standard ISO26262, che è uno specifica internazionale utilizzata per i sistemi elettronici installati in automobili e altri veicoli stradali a fini di garantire dei criteri di sicurezza. Di conseguenza, nell'ultimo decennio, lo studio della tolleranza ai guasti è diventato un elemento critico del processo di sviluppo; tuttavia, mentre l'analisi dell'affidabilità delle CPU è stata ampiamente studiata, solo negli ultimi anni sono stati sviluppati strumenti per testare le GPGPU. A tal fine, viene fornita un’accurata analisi dell'architettura e della microarchitettura della GPGPU al fine di determinarne le parti e i componenti più critici, insieme a una panoramica di un’ampia varietà di metodi hardware e software per la gestione degli effetti delle radiazioni cosmiche sui chip come il bit-flip. Ai fini di questa tesi, è stato utilizzato il framework NVBitFI, uno dei più potenti strumenti di iniezione software sviluppati da NVIDIA. Il Framework NVBitFI è stato utilizzato attraverso l’impiego della scheda NVIDIA Jetson nano, che è un System-on-Chip (SoC) con integrata una GPU con microarchitettura Maxwell. La GPU è stata utilizzata per condurre campagne di iniezione di guasti in una varietà di applicazioni note. Successivamente, l'output del framework è stato valutato a fondo. Il Framework classifica i risultati come “masked” (che non hanno alcun effetto sul comportamento previsto), Device Under Error (DUE), che indica che l'applicazione non è stata in grado di completare l'attività e si è arrestata in modo anomalo, o Silent Data Corruption (SDC), che indica che l'applicazione ha ottenuto risultati diversi da quelli attesi. Tramite una modifica al framework originale, è stato possibile effettuare una campagna di iniezione di guasti atta a determinare la relazione tra il codice dell’istruzione, comunemente noto come OPCODE e il tipo di errore che questo comporta, che sia un DUE, SDC oppure “masked”. Infine, è stata sviluppata un'applicazione con lo scopo di migliorare l'affidabilità utilizzando una tecnica software di mitigazione dei guasti nota come Triple Modular Redundancy (TMR), che migliora l'affidabilità del dispositivo a scapito di un leggero degrado delle prestazioni. Quindi, i risultati dell'applicazione sono stati confrontati con i risultati originariamente ottenuti, per determinare se vi siano miglioramenti in termini di affidabilità.

Relatori: Luca Sterpone, Sarah Azimi
Anno accademico: 2021/22
Tipo di pubblicazione: Elettronica
Numero di pagine: 87
Soggetti:
Corso di laurea: Corso di laurea magistrale in Mechatronic Engineering (Ingegneria Meccatronica)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-25 - INGEGNERIA DELL'AUTOMAZIONE
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/22968
Modifica (riservato agli operatori) Modifica (riservato agli operatori)