polito.it
Politecnico di Torino (logo)

SNAX-CGRA: Ottimizzazione a livello di sistema di un processore CGRA per l'accelerazione efficiente dell'IA = SNAX-CGRA: System-level Optimization of a CGRA Processor for Efficient AI Acceleration

Claudio Clemente

SNAX-CGRA: Ottimizzazione a livello di sistema di un processore CGRA per l'accelerazione efficiente dell'IA = SNAX-CGRA: System-level Optimization of a CGRA Processor for Efficient AI Acceleration.

Rel. Guido Masera. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Elettronica (Electronic Engineering), 2024

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (4MB) | Preview
Abstract:

La rapida crescita nel campo dell'intelligenza artificiale (AI) ha creato una domanda per hardware specializzati in grado di offrire prestazioni all'avanguardia. Oltre ai miglioramenti nelle prestazioni, lo sviluppo di tali hardware influisce significativamente sull'applicazione pratica dei modelli teorici. Il successo della ricerca sull'AI è spesso giudicato in base a quanto efficacemente i concetti teorici possono essere integrati con le implementazioni hardware, evidenziando l'importanza di tradurre modelli teorici complessi in forme pratiche ed eseguibili. A causa della diversità degli algoritmi nelle applicazioni AI end-to-end, è preferibile un hardware flessibile che possa supportare efficientemente vari kernel di calcolo. Tra gli acceleratori specifici per dominio, il Coarse-Grained Reconfigurable Array (CGRA) offre un equilibrio tra alte prestazioni e flessibilità necessarie per eseguire vari kernel su un singolo pezzo di hardware. Tuttavia, la flessibilità del CGRA comporta un costo extra per l'hardware, enfatizzando così l'utilizzo della sua potenza di calcolo al massimo grado, senza impegnarla in compiti non computazionali. Pertanto, questo articolo propone SNAX-CGRA, un'integrazione del SNitch Accelerator eXtension (SNAX) per processori CGRA, dimostrando come i modelli teorici possano essere efficacemente legati all'hardware per ottenere prestazioni ottimali. Diversi kernel correlati all'AI sono stati mappati e ottimizzati per soddisfare le prestazioni del SNAX-CGRA in base alla loro potenza di calcolo teorica. Il design è stato implementato nella tecnologia TSMC a 16 nm, con una frequenza massima di 250 MHz. Ottiene 2,49 GOPs nell'accelerare i kernel FFT, 4,09 volte più veloce rispetto alla soluzione CGRA di base. L'efficienza energetica media è di 330,03 MOPs/mW, 4,91 volte migliore rispetto a una soluzione di livello di sistema CGRA all'avanguardia (SotA) chiamata STRELA

Relatori: Guido Masera
Anno accademico: 2023/24
Tipo di pubblicazione: Elettronica
Numero di pagine: 86
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Elettronica (Electronic Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-29 - INGEGNERIA ELETTRONICA
Ente in cotutela: KUL - KATHOLIEKE UNIVERSITEIT LEUVEN (BELGIO)
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/31807
Modifica (riservato agli operatori) Modifica (riservato agli operatori)