Renesas sviluppa una nuova tecnologia di elaborazione in-memory per chip AI di nuova generazione

 

La nuova tecnologia esegue l’elaborazione CNN (convolutional neural network) ad alta velocità e bassi consumi con prestazioni di elaborazione AI di 8.8 TOPS/W.

Renesas Electronics ha annunciato di aver sviluppato un acceleratore AI che esegue l’elaborazione CNN (convolutional neural network) ad alta velocità e bassa potenza che spiana la strada verso la prossima generazione di AI embedded (e-AI) di Renesas, per fornire maggiore intelligenza ai dispositivi endpoint. Un chip di test Renesas con a bordo questo acceleratore ha raggiunto l’efficienza energetica di 8.8 TOPS/W, la più alta classe di efficienza energetica del settore. Questa unità di misura indica il numero di calcoli che possono essere eseguiti in un secondo con un watt di potenza. Le prestazioni di 8.8 TOPS/W corrispondono a calcoli 8.8 × 1012 in un secondo con un watt di potenza.

L’acceleratore Renesas si basa sull’architettura PIM (Processing-in-memory), un approccio sempre più popolare per la tecnologia AI, in cui le operazioni di moltiplicazione e accumulo vengono eseguite nel circuito di memoria mentre i dati vengono letti all’esterno della memoria.

Figura 1 – Principio di funzionamento dell’architettura PIM (processing-in-memory) su cui si basa l’accelatore AI di Renesas.

Per creare il nuovo acceleratore AI, Renesas ha sviluppato le seguenti tre tecnologie. La prima è una tecnologia PIM con struttura a valore ternario (-1, 0, 1) che può eseguire calcoli CNN su larga scala. La seconda è un circuito SRAM da applicare con comparatori in grado di leggere i dati della memoria a bassa potenza. La terza è una tecnologia che impedisce errori di calcolo dovuti a variazioni di processo durante la produzione. Insieme, queste tecnologie raggiungono sia una riduzione del tempo di accesso alla memoria nell’elaborazione di deep learning, sia una riduzione della potenza richiesta per le operazioni di moltiplicazione e accumulo. Pertanto, il nuovo acceleratore raggiunge la più alta classe di efficienza energetica del settore mantenendo un rapporto di accuratezza superiore al 99 percento se valutato in un test di riconoscimento dei caratteri scritti a mano (MNIST).

Renesas ha presentato questi risultati il ​​13 giugno 2019, al Symposia 2019 su VLSI Technology and Circuit a Kyoto. Renesas ha anche presentato un sistema di riconoscimento in tempo reale che utilizza un prototipo AI di questo chip, alimentato da una piccola batteria, un microcontrollore, una fotocamera, periferiche e strumenti di sviluppo. 

Fino ad ora, l’architettura PIM non era in grado di raggiungere un livello di accuratezza adeguato per calcoli CNN su larga scala con calcoli a bit singolo poiché la struttura SRAM binaria (0,1) era in grado di gestire solo i dati con valori 0 o 1. Inoltre, differenze dovute al processo di produzione hanno comportato una riduzione dell’affidabilità di questi calcoli per cui è stato necessario adottare soluzioni alternative. Renesas ha ora sviluppato le tecnologie che risolvono questi problemi e che consentiranno di implementare i rivoluzionari chip AI del futuro nella prossima generazione di soluzioni e-AI per applicazioni in ambito robotica e elettronica indossabile che richiedono sia elevate prestazioni che grande efficienza energetica.

 

Caratteristiche chiave della tecnologia per chip AI di nuova generazione sono:

 

PIM della struttura SRAM ternaria (-1, 0, 1) che impiega il numero di bit di calcolo in base all’accuratezza richiesta

L’architettura PIM della struttura SRAM ternaria (-1, 0, 1) adotta una combinazione di una memoria ternaria con un semplice blocco di calcolo digitale per contenere al minimo l’incremento dell’hardware e gli errori di calcolo. Allo stesso tempo, consente di commutare il numero di bit tra, ad esempio, calcoli a 1,5 bit (ternario) e a 4 bit, in base all’accuratezza richiesta. Poiché questo può supportare diverse precisioni e scale di calcolo, gli utenti possono scegliere il giusto equilibrio tra accuratezza e consumo energetico.

Figura 2 – Architettura PIM realizzata con struttura SRAM ternaria (-1, 0, 1) che consente di raggiungere l’accuratezza necessaria.

Circuito di lettura dei dati di memoria ad alta precisione/bassa potenza che combina comparatori e celle di replica

Quando viene adottata un’architettura PIM, i dati della memoria vengono letti rilevando il valore della corrente di bit-line nella struttura SRAM. Sebbene sia facile utilizzare convertitori A/D per il rilevamento della corrente di bit line di alta precisione, questo approccio presenta il problema del consumo energetico elevato e di un incremento dell’area dei chip. Per questo motivo Renesas ha combinato un comparatore (amplificatore di rilevamento a 1 bit) con una cella di replica in cui la corrente può essere controllata in modo flessibile per sviluppare un circuito di lettura dei dati di memoria di alta precisione. Inoltre, queste tecnologie traggono vantaggio dal fatto che il numero di nodi (neuroni) attivati ​​dall’operazione di rete neurale è molto piccolo, circa l’1%, e raggiunge un funzionamento ancora più basso interrompendo il funzionamento dei circuiti di lettura per i nodi (neuroni) non attivati.


Figura 3 – Circuito di lettura dei dati di memoria ad alta precisione/bassa potenza che combina comparatori e celle di replica.

Tecnologia di elusione delle variazioni che sopprime gli errori di calcolo dovuti alle differenze nel processo produttivo

L’architettura PIM affronta anche la sfida degli errori di calcolo dovuti alle differenze nel processo di produzione. Le differenze nel processo di produzione causano errori nei valori delle correnti di bit line nella struttura SRAM e, di conseguenza, si verificano errori nella lettura dei dati di memoria. Per risolvere questo problema, Renesas ha coperto l’interno del chip con blocchi multipli di circuiti di calcolo SRAM ed impiegato i blocchi con le differenze più piccole per eseguire i calcoli. Poiché i nodi attivati ​​sono solo una piccola minoranza di tutti i nodi, questi vengono allocati selettivamente ai blocchi del circuito di calcolo SRAM che presentano le più basse differenze. Ciò consente di ridurre gli errori di calcolo a un livello tale per cui possono essere sostanzialmente ignorati.

Figura 4 – Topologia che consente di ridurre gli errori di calcolo dovuti alle differenze nel processo produttivo.

Da quando ha introdotto il concetto di AI embedded (e-AI) nel 2015, Renesas ha portato avanti lo sviluppo di diverse soluzioni e-AI. In relazione all’efficacia delle soluzioni e-AI, Renesas ha definito delle “classi” sviluppando quattro livelli di e-AI:

  • Classe 1: valutazione della correttezza o dell’anomalia dei dati della forma d’onda del segnale.
  • Classe 2 (classe 100 GOPS/W): valutazione della correttezza o dell’anormalità mediante l’elaborazione delle immagini in tempo reale.
  • Classe 3 (1 classe TOPS/W): esecuzione del riconoscimento in tempo reale.
  • Classe 4 (10 TOPS/W class): abilitazione dell’apprendimento incrementale in un endpoint.

Renesas ha introdotto un ambiente di sviluppo e-AI nel 2017 e nel 2018 ha annunciato il microprocessore RZ/A2M, che integra l’esclusivo DRP (processore riconfigurabile dinamicamente) di Renesas su chip. Renesas fornisce queste tecnologie per applicazioni di classe 2. Per implementare applicazioni di classe 3, Renesas ha ulteriormente migliorato le prestazioni computazionali della tecnologia DRP.

Figura 5 – Comparazione tra differenti tecnologie di elaborazione.

Con le nuove tecnologie di accelerazione descritte in precedenza, Renesas combina sia un basso consumo energetico sia prestazioni di calcolo migliorate che potrebbero consentire l’implementazione di applicazioni di classe 4.

www.renesas.com 

 

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

Main Menu