Intel: La larghezza di banda dei dati e la scarsità sono le due maggiori sfide per i chip AI

intel-koduri-11-agosto-2020-smaller.jpg

Il responsabile dell’architettura dei chip di Intel, Raja Koduri, prevede che l’IA porterà a un rinnovamento dell’architettura dei chip. “Le cose che affrontano il parallelismo sparso in modo molto più efficiente daranno origine ad alcune nuove idee architettoniche che sono molto diverse da ciò che stiamo facendo in vector-matrix, che è molto mainstream in questo momento”.

Intel

La scorsa settimana, Intel ha tenuto il suo primo evento di “giornata dell’architettura” dal 2018, durante il quale ha fornito dettagli sui prossimi chip, come Tiger Lake.

Intelligenza artificiale

  • I ricercatori sviluppano un sistema di intelligenza artificiale per migliorare il rilevamento delle malattie degli occhi
  • Il team AI di Amazon AWS cerca il profondo nell’industria
  • Un ecosistema di intelligenza artificiale non è necessariamente tutto cloud
  • Cos’è l’IA? Tutto quello che c’è da sapere sull’Intelligenza Artificiale

ZDNetche ha partecipato a un pre-briefing con Intel, ha chiesto ad alcuni dirigenti dell’azienda di approfondire i dettagli dell’elaborazione dell’intelligenza artificiale.

Il grande risultato è che la cosa che deve essere maggiormente ottimizzata è come spostare i dati da e verso la logica di calcolo, perché i modelli di rete neurale continuano a scalare oltre ciò che può essere conservato nella memoria interna di qualsiasi chip.

“Una delle cose che abbiamo visto è che le dimensioni dei modelli stanno esplodendo”, ha osservato il capo dell’architettura di Intel, Raja Koduri. “Nessun modello si adatta a un nodo.” Ha fatto riferimento a enormi modelli linguistici di apprendimento profondo come il GPT-3 recentemente rilasciato da OpenAI, che ha 175 miliardi di parametri, i pesi che devono essere moltiplicati su ogni dato di input.

Sebbene ci sia “molto clamore sugli acceleratori di deep learning”, ha affermato Koduri, “il loro utilizzo è estremamente basso perché siamo impegnati a spostare i dati dei parametri attraverso la rete perché i 100 miliardi di parametri non si adattano”.

“Anche i teraflop e le tera-op che si trovano su un umile socket Xeon sono sottoutilizzati per questi programmi”, ha aggiunto. “Dimentica una GPU: metti lì una GPU, ne hai 10 volte di più.”

Anche: Intelligenza artificiale con steroidi: reti neurali molto più grandi in arrivo con nuovo hardware, affermano Bengio, Hinton e LeCun

Oltre alla larghezza di banda, Intel sostiene che le unità di elaborazione grafica, dove sta aumentando per sfidare il blocco di Nvidia sul data center, hanno il vantaggio di un ambiente di sviluppo software maturo che altri tipi di processori AI non possono eguagliare.

Una parte allettante rimasta in sospeso alla fine della giornata è stata la questione della scarsità, dove Intel ha in corso lavori che non è ancora pronta a rivelare completamente. L’ascesa della scarsità incombe come un potenziale cambiamento architettonico profondo nel modo in cui i chip sono progettati, ha suggerito Koduri.

Sul primo punto, la larghezza di banda dei dati, ZDNet ha chiesto a Sailesh Kottapalli, un senior fellow di Intel, che gestisce l’architettura del processore del datacenter, una domanda molto generale: quali sono le cose più importanti nelle diverse architetture di chip che faranno avanzare le prestazioni per le operazioni principali dell’IA?

Kottapalli ha risposto in due parti, prima sottolineando le priorità generali che hanno tutti i fornitori di chip, inclusa Intel.

“La cosa più comune che è vera con ciò che sta accadendo nelle tecnologie del silicio in tutti i settori è assicurarsi che le operazioni di algebra lineare o matrice possano essere eseguite in modo efficiente al massimo livello di throughput con la minor quantità di energia”. L’algebra lineare costituisce la maggior parte dei cicli di calcolo dell’IA. Consiste nel moltiplicare un vettore contenente dati di input per una matrice di parametri o pesi.

Intel-sguardo-nel-futuro-della-connettività-agosto-2020.png

Intel prevede che la necessità di ogni maggiore movimento dentro e fuori i processori spingerà un’era di fotonica del silicio, connessioni in fibra ottica tra il chip e il circuito stampato dei computer.

Intel

Kottapalli ha osservato che tutti i chip, indipendentemente dall’architettura, sono dedicati all’accelerazione delle operazioni “matrice-matrice” e delle operazioni “matrice vettoriale”. “Queste sono la forma predominante di calcolo lì.”

L’altra grande tendenza è l’attenzione su diversi tipi di precisione, ovvero quanti bit vengono utilizzati per un determinato operando, 8 bit, 16 bit, 32 bit, ecc.

“Qualsiasi architettura che aspira effettivamente a fare bene nell’IA, che è un nuovo modo di fare calcolo, che diventerà lo stato dell’arte praticamente in qualsiasi architettura”.

La prossima frontiera riguarderà i progressi nell’input-output dei chip, ha affermato.

“Quello che succede dopo è davvero il modo in cui ottimizzi la larghezza di banda, le cache, per ottimizzare effettivamente la quantità di movimento di dati che devi fare”, ha affermato Kottapalli.

“Perché si sta arrivando al punto in cui l’efficienza energetica effettiva non è determinata da ciò che è nel calcolo, ma da come si spostano i dati nel calcolo”. La tendenza verso reti neurali molto più grandi è qualcosa che sta sottolineando anche ogni concorrente di Intel, inclusi Graphcore, Cerebras Systems e Tenstorrent. E, naturalmente, Nvidia ha parlato di reti neurali così gigantesche come un fattore primario che richiede il suo ultimo silicio, Ampere. Anche gli studiosi di IA hanno parlato della tendenza.

“Quindi ci sarà sempre più innovazione in merito, e poi dove vengono mantenuti esattamente i set di dati effettivi su cui stai operando e con quale efficienza puoi avvicinarli al calcolo”.

Il capo dell’architettura Koduri ha aggiunto: “Quello che stiamo vedendo dai grandi clienti è davvero chiaro che, oltre all’aumento della densità FLOP e della densità OP, vogliono aumentare la scala I/O per ciascun socket”.

“È un po’ pazzesco”, ha detto, quante connessioni PCIe i clienti vogliono collegare a un singolo socket della CPU. “E’ appena esploso.”

Anche: “È fondamentale”: il CEO di Graphcore ritiene che i nuovi tipi di IA dimostreranno il valore di un nuovo tipo di computer

Il piano di Intel per gestire la crescente domanda di interconnessioni è che il gruppo di connettività dell’azienda, guidato dal vicepresidente Hong Hou, prema il pedale sul metallo per una maggiore larghezza di banda. “È un’età d’oro per loro”, ha detto Koduri della divisione di Hou.

“Riconosciamo sempre più che l’I/O potrebbe diventare un collo di bottiglia molto forte”, ha affermato Hou.

Una direzione sempre più importante, ha osservato Hou, saranno le connessioni in fibra ottica dal circuito stampato del computer al processore. “Abbiamo parlato di ottenere una maggiore integrazione della fotonica del silicio con il chip”, ha osservato. “Abbiamo un po’ più di libertà per progettare la strategia di scale-up ad alta densità più efficiente dal punto di vista energetico per supportare il cluster di intelligenza artificiale”, ha affermato Hou.

Un altro elemento sottolineato da Intel è il software, e in particolare la coerenza e il supporto del software.

ZDNet ha parlato con il collega senior di Intel David Blythe e il vicepresidente Lisa Pearce, che sono a capo del lavoro sulle unità di elaborazione grafica dell’azienda. Una domanda per entrambi era cosa pensano della critica comune, da parte di startup come Cerebras Systems e Graphcore, secondo cui le GPU non sono ideali per l’elaborazione dell’IA.

“C’è sempre l’idea di un componente hardware ideale, ma le applicazioni non funzionano da sole su un componente hardware ideale, hanno bisogno di un ecosistema completo e di uno stack software”, ha affermato Blythe. Quello stack di software maturo è un vantaggio delle GPU, ha affermato. Questo è particolarmente vero quando il computer deve supportare carichi di lavoro misti.

Anche: L’intelligenza artificiale sta cambiando l’intera natura del calcolo

“La cosa che stiamo cercando di fare è sfruttare lo stack software maturo per renderlo facilmente programmabile”.

Blythe ha accennato al lavoro che Intel sta facendo sulla scarsità. La scarsità si riferisce al fatto che nelle operazioni di matrice vettoriale, molti, spesso la maggior parte dei valori in un vettore sono valori nulli. Ciò ha portato alla critica secondo cui le GPU sprecano energia perché non sono in grado di separare gli elementi a valore zero quando raggruppano insieme molti vettori per adattarsi al layout di memoria di una GPU. La scarsità è un “work in progress”, ha detto Blythe.

Ma un altro collega Intel, Rich Uhlig, che dirige le operazioni Intel Labs, ha approfondito la questione.

“I modelli di rete neurale si stanno muovendo verso rappresentazioni più sparse da dense, c’è un’efficienza dell’algoritmo che ci arriva”, ha affermato Uhlig. “E questo esercita una pressione diversa sull’architettura”.

“Alcune architetture che stiamo esplorando sono, come si diventa bravi in ​​quell’ibrido tra architettura densa e sparsa”, ha aggiunto Uhlig. “Non si tratta solo di memoria, ma anche dell’interconnessione e di come gli algoritmi sfruttano tale scarsità”.

Uhlig ha notato che Intel sta lavorando con DARPA al programma “HIVE” dell’agenzia, che si concentra su ciò che viene chiamato analisi dei grafici. “Puoi pensare all’analisi dei grafici come esattamente questo problema, come puoi diventare bravo a operare su strutture di dati sparse, grafici”, ha affermato Uhlig.

“È necessario riunire una raccolta di tecnologie”, ha affermato.

Vuoi assicurarti che il sistema di memoria sia ottimizzato. Quindi ottimizzi per cose come l’accesso a 8 byte, al contrario di un accesso più ampio alla linea della cache, dove spesso il lavoro viene sprecato, perché non hai la stessa località spaziale nei carichi di lavoro più tradizionali. Ma l’ottimizzazione per otto byte significa non solo sintonizzare la gerarchia della memoria su quella dimensione, ma anche i messaggi che invii tramite la struttura ad altri nodi di calcolo. Un’altra cosa che guardi è la traccia del puntatore e le dipendenze che devi seguire. Ci sono molte dipendenze del puntatore che devi affrontare. E quindi ci sono vantaggi nell’architettura per ottimizzare le dipendenze collegate in modo più efficiente. E anche per fare le cose atomiche in modo più efficiente. Quindi ci sono un sacco di tecniche architettoniche che puoi applicare per aiutarti a fare meglio con questo tipo di algoritmi sparsi. Come parte della nostra risposta a questo programma DARPA, stiamo costruendo simulatori e lavorando per implementazioni di prototipi che, si spera, prima o poi in futuro questa non sia una dichiarazione di prodotto, per essere molto chiari, questa è un’indagine di ricerca ma stiamo imparando a cose che vuoi fare architettonicamente per catturare queste tendenze algoritmiche nel deep learning.

Riassumendo, Koduri ha aggiunto: “Le cose che affrontano il parallelismo sparso in modo molto più efficiente daranno origine ad alcune nuove idee architettoniche che sono molto diverse da quelle che stiamo facendo in vector-matrix, che è molto mainstream in questo momento”.

Leave a Reply