Il codice ottimizzato migliora le prestazioni di 5 volte

L’ottimizzazione della comunicazione di rete accelera la formazione di grandi modelli di machine learning.

Inserendo un codice di ottimizzazione leggero nei dispositivi di rete ad alta velocità, la collaborazione guidata da KAUST ha aumentato di cinque volte la velocità dell’apprendimento automatico nei sistemi di elaborazione parallela.

Questa tecnologia di aggregazione all’interno della rete è disponibile presso Intel, Microsoft e Università di WashingtonCon l’hardware di rete programmabile pronto all’uso, puoi fornire notevoli guadagni di velocità.

Il vantaggio fondamentale dell’intelligenza artificiale (AI), che ci consente di “capire e interagire con il mondo”, è l’apprendimento automatico, che addestra i modelli utilizzando un ampio set di dati di addestramento etichettati. È un passo. Più dati vengono addestrati dall’IA, migliori possono essere le prestazioni del modello quando esposto a nuovi input.

Il recente aumento delle applicazioni di intelligenza artificiale è dovuto principalmente al miglioramento dell’apprendimento automatico e all’uso di modelli più grandi e set di dati più diversificati. Tuttavia, l’esecuzione di calcoli di apprendimento automatico è un compito molto gravoso che si basa sempre più su una vasta gamma di computer che eseguono algoritmi di apprendimento in parallelo.

“Come addestrare un modello di deep learning su larga scala è un problema molto difficile”, afferma Marco Canini del team di ricerca KAUST. Il modello AI 嬧€媘 può essere composto da miliardi di parametri e può utilizzare centinaia di processori che devono lavorare in modo efficiente in parallelo. In tali sistemi, il modello viene aggiornato in modo incrementale. La comunicazione tra i processori tende ad essere un importante collo di bottiglia delle prestazioni.淈/p>

Il team ha trovato una potenziale soluzione per le nuove tecnologie di rete sviluppate da Barefoot Networks, una divisione di Intel.

“Utilizzeremo il nuovo hardware di rete del piano dati programmabile di Barefoot Networks per alleggerire parte del lavoro svolto durante la formazione sull’apprendimento automatico distribuito”, ha affermato un laureato KAUST che è entrato a far parte del team di Intel® Barefoot Networks. Spiega un Amedeo Sapio.淢avere dati utilizzando questo nuovo hardware di rete programmabile, non solo la rete, significa che è possibile eseguire calcoli lungo il percorso di rete.滭/p>

L’innovazione principale della piattaforma SwitchML del team è quella di consentire all’hardware di rete di eseguire attività di aggregazione dei dati in ogni fase di sincronizzazione durante la fase di aggiornamento del modello del processo di apprendimento automatico. Questo non solo scarica parte del carico di calcolo, ma riduce anche significativamente la quantità di dati inviati.

淧Gli switch data plane rogrammabili possono eseguire operazioni molto rapidamente, ma le operazioni che possono eseguire sono limitate, afferma Canini.淭quindi, la nostra soluzione doveva essere sufficientemente semplice per l’hardware, ma sufficientemente flessibile per risolvere problemi come i limiti di capacità della memoria integrata. SwitchML ha comunicato. La co-progettazione di una rete e di un algoritmo di addestramento distribuito affronta questa sfida, offrendo un’accelerazione fino a 5,5 volte rispetto agli approcci all’avanguardia.

Riferimento: 淪caling of Distributed Machine Learning di Intra-Network Aggregation di Amedeo Sapio, Marco Canini, Chen-Yu Ho, Jacob Nelson, Panos Kalnis, Changhoon Kim, Arvind Krishnamurthy, Masoud Moshref, Dan Ports, Peter Richtarik, 2021 4 mesi Il 18° Simposio USENIX sulla progettazione e implementazione di sistemi di rete (NSDI ?1)..Collegamento

Tesla in anticipo sui tempi con 1,6 miliardi di dollari di profitto TechCrunch nel terzo trimestreWindows 11 ottiene finalmente un’app Android nativa, ma solo per alcuni utenti

Leave a Reply