Il nuovo framework migliora le prestazioni delle reti neurali profonde

rete neurale
Credito: CC0 Pubblico Dominio

I ricercatori della North Carolina State University hanno sviluppato un nuovo framework per la costruzione di reti neurali profonde tramite generatori di rete guidati dalla grammatica. Nei test sperimentali, le nuove reti – tutte AOGNets – hanno superato le strutture all’avanguardia esistenti, inclusi i sistemi ResNet e DenseNet ampiamente utilizzati, nelle attività di riconoscimento visivo.

“Le reti AOGN hanno una precisione di previsione migliore rispetto a qualsiasi rete con cui le abbiamo confrontate”, afferma Tianfu Wu, assistente professore di ingegneria elettrica e informatica presso l’NC State e corrispondente autore di un documento sul lavoro. “Le AOGNets sono anche più interpretabili, il che significa che gli utenti possono vedere come il sistema raggiunge le sue conclusioni”.

Il nuovo framework utilizza un approccio grammaticale compositivo all’architettura del sistema che si basa sulle migliori pratiche dei precedenti sistemi di rete per estrarre in modo più efficace informazioni utili dai dati grezzi.

“Abbiamo scoperto che la grammatica gerarchica e compositiva ci ha fornito un modo semplice ed elegante per unificare gli approcci adottati dalle architetture di sistema precedenti e, per quanto ne sappiamo, è il primo lavoro che utilizza la grammatica per la generazione di reti”, afferma Wu.

Per testare il loro nuovo framework, i ricercatori hanno sviluppato AOGNets e li hanno testati rispetto a tre benchmark di classificazione delle immagini: CIFAR-10, CIFAR-100 e ImageNet-1K.

“AOGNets ha ottenuto prestazioni significativamente migliori rispetto a tutte le reti all’avanguardia in un confronto equo, inclusi ResNets, DenseNets, ResNeXts e DualPathNets”, afferma Wu. “AOGNets ha anche ottenuto il miglior punteggio di interpretabilità del modello utilizzando la metrica di dissezione della rete in ImageNet. Gli AOGNets mostrano inoltre un grande potenziale nella difesa avversaria e nell’implementazione indipendente dalla piattaforma (mobile vs cloud).”

I ricercatori hanno anche testato le prestazioni di AOGNets nel rilevamento di oggetti e nella segmentazione semantica delle istanze, sul benchmark Microsoft COCO, utilizzando il sistema vanilla Mask R-CNN.

“AOGNets ha ottenuto risultati migliori rispetto ai backbone ResNet e ResNeXt con modelli di dimensioni inferiori e tempi di inferenza simili o leggermente migliori”, afferma Wu. “I risultati mostrano l’efficacia di AOGNets nell’apprendimento di funzionalità migliori nelle attività di rilevamento e segmentazione degli oggetti.

Questi test sono rilevanti perché la classificazione delle immagini è una delle attività di base fondamentali nel riconoscimento visivo e ImageNet è il benchmark di classificazione standard su larga scala. Allo stesso modo, il rilevamento e la segmentazione degli oggetti sono due attività di visione di alto livello fondamentali e MS-COCO è uno dei benchmark più utilizzati.

“Per valutare le nuove architetture di rete per il deep learning nel riconoscimento visivo, sono i banchi di prova d’oro”, afferma Wu. “AOGNets sono sviluppati in base a una struttura grammaticale di principio e ottengono miglioramenti significativi sia in ImageNet che in MS-COCO, mostrando così impatti potenzialmente ampi e profondi per l’apprendimento della rappresentazione in numerose applicazioni pratiche.

“Siamo entusiasti del framework AOGNet guidato dalla grammatica e stiamo esplorando le sue prestazioni in altre applicazioni di deep learning, come la comprensione profonda del linguaggio naturale, l’apprendimento generativo profondo e l’apprendimento per rinforzo profondo”, afferma Wu.

Il documento, “AOGNets: Compositional Grammatical Architectures for Deep Learning”, sarà presentato alla IEEE Computer Vision and Pattern Recognition Conference, che si terrà dal 16 al 20 giugno a Long Beach, California. Il primo autore del paper è Xilai Li, un Ph .D. studente presso NC State. Il documento è stato co-autore di Xi Song, un ricercatore indipendente.


Leave a Reply