Perché le reti profonde si generalizzano nonostante vadano contro l’intuizione statistica

Perché le reti profonde si generalizzano nonostante vadano contro l'intuizione statistica
I ricercatori del MIT (da sinistra a destra) Qianli Liao, Tomaso Poggio e Andrzej Banburski stanno con le loro equazioni. Credito: Kris Brewer

I corsi introduttivi di statistica ci insegnano che, quando si adatta un modello ad alcuni dati, dovremmo avere più dati che parametri liberi per evitare il pericolo di un overfitting di dati rumorosi troppo da vicino, e quindi di non riuscire ad adattare i nuovi dati. È sorprendente, quindi, che nel deep learning moderno la pratica sia quella di avere ordini di grandezza in più parametri che dati. Nonostante ciò, le reti profonde mostrano buone prestazioni predittive e, di fatto, fanno meglio quanti più parametri hanno. Perché dovrebbe essere?

È noto da tempo che le buone prestazioni nell’apprendimento automatico derivano dal controllo della complessità delle reti, che non è solo una semplice funzione del numero di parametri liberi. La complessità di un classificatore, come una rete neurale, dipende dalla misurazione della “dimensione” dello spazio delle funzioni che questa rete rappresenta, con molteplici misure tecniche precedentemente suggerite: dimensione di Vapnik揅hervonenkis, che copre i numeri, o complessità di Rademacher, per nominare alcuni. La complessità, misurata da queste nozioni, può essere controllata durante il processo di apprendimento imponendo un vincolo sulla norma dei parametri, in breve, su quanto “grandi” possono diventare. Il fatto sorprendente è che non sembra essere necessario alcun vincolo così esplicito nell’addestramento di reti profonde. Il deep learning si trova al di fuori della teoria dell’apprendimento classico? Abbiamo bisogno di ripensare le basi?

In un nuovo articolo di Nature Communications, “Complexity Control by Gradient Descent in Deep Networks”, un team del Center for Brains, Minds, and Machines guidato dal direttore Tomaso Poggio, il professore Eugene McDermott nel Dipartimento di scienze cerebrali e cognitive del MIT, ha fatto luce su questo enigma affrontando le applicazioni più pratiche e di successo del deep learning moderno: i problemi di classificazione.

“Per i problemi di classificazione, osserviamo che in effetti i parametri del modello non sembrano convergere, ma piuttosto crescono di dimensioni indefinitamente durante la discesa del gradiente. Tuttavia, nei problemi di classificazione contano solo i parametri normalizzati, ovvero la direzione che definiscono , non le loro dimensioni”, afferma il coautore e Ph.D. del MIT. candidato Qianli Liao. “La cosa non così ovvia che abbiamo mostrato è che la discesa del gradiente comunemente usata sui parametri non normalizzati induce il controllo della complessità desiderato su quelli normalizzati”.

“Sappiamo da tempo nel caso della regressione per reti lineari poco profonde, come le macchine kernel, che le iterazioni della discesa del gradiente forniscono un effetto di regolarizzazione implicito e svanito”, afferma Poggio. “In effetti, in questo semplice caso probabilmente sappiamo che otteniamo la soluzione con il miglior comportamento a margine massimo e norma minima. La domanda che ci siamo posti, quindi, era: può succedere qualcosa di simile per le reti profonde?”

I ricercatori hanno scoperto che lo fa. Come spiega il coautore e postdoc del MIT Andrzej Banburski, “Capire la convergenza nelle reti profonde mostra che ci sono chiare direzioni per migliorare i nostri algoritmi. In effetti, abbiamo già visto suggerimenti che il controllo della velocità con cui questi parametri non normalizzati divergono ci permette di trovare soluzioni più performanti e trovarle più velocemente.”

Cosa significa questo per l’apprendimento automatico? Non c’è magia dietro le reti profonde. Anche qui è in gioco la stessa teoria alla base di tutti i modelli lineari. Questo lavoro suggerisce modi per migliorare le reti profonde, rendendole più accurate e veloci da addestrare.


Leave a Reply