Una nuova matematica potrebbe portare l’apprendimento automatico a un livello superiore

Un team di matematici italiani, tra cui un neuroscienziato del Champalimaud Center for the Unknown (CCU), a Lisbona, Portogallo, ha dimostrato che le macchine di visione artificiale possono imparare a riconoscere immagini complesse più rapidamente utilizzando una teoria matematica sviluppata 25 anni fa da uno dei coautori di questo nuovo studio. I loro risultati sono stati pubblicati sulla rivista Intelligenza della macchina della natura.
Negli ultimi decenni, le prestazioni di visione artificiale sono notevolmente migliorate. I sistemi artificiali possono ora imparare a riconoscere virtualmente qualsiasi volto umano o a identificare ogni singolo pesce che si muove in una vasca.
Tali macchine sono, infatti, modelli elettronici di reti di neuroni biologici, e il loro scopo è simulare il funzionamento del cervello, che eccelle in questi compiti visivi senza alcuno sforzo cosciente da parte nostra.
Ma come apprendono effettivamente queste reti neurali artificiali? Nel caso del riconoscimento facciale, ad esempio, lo fanno acquisendo esperienza su come appaiono i volti umani sotto forma di una serie di ritratti. Più specificamente, dopo essere stata digitalizzata in una matrice di valori di pixel, ogni immagine viene “sgranocchiata” all’interno della rete neurale, che estrae quindi caratteristiche generali e significative dall’insieme di volti campione (come occhi, bocca, naso, ecc.).
Questo deep learning consente alla macchina di sputare un altro insieme di valori, che a sua volta le consentirà di identificare un volto che non ha mai visto prima in una banca dati di volti (proprio come un database di impronte digitali), e quindi prevedere a chi appartiene quel volto con grande precisione.
La storia di Clever Hans
Ma prima che la rete neurale possa funzionare bene, è tipicamente necessario presentarla con migliaia di facce (cioè matrici di numeri). Inoltre, sebbene queste macchine abbiano avuto sempre più successo nel riconoscimento dei modelli, il fatto è che nessuno sa veramente cosa succede al loro interno mentre imparano i compiti. Sono fondamentalmente scatole nere.
Ciò significa che non è possibile determinare quali o quante caratteristiche la macchina sta effettivamente estraendo dai dati iniziali e nemmeno quante di queste caratteristiche sono realmente significative per il riconoscimento facciale.
“Per illustrare questo, si consideri il paradigma del cavallo saggio”, afferma il primo autore dello studio Mattia Bergomi, che lavora nel Systems Neuroscience Lab della CCU. La storia, dei primi anni del XX secolo, riguarda un cavallo in Germania chiamato Clever Hans che il suo maestro sosteneva avesse imparato a fare l’aritmetica e ad annunciare il risultato di addizioni, sottrazioni, ecc. battendo a terra uno dei suoi zoccoli anteriori il giusto numero di volte. Molte persone erano convinte che sapesse contare; il cavallo è stato anche segnalato dal New York Times. Ma poi, nel 1907, uno psicologo tedesco dimostrò che il cavallo stava, in effetti, raccogliendo segnali inconsci nel linguaggio del corpo del suo padrone che gli dicevano quando smettere di battere.
“È lo stesso con l’apprendimento automatico; non c’è alcun controllo su come funziona o su ciò che ha appreso durante l’allenamento”, spiega Bergomi. La macchina, non avendo una conoscenza a priori dei volti, in qualche modo fa le sue cose e funziona.
Ciò ha portato i ricercatori a chiedersi se potrebbe esserci un modo per iniettare una certa conoscenza del mondo reale sui volti o altri oggetti nella rete neurale prima dell’allenamento per far sì che esplori uno spazio più limitato di possibili caratteristiche invece di considerarle tutte攊inclusi quelli che sono impossibili nel mondo reale. “Volevamo controllare lo spazio delle caratteristiche apprese”, afferma Bergomi. “È simile alla differenza tra un giocatore di scacchi mediocre e un esperto: il primo vede tutte le mosse possibili, mentre il secondo vede solo quelle buone”, aggiunge.
Un altro modo per dirlo, dice, è dicendo che “il nostro studio affronta la seguente semplice domanda: quando addestriamo una rete neurale profonda per distinguere i segnali stradali, come possiamo dire alla rete che il suo lavoro sarà molto più semplice se solo deve preoccuparsi di semplici forme geometriche come cerchi e triangoli?”
Gli scienziati hanno pensato che questo approccio avrebbe sostanzialmente ridotto il tempo di addestramento e, cosa importante, avrebbe dato loro un suggerimento su cosa potrebbe fare la macchina per ottenere i suoi risultati. “Consentire agli esseri umani di guidare il processo di apprendimento delle macchine di apprendimento è fondamentale per passare a un’intelligenza artificiale più intelligibile e ridurre il costo alle stelle in termini di tempo e risorse che le attuali reti neurali richiedono per essere addestrate”, afferma.
Cosa c’è in una forma?
Una teoria matematica astratta chiamata analisi dei dati topologici (TDA) è stata fondamentale. I primi passi nello sviluppo della TDA sono stati compiuti nel 1992 dal matematico italiano Patrizio Frosini, coautore del nuovo studio, attualmente presso l’Università di Bologna. “La topologia è una delle forme più pure di matematica”, afferma Bergomi. “E fino a poco tempo fa, la gente pensava che la topologia non sarebbe stata applicabile a nulla di concreto per molto tempo, fino a quando TDA non è diventata famosa negli ultimi anni”.
La topologia è una sorta di geometria estesa che, invece di misurare linee e angoli in forme rigide (come triangoli, quadrati, coni, ecc.), cerca di classificare oggetti altamente complessi in base alla loro forma. Per un topologo, ad esempio, una ciambella e una tazza sono lo stesso oggetto: l’una può essere deformata nell’altra mediante stiramento o compressione.
Ora, il fatto è che le attuali reti neurali non sono adatte alla topologia. Ad esempio, non riconoscono gli oggetti ruotati. Per loro, lo stesso oggetto apparirà completamente diverso ogni volta che viene ruotato. Proprio per questo l’unica soluzione è fare in modo che queste reti “memorizzino” ciascuna configurazione separatamente, a migliaia. Ed è esattamente ciò che gli autori avevano intenzione di evitare utilizzando TDA.
Pensa a TDA come a uno strumento matematico per trovare una struttura interna significativa (caratteristiche topologiche), in qualsiasi oggetto complesso che può essere rappresentato come un enorme insieme di numeri. Ciò si ottiene esaminando i dati attraverso determinate “lenti” o filtri ben scelti. I dati stessi possono riguardare volti, transazioni finanziarie o tassi di sopravvivenza al cancro. TDA consente di insegnare a una rete neurale a riconoscere i volti senza doverla presentare con ciascuno dei diversi orientamenti che i volti potrebbero assumere nello spazio. La macchina ora riconoscerà tutte le facce come faccia, anche in diverse posizioni ruotate.
Nel loro studio, gli scienziati hanno testato i vantaggi della combinazione di apprendimento automatico e TDA insegnando a una rete neurale a riconoscere le cifre scritte a mano. I risultati parlano da soli.
Poiché queste reti sono cattive topologi e la scrittura a mano può essere molto ambigua, due diverse cifre scritte a mano possono rivelarsi indistinguibili per le macchine attuali e, al contrario, possono identificare due istanze della stessa cifra scritta a mano come diverse. Il compito richiede di presentare la rete, che non sa nulla delle cifre nel mondo reale, con migliaia di immagini di ciascuna delle 10 cifre scritte con ogni tipo di inclinazione, calligrafia, ecc.
Per iniettare la conoscenza delle cifre, il team ha costruito una serie di caratteristiche a priori che consideravano significative, in altre parole, una serie di “lenti” attraverso le quali la rete avrebbe visto le cifre e ha costretto la macchina a scegliere tra queste lenti per guardare alle immagini. Il numero di immagini (cioè il tempo) necessarie alla rete neurale potenziata da TDA per imparare a distinguere i cinque dai sette, per quanto mal scritte, pur mantenendo il suo potere predittivo, è sceso a meno di 50.
“Ciò che descriviamo matematicamente nel nostro studio è come applicare determinate simmetrie e questo fornisce una strategia per costruire agenti di apprendimento automatico in grado di apprendere caratteristiche salienti da alcuni esempi sfruttando la conoscenza iniettata come vincoli”, afferma Bergomi .
Questo significa che il funzionamento interno delle macchine per l’apprendimento che imitano il cervello diventerà più trasparente in futuro, consentendo nuove intuizioni sul funzionamento interno del cervello stesso? In ogni caso, questo è uno degli obiettivi di Bergomi. “L’intelligibilità dell’intelligenza artificiale è necessaria per la sua interazione e integrazione con l’intelligenza biologica”, afferma. Attualmente sta lavorando, in collaborazione con il suo collega Pietro Vertechi, allo sviluppo di un nuovo tipo di architettura di rete neurale che consentirà agli esseri umani di iniettare rapidamente conoscenze di alto livello in queste reti per controllare e accelerare la loro formazione.