La neuroscienza cognitiva potrebbe aprire la strada a robot emotivamente intelligenti

La neuroscienza cognitiva potrebbe aprire la strada a robot emotivamente intelligenti
Figura 1. Estrazione delle funzioni del cocleagramma filtrato con modulazione (MMCG) multi-risoluzione. CG4) a quattro diverse risoluzioni. Credito: Japan Advanced Institute of Science and Technology

Gli esseri umani hanno la capacità di riconoscere le emozioni negli altri. Sebbene siano perfettamente in grado di comunicare con gli esseri umani attraverso il parlato, i robot e gli agenti virtuali sono bravi solo a elaborare istruzioni logiche, il che limita notevolmente l’interazione uomo-robot (HRI). Di conseguenza, gran parte della ricerca in HRI riguarda il riconoscimento delle emozioni dal linguaggio. Ma prima, come descriviamo le emozioni?

Le emozioni categoriali come felicità, tristezza e rabbia sono ben comprese da noi, ma possono essere difficili da registrare per i robot. I ricercatori si sono concentrati sulle “emozioni dimensionali”, che costituiscono una transizione emotiva graduale nel linguaggio naturale. “L’emozione dimensionale continua può aiutare un robot a catturare la dinamica temporale dello stato emotivo di un oratore e di conseguenza a regolare il modo di interazione e il contenuto in tempo reale”, spiega il Prof. Masashi Unoki del Japan Advanced Institute of Science and Technology (JAIST), che lavora sul riconoscimento e l’elaborazione vocale.

Gli studi hanno dimostrato che un modello di percezione uditiva che simula il funzionamento dell’orecchio umano può generare quelli che vengono chiamati “spunti di modulazione temporale” che catturano fedelmente la dinamica temporale delle emozioni dimensionali. Le reti neurali possono quindi essere impiegate per estrarre caratteristiche da questi segnali che riflettono queste dinamiche temporali. Tuttavia, a causa della complessità e della varietà dei modelli di percezione uditiva, l’estrazione delle caratteristiche risulta essere piuttosto impegnativa.

In un nuovo studio pubblicato in Reti neurali, il Prof. Unoki e i suoi colleghi, tra cui Zhichao Peng, dell’Università di Tianjin, Cina (che ha condotto lo studio), Jianwu Dang del Pengcheng Laboratory, Cina, e il Prof. Masato Akagi del JAIST, hanno ora tratto ispirazione da una recente scoperta nel campo cognitivo le neuroscienze suggeriscono che il nostro cervello forma rappresentazioni multiple di suoni naturali con diversi gradi di risoluzioni spettrali (cioè, frequenza) e temporali attraverso un’analisi combinata delle modulazioni spettrali-temporali.

La neuroscienza cognitiva potrebbe aprire la strada a robot emotivamente intelligenti
Figura 2. Architettura di rete LSTM parallela per il riconoscimento delle emozioni dimensionali.銆€銆€ Una rete LSTM parallela accetta caratteristiche MMCG con risoluzioni diverse e produce output che vengono concatenati insieme e quindi inviati a uno strato LSTM di fusione e uno strato denso per produrre la valenza (V) e sequenze di eccitazione (A). Credito: Japan Advanced Institute of Science and Technology

Di conseguenza, i ricercatori hanno proposto una nuova funzionalità chiamata cocleagramma filtrato dalla modulazione multi-risoluzione (MMCG), che combina quattro cocleagrammi filtrati dalla modulazione (rappresentazioni tempo-frequenza del suono in ingresso) a diverse risoluzioni per ottenere i segnali di modulazione temporali e contestuali. Per tenere conto della diversità dei cocleagrammi, i ricercatori hanno progettato un’architettura di rete neurale parallela chiamata “memoria a breve termine lungo” (LSTM), che ha modellato le variazioni temporali dei segnali a più risoluzioni dei cocleagrammi e ha condotto ampi esperimenti su due set di dati di discorso spontaneo.

I risultati sono stati incoraggianti. I ricercatori hanno scoperto che MMCG ha mostrato prestazioni di riconoscimento delle emozioni significativamente migliori rispetto alle tradizionali caratteristiche acustiche e ad altre caratteristiche uditive per entrambi i set di dati. Inoltre, la rete parallela LSTM ha dimostrato una previsione superiore delle emozioni dimensionali rispetto a quella con un semplice approccio basato su LSTM.

Il Prof. Unoki è entusiasta e pensa di migliorare la funzione MMCG nella ricerca futura. “Il nostro prossimo obiettivo è analizzare la robustezza delle sorgenti di rumore ambientale e studiare la nostra caratteristica per altri compiti, come il riconoscimento delle emozioni categoriali, la separazione del parlato e il rilevamento dell’attività vocale”, conclude.


Leave a Reply