Alla ricerca della macchina intelligente
Elvis Nava insegna ai robot a eseguire comandi verbali o scritti. Per farlo, li invia in un campo di addestramento dove imparano a combinare immagini, testi e dati di movimento.
La mano robotica bianca del Soft Robotics Lab dell'ETH di Zurigo raggiunge la lattina di birra, la solleva e la guida verso il bicchiere all'altro capo del tavolo. Lì, la mano gira delicatamente la lattina verso destra e il contenuto giallo-oro vi scorre dentro, frizzante e senza rovesciarsi. Salute.
La mano robotica sviluppata dalla start-up Faive Robotics dell'ETH è gestita da Elvis Nava. Il dottorando 26enne tiene la mano su una superficie dotata di telecamera e sensori. La mano robotica fa quello che fa Nava: quando lui allarga le dita, le dita del robot si allargano. Se indica qualcosa, la mano robotica fa lo stesso.
Ma Nava è solo all'inizio: "In futuro, questo dovrebbe funzionare senza che noi diciamo al robot esattamente cosa fare", dice. L'informatico vuole insegnare alle macchine a eseguire ordini scritti o vocali. Vuole renderle così intelligenti da poter capire le persone, aiutarle in diversi compiti e imparare rapidamente nuove abilità.
Se oggi un programmatore deve fornire informazioni specifiche, in futuro dovrebbero essere sufficienti comandi come "Versami una birra" o "Passami la mela". Per raggiungere questo obiettivo, nel 2021 Nava ha ricevuto una borsa di studio dall'ETH di Zurigo AI Center: questo programma promuove persone di talento che colmano il divario tra diverse discipline di ricerca e sviluppano così nuove applicazioni di IA. L'italiano, cresciuto a Bergamo, è anche dottorando presso la cattedra di Neuroinformatica di Benjamin Grewe e il Laboratorio di Soft Robotics di Robert Katzschmann.
Combinare gli stimoli sensoriali
Ma come si insegna a una macchina a eseguire dei comandi? Come si presenta questa combinazione di intelligenza artificiale e robotica? Per farlo, è necessario capire come funziona il cervello umano:
Percepiamo il nostro ambiente combinando diversi stimoli sensoriali. Il nostro cervello integra immagini, suoni, odori, sapori e stimoli tattili in un quadro generale coerente. Questa capacità permette alle persone di adattarsi rapidamente a nuove situazioni. Riconosciamo intuitivamente come sia necessario applicare ciò che abbiamo imparato per padroneggiare compiti sconosciuti.
"I computer e i robot spesso non hanno ancora questa capacità", spiega Nava, che dopo gli studi a Milano è approdato all'ETH di Zurigo per un Master in Data Science. Grazie all'apprendimento automatico, oggi i programmi informatici sono in grado di scrivere testi, tenere conversazioni e disegnare immagini, e i robot possono anche muoversi rapidamente e autonomamente su terreni difficili. Tuttavia, gli algoritmi di apprendimento alla base di questi programmi sono generalmente basati su una sola fonte di dati. Per usare il gergo dell'informatica, non sono multimodali.
Per Nava, questo è un ostacolo decisivo sulla strada verso robot più intelligenti: "Gli algoritmi sono spesso addestrati solo per un'area di attività utilizzando grandi set di dati online: i modelli di elaborazione del linguaggio possono usare la parola 'gatto' in modo grammaticalmente corretto, ma non sanno che aspetto abbia un gatto. E i robot possono muoversi efficacemente su terreni difficili, ma di solito non hanno la capacità di riconoscere il parlato e le immagini".
I robot devono andare all'asilo
Elvis Nava sta quindi sviluppando algoritmi di apprendimento per robot in grado di fare proprio questo: Collegare informazioni provenienti da fonti diverse. "Se dico al braccio del robot 'passami la mela sul tavolo', deve collegare la parola mela con le proprietà visive di una mela. Deve anche riconoscere la mela sul tavolo e sapere come raggiungerla".
Ma come fa il ricercatore a insegnare al braccio robotico tutto questo? In parole povere, Nava lo invia a un campo di addestramento in due fasi. In una sorta di scuola materna, il robot impara innanzitutto le abilità generali, come il linguaggio semplice e il riconoscimento delle immagini, oltre a semplici movimenti della mano.
Esistono già modelli disponibili pubblicamente per queste abilità, che sono stati addestrati utilizzando enormi serie di dati di testo, immagini o video. Ad esempio, i ricercatori alimentano un algoritmo di riconoscimento delle immagini con migliaia di immagini etichettate come "cane" o "gatto". L'algoritmo impara quindi da solo quali caratteristiche - in questo caso le strutture dei pixel - caratterizzano le immagini di cani o gatti.
Un nuovo algoritmo di apprendimento per i robot
Il compito di Nava è ora quello di combinare i migliori modelli disponibili in un nuovo algoritmo di apprendimento. Questo deve tradurre dati diversi come immagini, testo o informazioni spaziali in un linguaggio di comando standardizzato per il braccio robotico. "La parola 'birra' e le immagini con l'etichetta 'birra' sono rappresentate dallo stesso vettore nel modello", spiega il ricercatore del Fare all'ETH. Di conseguenza, il robot sa cosa raggiungere quando gli viene affidato il compito "Versami una birra".
I ricercatori che lavorano intensamente sull'intelligenza artificiale sanno da tempo che sarebbe promettente integrare diverse fonti di dati e modelli. Tuttavia, i modelli rilevanti sono diventati disponibili e accessibili al pubblico solo di recente. Inoltre, ora c'è abbastanza potenza di calcolo per farli funzionare insieme.
Quando Nava ci parla di queste cose, sembrano semplici e intuitive. Ma questo è ingannevole: "Non basta conoscere bene gli ultimi modelli. A volte è più un'arte che una scienza farli lavorare insieme", dice. Sono problemi complicati come questi che piacciono particolarmente a Nava. Può lavorarci per ore e ore e continuare a provare nuove soluzioni.
Addestramento speciale: imitare gli esseri umani
Una volta che il braccio robotico ha superato la fase prescolare e ha imparato a capire il linguaggio semplice, a riconoscere le immagini e a eseguire semplici movimenti, Nava lo invia a un addestramento speciale. Qui, ad esempio, la macchina impara a imitare i movimenti di una mano umana quando versa una birra. "Trattandosi di sequenze di movimenti molto specifiche, non è più sufficiente affidarsi ai modelli esistenti", spiega Nava.
Per questo motivo mostra al suo algoritmo di apprendimento il video di una mano che versa una birra. Sulla base di alcuni esempi, il robot cerca di imitare questo movimento. Nel farlo, attinge a tutti i movimenti che ha già imparato in età prescolare. Se il braccio robotico non avesse conoscenze pregresse, semplicemente non sarebbe in grado di imitare una sequenza di movimenti così complessa.
"Se il robot versa la birra senza versare nulla, diciamo all'algoritmo di apprendimento 'ben fatto' e lui memorizza questa sequenza di movimenti", spiega Nava. Questa procedura è nota in gergo tecnico come apprendimento per rinforzo.
Nozioni di base per gli assistenti robotici
Con questa strategia di apprendimento in due fasi, Nava vuole fare un piccolo passo avanti verso il sogno di una macchina intelligente. Non sa ancora esattamente fino a che punto lo porterà. "Non è chiaro se questo approccio permetterà ai robot di svolgere compiti che non abbiamo ancora mostrato loro".
? molto più probabile, tuttavia, che gli aiutanti robotici eseguano comandi verbali e svolgano compiti che già conoscono o a cui sono molto simili. Nava non si azzarda a dire quanto tempo ci vorrà prima che tali applicazioni vengano utilizzate nell'assistenza, nell'edilizia o in altri settori.
Gli sviluppi nel campo dell'intelligenza artificiale sono troppo rapidi e imprevedibili. Lui stesso sarebbe felice se la mano del robot gli porgesse una birra dopo la difesa della sua tesi di dottorato, se glielo chiedesse gentilmente.