A la recherche de la machine intelligente

Elvis Nava apprend aux robots à exécuter des ordres oraux ou écrits. Pour cela, il les envoie dans un camp d'entra?nement où ils apprennent à combiner des données d'images, de textes et de mouvements.

16.12.2022 de Christoph Elhardt

Elvis Nava porte un pull gris et noir et des lunettes. Ses bras sont croisés. En arrière-plan, on voit une main de robot. — Elvis Nava est un fellow à l'AI Center de l'ETH Zurich ainsi qu'un doctorant à la chaire de neuroinformatique et au laboratoire de robotique douce. (Photo : Daniel Winkler / ETH Zurich)

La main blanche du robot du Soft Robotics Lab de l'ETH Zurich saisit la canette de bière, la soulève et la fait passer au-dessus du verre posé à l'autre bout de la table. Là, la main tourne délicatement la canette vers la droite et le contenu jaune doré s'y écoule, pétillant et sans se renverser. A la v?tre !

La main robotisée, développée par la start-up Faive Robotics de l'ETH, est manipulée par Elvis Nava. Le doctorant de 26 ans tient sa main au-dessus d'une surface équipée d'une caméra et de capteurs. La main du robot fait ce que Nava fait également : s'il écarte ses doigts, ceux du robot s'écartent. S'il montre quelque chose du doigt, la main du robot fait de même.

Mais Nava n'en est qu'au début : "A l'avenir, cela devrait fonctionner sans que nous dictions exactement au robot ce qu'il doit faire", dit-il. L'informaticien veut apprendre aux machines à exécuter des ordres écrits ou parlés. Il veut les rendre si intelligentes qu'elles pourront comprendre les humains, les aider dans différentes t?ches et apprendre rapidement de nouvelles compétences.

Là où, aujourd'hui, des indications spécifiques d'un programmeur ou d'une programmeuse sont le plus souvent encore nécessaires, des commandes telles que "Sers-moi une bière" ou "Passe-moi la pomme" devraient à l'avenir suffire. Pour atteindre cet objectif, Nava 2021 a re?u une bourse de l'ETH AI Center de l'ETH Zurich : ce programme encourage les talents qui jettent un pont entre différentes disciplines de recherche et développent ainsi de nouvelles applications d'IA. L'Italien, qui a grandi à Bergame, effectue en outre son doctorat au sein de la chaire de neuroinformatique de Benjamin Grewe et du laboratoire de robotique douce de Robert Katzschmann.

La main robotisée développée par la start-up Faive Robotics de l'ETH imite les mouvements d'une main humaine. (Vidéo : Faive Robotics)

Combiner les stimuli sensoriels

Mais comment apprend-on à une machine à exécuter des ordres ? A quoi ressemble cette combinaison d'intelligence artificielle et de robotique ? Pour cela, il faut comprendre comment fonctionne le cerveau humain :

Nous percevons notre environnement en combinant différents stimuli sensoriels. Notre cerveau intègre généralement sans effort les images, les sons, les odeurs, les go?ts et les stimuli haptiques en une image globale cohérente. Cette capacité permet à l'homme de s'adapter rapidement à de nouvelles situations. Nous reconnaissons intuitivement la manière dont nous devons appliquer ce que nous avons appris pour ma?triser des t?ches inconnues.

"Les ordinateurs et les robots manquent encore souvent de cette capacité", explique Nava, qui a rejoint l'ETH Zurich pour un master en science des données après des études à Milan. Gr?ce à l'apprentissage automatique, les programmes informatiques écrivent certes aujourd'hui des textes, mènent des entretiens et peignent des images, et les robots se déplacent eux aussi rapidement et de manière autonome sur des terrains difficiles. Mais les algorithmes d'apprentissage qui les sous-tendent ne se basent généralement que sur une seule source de données. Ils ne sont pas multimodaux, pour reprendre le jargon de l'informatique.

Pour Nava, c'est justement un obstacle décisif sur la voie de robots plus intelligents : "Les algorithmes sont souvent entra?nés pour un seul domaine de t?ches à l'aide de grands ensembles de données disponibles en ligne : les modèles de traitement du langage peuvent certes utiliser le mot 'chat' de manière grammaticalement correcte, mais ils ne savent pas à quoi ressemble un chat. Et les robots peuvent certes se déplacer efficacement sur des terrains difficiles, mais il leur manque généralement la capacité de reconna?tre la parole et les images".

"Toutes les quelques années, notre discipline change l'idée que l'on se fait de ce qu'est un chercheur", explique Elvis Nava. (Vidéo : ETH AI Center)

Les robots doivent aller à l'école maternelle

Elvis Nava développe donc des algorithmes d'apprentissage pour les robots qui doivent justement pouvoir faire cela : Relier entre elles des informations provenant de différentes sources. "Si je dis au bras robotisé 'passe-moi la pomme à table', il doit associer le mot pomme aux caractéristiques visuelles d'une pomme. En outre, il doit reconna?tre la pomme sur la table et savoir comment la saisir".

Mais comment le chercheur apprend-il tout cela au bras robotique ? En simplifiant quelque peu, Nava l'envoie dans un camp d'entra?nement en deux étapes. Dans une sorte d'école maternelle, le robot apprend d'abord des compétences générales telles que la reconnaissance de la parole et des images, ainsi que des mouvements simples de la main.

Pour ces capacités, il existe déjà des modèles accessibles au public qui ont été entra?nés à l'aide d'énormes jeux de données de textes, d'images ou de vidéos. Les chercheurs nourrissent par exemple un algorithme de reconnaissance d'images avec des milliers d'images portant l'étiquette "chien" ou "chat". Celui-ci apprend alors lui-même quelles caractéristiques - dans ce cas, des structures de pixels - caractérisent les images de chiens ou de chats.

Un nouvel algorithme d'apprentissage pour les robots

La t?che de Napa consiste désormais à combiner les meilleurs modèles disponibles dans un nouvel algorithme d'apprentissage. Celui-ci doit traduire différentes données telles que des images, des textes ou des indications spatiales en un langage de commande uniforme pour le bras robotisé. "Le mot 'bière' et les images portant l'étiquette 'bière' sont représentés par le même vecteur dans le modèle", explique le chercheur de l'ETH. Ainsi, le robot sait ce qu'il doit saisir lorsqu'on lui donne la t?che "Sers-moi une bière".

Les chercheurs qui s'intéressent de plus près à l'intelligence artificielle savent depuis longtemps qu'il serait prometteur d'intégrer différentes sources de données et différents modèles. Les modèles correspondants ne sont toutefois disponibles et accessibles au public que depuis peu. De plus, il existe aujourd'hui suffisamment de puissance de calcul pour les faire fonctionner ensemble.

Lorsque Nava parle de ces choses, elles semblent simples et intuitives. Mais c'est trompeur : "Il ne suffit pas de conna?tre très bien les derniers modèles. Parfois, c'est plus un art qu'une science de les faire fonctionner ensemble", dit-il. Ce sont ces problèmes épineux qui attirent particulièrement Nava. Il peut passer des heures à les étudier et à essayer sans cesse de nouvelles solutions.

Nava passe une grande partie de son temps à coder. (Photo : Elvis Nava) C'est ce qui se passe lorsqu'il teste son algorithme d'apprentissage. Les résultats de l'expérience en un coup d'?il. (Image : Elvis Nava)

Entra?nement spécial : imiter les humains

Une fois que le bras robotique est passé par l'école maternelle et a appris à comprendre le langage, à reconna?tre des images et à effectuer des mouvements simples, Nava l'envoie en formation spéciale. La machine apprend par exemple à imiter les mouvements d'une main humaine lorsqu'elle verse une bière. "Comme il s'agit de mouvements très spécifiques, il ne suffit plus de recourir à des modèles déjà existants", explique Nava.

C'est pourquoi il montre à son algorithme d'apprentissage des enregistrements vidéo d'une main versant une bière. Sur la base de quelques exemples, le robot essaie d'imiter ce mouvement. Pour ce faire, il a recours à tous les mouvements qu'il a déjà appris à l'école maternelle. Si le bras robotisé ne disposait d'aucune connaissance préalable, il ne serait tout simplement pas en mesure d'imiter une séquence de mouvements aussi complexe.

"Si le robot verse la bière sans en renverser, nous disons à l'algorithme d'apprentissage 'bien joué' et il mémorise cette séquence de mouvements", explique Nava. Dans le jargon, cette procédure est appelée apprentissage par renforcement.

Elvis Nava regarde la main blanche du robot se saisir d'une canette. — Elvis Nava apprend aux robots à exécuter des ordres oraux tels que "Sers-moi une bière". (Image : Daniel Winkler / ETH Zurich)

Les bases pour les assistants robotiques

Avec cette stratégie d'apprentissage en deux étapes, Nava veut faire un petit pas vers le rêve d'une machine intelligente. Jusqu'où cela le mènera, il ne le sait pas encore exactement lui-même. "Il n'est pas certain que les robots puissent accomplir avec cette approche des t?ches que nous ne leur avons pas encore montrées au préalable".

Il est toutefois beaucoup plus probable que des assistants robotiques exécutent des ordres oraux et accomplissent des t?ches qu'ils connaissent déjà ou qui leur ressemblent beaucoup. Nava ne se risque pas à répondre à la question de savoir combien de temps il faudra attendre avant que de telles applications soient utilisées dans les soins, l'environnement et la géomatique, ou dans d'autres domaines.

Les développements dans le domaine de l'intelligence artificielle sont trop rapides et imprévisibles. Lui-même serait déjà content si la main robotique lui tendait effectivement la bière après la soutenance de sa thèse, s'il la demandait gentiment.

S'abonner à la newsletter

Recevoir chaque jour les dernières Actualités ETH