Comment les modèles d'IA parviennent à s'enseigner de nouvelles choses
Les grands modèles de langage comme GPT-3 sont capables d'apprendre de nouveaux concepts en interagissant avec leurs utilisateurs. Des chercheurs de l'ETH et de Google viennent peut-être de mettre au jour un mécanisme clé derrière cette capacité.
- Lire à haute voix
- Nombre de commentaires
Malgré leur énorme succès, le fonctionnement interne des grands modèles de langage comme la famille de modèles GPT d'OpenAI et Google Bard reste un mystère, même pour leurs développeurs. Des chercheurs de l'ETH et de Google viennent de mettre au jour un possible mécanisme clé qui leur permettrait d'apprendre à la volée et d'affiner leurs réponses en fonction des interactions avec leurs utilisateurs. Johannes von Oswald est doctorant dans le groupe d'Angelika Steger, professeure d'informatique théorique à l'ETH, et étudie les algorithmes d'apprentissage pour les réseaux neuronaux. Son nouveau page externePaper sera présenté fin juillet à l'International Conference on Machine Learning (ICML).
Le T de GPT signifie "Transformer". Que sont les transformateurs ?
Johannes von Oswald : Les transformateurs sont des réseaux neuronaux artificiels dotés d'une architecture particulière. Elle est utilisée par de grands modèles linguistiques comme ChatGPT, mais a été développée en 2017 par des chercheurs de Google et a permis à l'époque d'atteindre des performances de pointe en matière de traduction vocale. Il est intéressant de noter que ce modèle, légèrement modifié, a en fait déjà été inventé en 1991 par le pionnier de l'IA Jürgen Schmidhuber.
Et qu'est-ce qui caractérise cette architecture ?
Avant la percée actuelle de l'architecture Transformer, des t?ches telles que la classification d'images ou la traduction de la parole faisaient appel à des architectures réseau spécifiques, con?ues pour une t?che particulière. Les transformateurs sont fondamentalement différents de ces modèles d'IA antérieurs - et ils semblent très bien fonctionner pour une large gamme de t?ches différentes. Comme ils sont très répandus, il est important de comprendre comment ils fonctionnent.
Qu'avez-vous découvert gr?ce à vos recherches ?
Alors que les réseaux neuronaux sont généralement considérés comme des bo?tes noires qui recrachent une sortie lorsqu'ils re?oivent une entrée, nous avons montré que les transformateurs peuvent apprendre par eux-mêmes à intégrer de nouveaux algorithmes dans leur architecture. Dans notre cas, nous avons pu montrer qu'ils implémentent d'eux-mêmes un algorithme classique d'apprentissage automatique.
Avez-vous un exemple de ces comportements d'apprentissage ?
Vous pouvez par exemple donner à un modèle linguistique tel que ChatGPT plusieurs textes courts et indiquer à chaque fois si les textes ont en principe une humeur positive ou négative. Ensuite, vous présentez au modèle un texte qu'il n'a pas encore vu, et il apprendra et jugera assez s?rement si le nouveau texte est positif ou négatif à partir des exemples que vous avez donnés au modèle.
Vous dites donc que le modèle s'apprend lui-même une technique pour apprendre de nouvelles choses ?
Oui, c'est surprenant, mais c'est vrai. Tout simplement parce qu'il est contraint d'améliorer ses propres prédictions, il développe au cours de l'entra?nement une technique qui permet au modèle d'apprendre, par exemple, des conversations avec ses utilisateurs. Nous appelons ce type d'apprentissage "in-context".
Tout ce que ces modèles re?oivent est une brève entrée de texte. Comment les transformateurs utilisent-ils ces quelques informations pour optimiser leur résultat ?
Une possibilité consiste à apprendre une sorte de "modèle du monde" qui permette de faire des prédictions. Notre travail montre que c'est peut-être ce que font les transformateurs. Ce qui est intéressant, c'est que cet apprentissage se fait au sein d'un modèle qui a déjà été entra?né. Normalement, pour apprendre, il faudrait modifier les connexions dans le réseau neuronal du modèle. Nous avons montré qu'au lieu de cela, les modèles Transformer sont capables de simuler le même processus d'apprentissage au sein d'une architecture neuronale fixe.
Comment cette capacité est-elle obtenue chez les transformateurs ?
Dans notre travail, nous avons émis l'hypothèse que l'architecture du transformateur tendait fondamentalement à apprendre. Cela signifie en fait que la capacité à développer ces mécanismes d'apprentissage est implicitement intégrée dans la conception, avant même que le modèle ne soit entra?né.
GPT-3, le modèle derrière ChatGPT, compte 175 milliards de paramètres. Comment peut-on étudier un système aussi grand ?
Certains chercheurs adoptent une approche psychologique et analysent comment les modèles réagissent lorsqu'ils sont confrontés à des tests standardisés ou à des situations contradictoires telles que des dilemmes moraux. Nous avons étudié ce système de manière mécaniste, comme les neuroscientifiques, pourrait-on dire. Comme notre modèle fonctionne sur un ordinateur, nous sommes en mesure d'enregistrer chaque neurone et chaque connexion dans le réseau neuronal - une chose impensable lorsqu'on étudie le cerveau biologique des animaux ou des humains. Cependant, l'étude des systèmes à ce niveau de neurones individuels et de petits réseaux ne nous est actuellement possible que si l'on veut étudier des phénomènes très spécifiques sur des architectures relativement petites.
A quoi ressemble le système que vous avez utilisé dans votre travail ?
Le transformateur que nous utilisons est presque identique à l'architecture de transformateurs largement répandue. Au lieu d'entra?ner notre système avec de grandes quantités de textes trouvés sur Internet, nous l'avons entra?né avec des exemples d'un problème simple, la régression linéaire. Comme ce problème et sa solution sont très bien connus, nous avons pu comparer cette solution avec ce que nous avons observé dans le transformateur. Nous avons ainsi pu démontrer que le transformateur implémente en lui-même un algorithme d'apprentissage très connu et très puissant appelé "Gradient Descent".
Se pourrait-il aussi que des comportements totalement nouveaux pour l'informatique apparaissent ?
Cela pourrait se produire. Dans notre cas, le transformateur n'a pas simplement appris et exécuté "Gradient Descent", mais une version améliorée de celui-ci. Maintenant, deux études indépendantes du MIT et de l'UC Berkeley ont analysé l'algorithme que le Transformer a appris. Un objectif à long terme de telles recherches pourrait également être de déterminer si les algorithmes Transformer peuvent découvrir ou même prouver des théorèmes et développer des mathématiques que nous ne connaissons pas encore. Ce serait une étape importante et vraiment révolutionnaire.
Référence bibliographique
von Oswald J, Niklasson E, Randazzo E, Sacramento J, Mordvintsev A, Zhmoginov A, Vladymyrov M : Transformers learn in-context by gradient descent. Conference Paper International Conference on Machine Learning (ICML), July 2023, doi : page externe10.48550/arXiv.2212.07677