David Bau explique le mécanisme de l'intelligence artificielle

Yascha Mounk et David Bau se penchent sur la « boîte noire » de l’IA.

oct. 03, 2025

Si vous souhaitez que je continue à partager mes écrits en français, je vous serais reconnaissant de transmettre cette publication à trois amis et de les inviter à s’abonner.

- Yascha

David Bau est professeur adjoint à la Northeastern University et directeur du National Deep Inference Fabric. Il mène des recherches sur les mécanismes internes émergents des réseaux génératifs profonds dans le domaine du traitement du langage naturel et de la vision par ordinateur.

Dans la conversation de cette semaine, Yascha Mounk et David Bau explorent la technologie derrière l’IA, les raisons pour lesquelles il est préoccupant que tant d’informaticiens ne comprennent pas son fonctionnement, et comment y intégrer des valeurs morales.

Ce qui suit est une traduction abrégée d’une interview enregistrée pour mon podcast, « The Good Fight ».

Écouter en anglais

Yascha Mounk : Nous nous sommes récemment rencontrés lors d’un atelier sur l’intelligence artificielle à Harvard. Je pense que lors de notre conversation, vous m’avez aidé à mieux comprendre la nature, l’architecture et la technologie de l’intelligence artificielle que quiconque auparavant. J’ai pensé que j’aimerais beaucoup discuter de ce sujet avec vous dans le podcast. Fondamentalement, comment fonctionnent les modèles d’IA actuels ? Quand on parle de LLM, ou grands modèles linguistiques, qu’est-ce que cela signifie et en quoi cette forme d’intelligence artificielle se distingue-t-elle des autres formes que nous avons utilisées par le passé ?

David Bau : Il s’agit d’un modèle génératif, ce qui signifie qu’il s’agit simplement de modèles ouverts d’un certain type de comportement, par opposition à des modèles entraînés à prendre des décisions très restreintes. Jusqu’à récemment, ce qui était très populaire en IA, c’était de former des classificateurs pour résoudre des problèmes spécifiques, par exemple pour vous aider à prendre une décision précise.

Mais ces dernières années, il est devenu plus populaire, ou en fait plus étonnant, de créer des modèles ayant des objectifs plus ouverts. Un grand modèle linguistique est donc assez simple. En théorie, son rôle est d’imiter le langage humain. Mais imiter le langage humain est beaucoup plus riche que de prendre une décision oui ou non ou de répondre à une simple question à choix multiples, ce à quoi nous avions l’habitude de former l’IA.

Mounk : Peut-être pourriez-vous nous aider à comprendre ce qu’étaient ces classificateurs, afin de comprendre la différence avec ces grands modèles linguistiques. Il semble que vous disiez que le but était de classer en oui ou non, dans l’un des quatre ou cinq types de catégories différents.

Bau : Oui, je vais vous l’expliquer de la même manière que j’explique la différence entre ces deux types de modèles à mes étudiants. En gros, si vous entraînez une IA à classer des entrées dans différentes catégories, vous lui demandez en fait de vous indiquer la différence entre les choses. Je vais vous donner quelques exemples. Vous pourriez demander aux modèles de vous indiquer la différence entre une photo de chat et une photo de chien.

Ou, pour une application plus réaliste, vous pourriez demander à une IA de vous indiquer la différence entre un texte bien écrit et un texte mal écrit, ou entre une critique de film positive et une critique de film négative. Une entreprise comme Yelp pourrait faire cela pour examiner vos critiques afin de voir si vous avez tendance à écrire des critiques positives ou négatives, ou si une critique spécifique est positive ou négative.

Mounk : Que fait la start-up dans la série télévisée Silicon Valley qui semble vraiment stupide et qui devient soudainement importante ? Elle essaie de classer si quelque chose est un hot-dog ou non. Il s’agissait donc d’un classificateur.

Bau : Oui, je pense que c’est exact. C’était donc vraiment l’un des premiers problèmes que les gens ont soumis à l’IA. Je pense que le tout premier réseau neuronal jamais créé était une chose appelée le perceptron, et il a été entraîné à classer la différence entre les photos de garçons et les photos de filles.

Ils ont pris beaucoup de photos d’étudiants et ont montré que ce petit réseau neuronal, qui comptait 64 neurones, pouvait, s’il était correctement configuré, faire la différence entre ces types d’images. À l’époque, cela a été considéré comme un exploit extraordinaire. Ce type de problème existe depuis plus de 50 ans.

C’est un cadre puissant, mais il laisse aux modèles d’apprentissage automatique une grande marge de manœuvre pour prendre des raccourcis. Par exemple, si vous devez faire la différence entre un chat et un chien, il peut suffire de ne pas examiner tous les aspects de l’image. Vous pouvez simplement rechercher le bout des oreilles et reconnaître que les chats ont des oreilles pointues et que les chiens n’en ont généralement pas, sans regarder le reste de l’image.

L’une des choses pour lesquelles les classificateurs sont vraiment doués est d’identifier la différence la plus marquante, de se concentrer sur celle-ci et de prendre une décision en fonction de celle-ci, ce qui est formidable. Cela leur permet d’être très précis, mais cela signifie également qu’ils ne développent pas nécessairement une compréhension complète du monde. Si vous inventiez une image d’un chien aux oreilles pointues et que vous la donniez à l’un de ces classificateurs qui se concentrait sur le bout des oreilles, il dirait : « C’est clairement un chat ». Il ne reconnaîtrait peut-être pas qu’il y avait autre chose qui clochait dans l’image.

Mounk : Même si le reste de l’image ressemble très clairement à un chien et que ce n’est pas vraiment un cas difficile à d’autres égards.

Bau : C’est le genre de chose qu’un classificateur ferait, oui.

Mounk : Parlez-moi un peu de la technologie qui se cache derrière tout cela. Nous remontons peut-être trop loin dans le temps, mais un classificateur est-il une technologie similaire avec moins de neurones, quoi que cela signifie ? Ou s’agit-il de quelque chose de complètement différent ?

Lorsque nous passons des classificateurs aux grands modèles linguistiques que nous avons aujourd’hui, s’agit-il de la même technologie ou d’une approche complètement différente pour créer cette forme d’intelligence ?

Bau : Il s’agit fondamentalement du même type de technologie. Je dirais qu’il y a relativement peu d’innovations majeures qui distinguent les classificateurs classiques, tels qu’ils ont été inventés dans les années 1950, des grands modèles linguistiques modernes. Il y a eu beaucoup d’innovations progressives, modestes et intelligentes, mais en termes d’innovations majeures, elles ont été relativement peu nombreuses.

Nous nous attaquons réellement au problème en utilisant les mêmes techniques que celles que nous utilisons depuis les années 1980, époque à laquelle bon nombre des innovations que nous utilisons encore aujourd’hui ont été mises au point.

Mounk : Parlez-nous de ces techniques. Une idée qui revient souvent est celle des neurones et des réseaux neuronaux. Je peux comprendre ce qu’est un réseau neuronal dans mon cerveau. Je suis loin d’être un neuroscientifique, mais je comprends qu’un neurone est une sorte de cellule, à moins que je ne me trompe complètement. Mon cerveau est une sorte de réseau neuronal. Toutes ces cellules sont connectées de manière complexe. Qu’est-ce que cela signifie pour une IA d’avoir des neurones ou d’être un réseau neuronal ?

Bau : Il existe un terme populaire que vous verrez parfois appelé « réseau neuronal profond ». Ce qui rend un réseau neuronal intéressant, c’est sa profondeur. Un réseau neuronal s’inspire de l’architecture du cerveau humain. Tout ce qu’il fait, c’est calculer un ensemble de chiffres. Les données sont entrées dans le réseau neuronal sous forme de mots ou d’images, et la première chose à faire est de les convertir en un ensemble de chiffres et d’introduire chaque chiffre dans un neurone.

Ensuite, vous connectez les neurones afin qu’ils se transmettent les chiffres les uns aux autres. Si un neurone reçoit plusieurs entrées, il additionne les chiffres, effectue un petit calcul, puis crée un autre chiffre qui alimente la couche suivante.

Les réseaux neuronaux ne sont qu’un grand enchevêtrement de neurones connectés les uns aux autres afin de produire un résultat que vous espérez utile. Si vous venez de créer un réseau neuronal aléatoire, il ne fera probablement rien d’utile, mais il fera quelque chose avec vos données. L’astuce pour l’intelligence artificielle, l’astuce pour l’apprentissage automatique, consiste à entraîner le réseau neuronal à renforcer et à affaiblir toutes les connexions entre les neurones, transformant ainsi une machine aléatoire, une fonction aléatoire, en quelque chose qui fait quelque chose d’utile. C’est le processus d’entraînement qui rend un réseau neuronal presque magique.

Mounk : D’accord, revenons en arrière. Je veux comprendre le processus d’entraînement, mais avant cela, j’ai maintenant cette image d’un ensemble de cellules humaines — ou d’un ensemble de cellules numériques, quoi que cela signifie exactement — transmettant cette information. Vous voyez quelque chose avec votre œil humain, c’est un stimulus visuel, et d’une certaine manière, ce stimulus est traduit en un ensemble de signaux que les neurones s’envoient les uns aux autres.

Voulez-vous (ou connaissez-vous quelqu’un) qui aimerait recevoir mes articles et mes discussions directement dans votre boîte aux lettres en allemand ou en anglais?

Auf deutsch lesen 🇩🇪

Read in English 🇺🇸

Il existe ensuite un moyen d’utiliser ces informations. Aidez-moi à comprendre un peu mieux comment cela fonctionne dans un ordinateur et quel est l’intérêt de ces calculs simples que vous avez mentionnés.

Bau : Les calculs simples sont probablement plus simples que vous ne l’imaginez en tant que personne non initiée à la technique. Chaque neurone n’est que la somme de toutes les entrées qui lui parviennent. Il s’agit d’une somme pondérée où, si vous avez un neurone connecté à 1 000 entrées, il additionne simplement toutes les entrées, puis vérifie si les chiffres obtenus sont positifs ou négatifs.

Si le résultat est positif, le neurone effectuera une action dans la sortie, comme transmettre la somme. Si le résultat est négatif, le neurone effectuera une action différente, comme produire un résultat nul. Cette sortie devient alors un autre nombre qui est transmis à d’autres neurones. Chaque neurone effectue une action extrêmement simple. Il s’agit simplement d’additionner des éléments, d’examiner le résultat, puis de produire une sortie. Vous vous dites peut-être : « Oh mon Dieu, en quoi cela peut-il être utile ? »

Mounk : Je peux imaginer à quoi cela ressemble, mais j’ai du mal à comprendre en quoi cela est utile. Vous avez ces calculs très simples, ils s’additionnent, mais en quoi cela signifie-t-il que je peux... Je sais que nous sautons plusieurs étapes, mais en quoi cela explique-t-il que je puisse avoir une conversation avec ChatGPT en utilisant ma voix et qu’il me réponde ? Je sais qu’il y a beaucoup d’étapes à franchir pour y parvenir, mais pourquoi ce réseau neuronal est-il un outil si puissant, une idée si utile ?

Bau : Pourquoi est-ce si utile ? Vous pouvez répondre à cette question de deux manières. Mais je dois dire que la question que vous posez est en fait l’une des énigmes fondamentales qui se cachent derrière les réseaux neuronaux. Laissez-moi vous donner un peu d’histoire. Les réseaux neuronaux sont l’une des plus anciennes formes de programmation jamais conçues, dans les années 1940, avant que les ordinateurs numériques ne se généralisent. Ils existent depuis lors sous différentes formes.

L’une des raisons pour lesquelles il a fallu si longtemps pour que les réseaux neuronaux prennent une place aussi importante dans l’informatique est que tout le monde se posait la question que vous posez aujourd’hui. Même si vous parvenez à faire fonctionner ces choses, pourquoi devrions-nous nous attendre à ce qu’elles fonctionnent ? Dans les années 1950 et 1960, un scientifique nommé Rosenblatt a démontré que les réseaux neuronaux pouvaient accomplir des tâches utiles, mais cette idée n’a jamais vraiment fait son chemin, car tout le monde se posait la question suivante : ces neurones ne font que transmettre des chiffres. Que signifient ces chiffres ? Comment pouvons-nous être sûrs qu’ils accomplissent des tâches utiles ? Y a-t-il quelque chose qui explique pourquoi ils accomplissent des tâches utiles ? Parfois, ils ne fonctionnent pas. Pouvons-nous faire la différence ?

Cela a vraiment pris beaucoup de temps. Il existait de nombreuses façons différentes de faire de l’apprentissage automatique où les chiffres à l’intérieur de l’IA étaient plus compréhensibles. Pendant de nombreuses années, les scientifiques spécialisés dans l’IA ont pensé qu’il fallait utiliser l’une de ces autres approches, qui étaient plus transparentes et conçues pour être explicables. Ce n’est vraiment que ces dernières années que nous avons décidé d’utiliser des réseaux neuronaux qui présentent cet inconvénient majeur : nous ne savons pas à quoi servent les chiffres qui sortent d’un neurone. Nous ne savons pas s’ils ont un objectif particulier. Nous ne savons pas si certains neurones sont plus importants que d’autres. Nous ne savons pas dans quelles conditions ils apprennent quelque chose de bon ou quelque chose de mauvais. C’est très opaque.

Mais l’une des choses qui s’est produite, c’est que les réseaux neuronaux fonctionnent très bien. Nous comprenons en partie certains des éléments qui les font fonctionner si bien. Ils fonctionnent si bien que le domaine s’est accommodé de l’idée que nous devrions simplement utiliser ces boîtes noires. Ils sont si utiles que le fait que nous ne comprenions pas vraiment ce que font les neurones, à quoi ils servent ou ce qui est calculé à l’intérieur n’a peut-être pas d’importance.

L’une des raisons pour lesquelles j’ai participé à cet atelier est que je suis vraiment préoccupé par cette philosophie que nous avons adoptée dans le secteur de l’IA et de l’apprentissage automatique. Historiquement, en tant qu’ingénieurs et informaticiens, il a toujours été de notre responsabilité de comprendre les systèmes que nous créons, de nous assurer qu’ils font ce que nous voulons et qu’ils fonctionnent correctement. Je pense que la nouvelle discipline qu’est l’apprentissage automatique, parce qu’il est devenu si important d’accepter ces boîtes noires et de les utiliser même si nous ne les comprenons pas, conduit à un tournant malsain dans la pratique de l’ingénierie et de l’informatique.

Nous formons toute une nouvelle génération d’informaticiens à accepter l’idée qu’ils ne doivent pas vraiment regarder à l’intérieur de ces boîtes noires complexes, que ce n’est pas quelque chose de compréhensible ou qu’il n’est pas de leur responsabilité de comprendre. Je pense que c’est une erreur fondamentale. L’une des choses les plus importantes que nous devrions faire en tant que scientifiques et praticiens de l’IA est d’essayer de résoudre ce problème fondamental avec les réseaux neuronaux à grande échelle et de comprendre ce qui les fait fonctionner, ce qui les fait bien ou mal fonctionner, ou ce qui leur permet d’acquérir certains types de comportements.

Mounk : Vous travaillez sur l’interprétabilité, ce qui, si je comprends bien, consiste essentiellement à regarder sous le capot pour mieux comprendre ce qui se passe dans cette boîte noire de différentes manières.

Bau : C’est exact. Je travaille dans un domaine que l’on pourrait appeler l’interprétabilité a posteriori. Il existe plusieurs approches pour parvenir à l’interprétabilité dans l’apprentissage automatique. L’une d’elles consiste à simplifier les modèles d’apprentissage automatique au point qu’une personne puisse les examiner et comprendre et expliquer ce que fait chacune des étapes. Mais le domaine dans lequel je travaille est celui de l’interprétabilité a posteriori.

Cela signifie, disons, que nous n’avons pas fait cela. Supposons que nous ayons décidé d’utiliser un réseau neuronal avec des millions ou des milliards de neurones, beaucoup trop complexes pour que nous puissions avoir une idée préconçue de leur fonctionnement. Pouvons-nous analyser le système de la même manière qu’un biologiste analyserait un système biologique complexe et émergent ? Pouvons-nous comprendre la structure de ces calculs appris après coup, une fois qu’ils ont été entraînés, même si nous n’avons pas essayé de les restreindre à l’avance pour les rendre compréhensibles par les humains ?

Mounk : J’aimerais que vous nous donniez un peu plus de détails sur ce que vous pensez que nous pouvons comprendre et sur les progrès que nous avons réalisés dans ce domaine de l’interprétabilité. Mais pour en revenir à la construction ascendante de notre compréhension de ces modèles d’IA : nous avons ces réseaux neuronaux. Il s’agit en fait d’un processus très simple. Nous ne comprenons pas entièrement pourquoi ils se sont révélés si extrêmement utiles.

Au départ, nous disposions de ressources limitées, avec un nombre limité de neurones dans ces réseaux et probablement des données limitées à leur fournir. Nous avons peut-être réussi à leur faire distinguer un chien d’un chat, une fille d’un garçon, et peut-être un hot-dog d’un aliment qui n’est pas un hot-dog. Puis quelqu’un a dit : « Augmentons nos ambitions. Donnons-leur beaucoup plus de données. Faisons beaucoup d’autres choses — vous me direz lesquelles.

Ils pourraient alors devenir de grands modèles linguistiques polyvalents qui ne sont pas formés pour un objectif très spécifique, mais qui peuvent en fait nous aider dans une grande variété de tâches, de l’écriture d’un poème au résumé d’un texte en passant par la génération d’une image. Quels progrès techniques ou quels changements nous ont permis d’en arriver là ? Comment se fait-il que ce réseau neuronal s’adapte soudainement pour être capable de faire ce genre de choses ?

Bau : Il y a plusieurs choses à savoir, et certaines dont les lecteurs ou les auditeurs ont peut-être déjà entendu parler. Je tiens tout d’abord à souligner que ces très grands réseaux neuronaux ne sont pas si différents des classificateurs avec lesquels nous travaillons depuis 50 ans, si ce n’est qu’ils sont plus grands. D’un point de vue technologique, de par sa conception, un modèle linguistique est un classificateur. Il résout un problème de classification légèrement plus ouvert que ceux que nous avons résolus auparavant, mais il ne fait en réalité que résoudre des problèmes de classification répétitifs. Et quel est ce problème de classification ? Il s’agit d’une grande question à choix multiples : quel est le mot suivant ?

Le mot suivant est-il chat ? Le mot suivant est-il chien ? Le modèle linguistique n’est pas confronté à un choix binaire. Nous donnons généralement à un modèle linguistique un vocabulaire d’environ 50 000 mots, syllabes et lettres. Nous disons au modèle linguistique : « Tu as 50 000 choix possibles. Quel est le mot suivant qui est la bonne réponse dans ce contexte ? » En entrée, nous donnons au modèle linguistique tous les mots précédents et nous lui demandons : « Dis-moi quel est, selon toi, le mot suivant correct ».

Il s’agit donc simplement d’un classificateur, tout comme nous avons formé des classificateurs à faire la différence entre les chats et les chiens. Mais l’échelle des GPU de calcul parallèle modernes nous a permis de rendre ces classificateurs capables de traiter des problèmes de classification à plus grande échelle. Les résultats sont plus importants : il y a 50 000 choix possibles au lieu de deux ou dix, comme nous le faisions traditionnellement. Les entrées sont plus importantes : au lieu d’une seule image ou d’une seule phrase, nous pouvons alimenter ces modèles avec des livres entiers, des histoires entières, afin qu’ils puissent les examiner et décider quel devrait être le mot suivant.

Plusieurs innovations architecturales clés ont permis à ces modèles de consommer et d’apprendre à utiliser des entrées aussi volumineuses et de résoudre des problèmes de sortie ouverts. Mais fondamentalement, il s’agit simplement de réseaux neuronaux, un ensemble de neurones connectés de la même manière que Rosenblatt connectait les neurones dans les années 1950.

Mounk : Vous pensez donc que c’est fondamentalement la même chose que ce que nous utilisions il y a 80 ans, ce qui est étonnant. Mais quelques innovations technologiques ont permis à ces modèles de consommer autant d’informations et donc de dépasser les limites des modèles précédents. Pouvez-vous nous donner un exemple, ou y a-t-il une innovation particulièrement importante à cet égard ?

Bau : Je pense que l’une des choses qui s’est produite ces dernières années est l’essor d’une stratégie particulière d’architecture de réseau neuronal appelée « transformateur », qui a vraiment conquis le secteur. Il existait auparavant une grande variété d’architectures de réseaux neuronaux, mais nous tendons de plus en plus à utiliser des transformateurs pour tout. La fonction fondamentale des transformateurs est d’introduire une forme de mémoire à court terme que nous appelons « attention ».

Cela signifie qu’au lieu de se contenter de consulter ce qu’ils ont appris pendant leur formation, les modèles développent la capacité d’apprendre à partir des données qui leur sont fournies. Je vais vous donner un exemple simple.

Si vous interrogiez le modèle linguistique sur une personne en particulier, avec une formation traditionnelle, vous vous attendriez à ce que ce modèle ne puisse répondre aux questions sur cette personne que si des informations la concernant figuraient dans les données de formation. Mais dans la vie réelle, il arrive souvent que quelqu’un vous pose une question sur une personne que vous venez de rencontrer. Vous n’avez pas rencontré cette personne dans votre enfance. Vous n’avez pas lu d’informations à son sujet à l’école. Vous venez simplement d’avoir une conversation avec elle, puis quelqu’un vous pose une question à son sujet et vous devez répondre immédiatement. Ce type de raisonnement à court terme est quelque chose que les réseaux neuronaux traditionnels ne maîtrisent pas très bien.

L’architecture du transformateur introduit une manière particulière de connecter les neurones, appelée couche d’attention, qui permet au réseau de revenir sur des événements récents dans l’entrée et de les utiliser comme une sorte de mémoire, en manipulant ces souvenirs et en raisonnant à leur sujet. Cela s’est avéré si puissant que l’on peut vraiment considérer les transformateurs comme une catégorie distincte de réseaux neuronaux. Il s’agit d’une innovation majeure.

Mounk : Donc, si je pense à mon interaction avec des modèles tels que ChatGPT, Claude, Grok ou tout autre modèle d’IA, la différence est la suivante : si le modèle ne disposait pas d’un transformateur, le problème serait que chaque question que je lui poserais recevrait la même réponse qu’avant le début de la conversation. Il serait donc difficile d’avoir une conversation interactive.

Le transformateur lui permet de garder à l’esprit le contexte de la conversation et d’avoir une conversation continue et progressive. Ou ai-je mal compris ?

Bau : Je pense que c’est exact. Le transformateur a vraiment permis d’enseigner des choses au réseau neuronal en lui disant quelque chose, plutôt qu’en contrôlant l’ensemble du processus d’apprentissage. Lorsque vous avez une conversation avec une personne, vous apprenez et enseignez constamment vos idées à l’autre personne. Vous partagez vos concepts, votre compréhension du monde avec cette personne, et elle les absorbe. Cela permet à la conversation de se poursuivre.

Les transformateurs permettent à un réseau neuronal de développer la capacité d’avoir le même type de conversation, de développer une compréhension au cours d’une conversation, d’apprendre à court terme des choses qu’il utilise pour donner des réponses immédiates, et de se souvenir de choses qui se sont produites récemment, plutôt que de se fier uniquement à la mémoire à long terme.

Les transformateurs n’ont pas été la première architecture à tenter cela. Des architectures ont été proposées dans les années 1980 pour y parvenir, appelées réseaux neuronaux récurrents (RNN). Vous avez peut-être entendu parler des LSTM, les réseaux à mémoire à court terme. L’idée qu’il faille avoir une mémoire à court terme, qu’il faille être capable de résoudre des problèmes de cette manière, n’est pas totalement nouvelle.

Le transformateur permet de former efficacement des réseaux capables de faire cela. Il s’agit d’une innovation qui a montré que cette vieille idée pouvait être mise en pratique et développée à grande échelle.

Mounk : Techniquement, une personne ayant des connaissances en informatique peut-elle comprendre comment le transformateur fonctionne ? Ou est-ce que cela relève d’un domaine trop compliqué à comprendre ?

Bau : Je pense que l’essentiel à comprendre est que si vous essayez de former quelque chose avec une mémoire à court terme, alors comme la mémoire à court terme semble être un processus séquentiel, les méthodes naturelles que vous utiliseriez pour former un réseau neuronal à avoir une mémoire à court terme sont très séquentielles. Elles se font une par une.

Vous dites certaines choses au réseau neuronal, puis vous vous retournez immédiatement et lui demandez de faire une prédiction sur ce que vous venez de lui dire. Ensuite, sur cette base, vous pouvez passer à l’étape suivante, car le temps s’écoule de manière progressive. Cela est possible, mais cela tend à être très lent. La grande innovation dans le secteur de l’IA concerne le calcul parallèle.

La raison pour laquelle l’entraînement des réseaux neuronaux est si efficace est que nous pouvons traiter de nombreuses entrées et apprendre beaucoup de choses en parallèle sur ces dispositifs GPU. Les architectures de réseaux neuronaux récurrents du passé ne s’adaptaient pas très bien à ce modèle de calcul parallèle. De nombreux aspects de l’entraînement étaient intrinsèquement séquentiels, ce qui ralentissait le processus.

Le transformateur modifie certaines hypothèses sur le fonctionnement de cette mémoire afin de permettre une parallélisation optimale. Je ne suis pas sûr qu’il soit très intéressant d’entrer dans les détails de la manière dont il est parallélisé. Cela signifie que les transformateurs sont un peu plus limités théoriquement que les anciens RNN, mais les limitations sont soigneusement choisies et soigneusement conçues pour permettre le parallélisme et compenser les limitations.

Il existe un concept propre aux transformateurs que les anciens RNN ne possèdent pas, appelé « fenêtre de contexte ». Parfois, lorsque vous achetez un produit d’IA, on vous indique que ce produit dispose d’une certaine fenêtre contextuelle, tandis qu’un autre produit peut avoir une fenêtre contextuelle plus grande. Vous devrez peut-être même payer plus cher pour un produit doté d’une fenêtre contextuelle plus grande. Le concept de fenêtre contextuelle a été introduit par les transformateurs afin de leur permettre de paralléliser l’entraînement.

Une fenêtre contextuelle est un nombre fixe de mots passés que le transformateur peut voir lorsqu’il tente de se souvenir de sa mémoire à court terme. Un RNN a une fenêtre contextuelle infinie. En principe, il pourrait se souvenir de tout ce qui s’est passé depuis sa première mise en marche. Mais un transformateur est formé avec une fenêtre contextuelle fixe. Si le transformateur a une fenêtre contextuelle de 1 000, cela signifie qu’après avoir prononcé 1 001 mots, le tout premier mot que vous avez prononcé n’est plus dans la mémoire à court terme du transformateur. Il ne pourra plus s’en souvenir.

Cette simple limitation finit par être un facteur favorisant l’entraînement. Elle permet de connecter les neurones de manière à ce que le transformateur puisse être entraîné de manière massivement parallèle, ce qui est beaucoup plus efficace que l’entraînement d’un RNN.

Mounk : Les limites de ces fenêtres contextuelles sont toujours d’actualité en termes de contraintes techniques dans certains modèles linguistiques existants. Vous pouvez faire des allers-retours pendant un certain temps, puis à un moment donné, il perd la trace du début de votre conversation. Ou si vous lui demandez d’effectuer des tâches beaucoup plus complexes, il reste concentré sur la tâche et sur la bonne voie pendant un certain temps, puis il cesse d’être capable de retenir les informations dont il a besoin pour l’exécuter correctement. Est-ce à peu près exact ?

Bau : Oui. Il y a en fait deux effets ici. L’un est une fenêtre contextuelle rigide, où le transformateur n’a aucun espoir de comprendre les choses qui dépassent sa fenêtre contextuelle. L’autre est une dégradation progressive de sa mémoire. Ces réseaux neuronaux sont des machines statistiques, ils ne sont jamais parfaits, et à mesure que la conversation s’allonge, même pour des choses qui se trouvent théoriquement dans la fenêtre contextuelle, le transformateur a plus de mal à se souvenir et à traiter avec précision les choses qui remontent plus loin dans le temps.

Mounk : Je voudrais maintenant revenir à l’architecture globale de l’IA. Je vais vous présenter un scénario hypothétique, David. Et si je vous donnais un milliard de dollars et vous demandais de me construire une IA ? Que feriez-vous ? Vous construiriez un réseau neuronal, il serait équipé d’un transformateur, de toutes ces choses. Quelles seraient les autres étapes ? Vous devriez l’entraîner. Une fois que vous l’auriez entraîné, vous devriez l’ajuster. Qu’est-ce que cela signifie concrètement ?

Bau : L’apprentissage automatique moderne comporte en réalité deux étapes. Si vous me donniez un milliard de dollars pour former un réseau neuronal, la première tâche qui m’attendrait serait de procéder à ce qu’on appelle le pré-entraînement du réseau. La deuxième tâche consisterait à affiner le réseau afin qu’il acquière une certaine personnalité ou qu’il atteigne un certain objectif que je souhaite lui faire atteindre.

Cette distinction entre pré-entraînement et ajustement est l’un des éléments de la tradition, l’une des règles fondamentales que nous avons apprises, et elle est assez profonde dans l’apprentissage automatique moderne. L’idée est la suivante : si vous essayez directement d’entraîner une IA à résoudre le problème qui vous intéresse, vous passez à côté de nombreuses occasions d’obtenir une IA qui a une compréhension profonde du monde. Il existe de nombreux autres problèmes, sans rapport avec celui pour lequel vous créez l’IA, dont elle pourrait tirer des enseignements et qu’elle pourrait généraliser.

Ce que les gens réalisent, c’est que pour créer une IA, il faut commencer par l’entraîner à comprendre autant de choses que possible dans le monde. Une fois que l’IA est vraiment douée pour modéliser une grande variété de problèmes intéressants, vous la peaufinez pour qu’elle résolve le problème particulier qui vous intéresse. L’IA tire un grand profit de ce pré-entraînement.

De nos jours, la première étape consiste à pré-entraîner le modèle sur un problème universel. Le problème universel sur lequel l’ensemble du secteur s’est mis d’accord consiste à pré-entraîner le modèle sur la modélisation linguistique à grande échelle : être capable d’imiter du texte. Quel texte ? Tout le texte. Tout le texte que l’humanité a jamais écrit, au sens large.

Si le texte contient des images, celles-ci peuvent être encodées sous forme de petits morceaux de texte, de petits fragments de mots d’image. S’il y a des vidéos, elles peuvent également être réduites à un ensemble de tokens. Nous pouvons entraîner une IA à imiter tout contenu qui a été créé par un humain dans le passé.

Mounk : Expliquez-moi ce que signifie « entraîner » d’un point de vue technique ou semi-technique. On peut supposer que lorsqu’un bébé est entraîné, il a des yeux et des oreilles et observe le monde qui l’entoure. Les informations qui affluent dans son cerveau sont en quelque sorte encodées par un mécanisme dans ces neurones. Au fil du temps, les types de stimuli que le bébé voit et reçoit commencent à former le réseau neuronal que constitue son cerveau.

Je vais essayer de faire ici une analogie avec le système d’IA. On peut supposer que vous disposez de ce réseau neuronal, que vous lui soumettez tout ce texte et que cela façonne d’une manière ou d’une autre le réseau neuronal d’une façon qui peut être analogue ou non. Que signifie exactement « former » ?

Bau : Entraîner un réseau neuronal est en fait très simple. Tout d’abord, vous devez avoir un objectif. Une fois que vous avez un objectif, vous exposez le réseau neuronal à des défis. Vous lui donnez des entrées et vous lui demandez de produire des sorties. Vous demandez ensuite si la sortie a atteint cet objectif ou non. Parfois, la sortie aura atteint l’objectif, et parfois elle ne l’aura pas atteint.

Si c’est le cas, quel que soit le calcul effectué par le réseau neuronal dans ce cas précis, vous renforcez toutes les connexions neuronales qui ont conduit à ce résultat positif. Si le réseau n’a pas atteint l’objectif, vous vous penchez sur ce calcul et affaiblissez légèrement toutes les connexions neuronales qui ont conduit au mauvais résultat. À chaque fois, vous n’apportez pas de changement radical au réseau ; vous modifiez peut-être tout de 1 % ou d’un dixième de pour cent. Mais après avoir répété cette opération des milliers, des millions ou des milliards de fois, le réseau finit par converger vers un modèle de calcul qui devient de plus en plus souvent correct, de moins en moins souvent incorrect et de plus en plus sophistiqué pour résoudre des cas plus difficiles au fil du temps.

L’ensemble de ce processus est appelé rétropropagation ou descente de gradient, et il constitue la base du fonctionnement de l’apprentissage automatique. C’est un processus d’une simplicité trompeuse. Une version primitive a été inventée dans les années 1950, et des versions plus versions plus sophistiquées ont été développées dans les années 1980. Ce processus reste si important qu’il fait encore aujourd’hui l’objet de recherches actives. Fondamentalement, la technique de rétropropagation est la même que celle que nous utilisons depuis les années 1980. Nous n’y avons apporté que de légères modifications.

Mounk : Question très simple. Pour disposer de ce mécanisme de rétropropagation, vous devez vraisemblablement savoir quand le système fait quelque chose de bien ou de mal, de juste ou de faux. Mais nous ne parlons pas ici de post-entraînement. Je ne pense pas que nous parlions ici de la manière dont, une fois que vous disposez d’un grand modèle linguistique qui a été entraîné, vous lui donnez ensuite un retour d’information en fonction de son résultat. C’est une autre chose.

Alors, comment le modèle sait-il quand il fait quelque chose de bien ou de mal ? Par exemple, il peut dire « c’est un chat » ou quelque chose de plus compliqué, comme produire une phrase. Comment sait-il si « c’est une bonne phrase » ou « c’est une mauvaise phrase » ? Comment sait-il que « en fait, ce n’était pas un chat, c’était un chien » ?

Bau : La distinction que vous faites est l’une des grandes idées fondamentales, à savoir la distinction entre l’entraînement supervisé et l’entraînement non supervisé. Dans l’entraînement supervisé, vous avez une idée claire du problème que vous voulez que le réseau résolve. Par exemple, vous avez besoin que le réseau fasse la différence entre les bonnes critiques de restaurants et les mauvaises critiques de restaurants. Vous montrez au réseau ce qui est bon et ce qui est mauvais, puis vous punissez le réseau chaque fois qu’il fait le mauvais choix. C’est ainsi que nous avons conçu l’entraînement de l’IA pendant longtemps.

Le problème est que la collecte de ces données d’entraînement coûte cher. Vous devez faire des évaluations et des jugements humains sur le problème que vous voulez résoudre. Il y a des limites à ce que vous pouvez faire. La grande innovation consiste à introduire un autre type d’objectif, appelé problème d’entraînement non supervisé. Un problème d’entraînement non supervisé est un objectif pour lequel vous n’avez pas besoin d’étiqueter les données. Vous n’avez pas besoin d’une personne pour vous dire si c’était la bonne ou la mauvaise chose à faire. Vous définissez un objectif que l’IA peut poursuivre, qui est plus naturel ou plus omniprésent dans le monde.

La modélisation du langage est un objectif d’entraînement non supervisé. Cette question à choix multiples consistant à prédire le mot suivant ne nécessite pas qu’un expert humain étiquette les données en disant « ce mot est correct, celui-là est incorrect ». Il suffit de collecter du texte. Un modèle linguistique peut s’évaluer lui-même sur la base de tous les textes qui ont été écrits, sans avoir besoin d’un expert distinct pour l’entraîner sur ces questions.

Mounk : Dans l’apprentissage supervisé, je dispose d’une base de données contenant 100 avis positifs et 100 avis négatifs, probablement plutôt un million, mais disons 100. Vous lui donnez l’un de ces avis, et dans la base de données, il y a un point de données qui indique s’il est positif ou négatif. Cette étiquette a été générée par des humains à un moment donné. Un humain a examiné ces 200 critiques et les a classées en positives et négatives. Le système s’évalue lui-même par rapport au jugement humain « objectif » encodé dans ce qu’il vérifie lui-même.

Comment l’apprentissage non supervisé se vérifie-t-il à la fin ? Vous dites, par exemple, que Shakespeare, ou un blogueur, ou un journaliste du New York Times a déjà décidé quel est le mot suivant approprié. Mais comme ce LLM crée une phrase qui n’a jamais existé dans le langage humain dans de nombreux contextes, comment sait-il si elle est similaire au type de mot que Shakespeare, le New York Times ou le blogueur auraient écrit ensuite ?

Bau : Il y a deux choses à clarifier. La première est que l’une des idées fondamentales qui ont permis à l’apprentissage non supervisé de fonctionner était la reconnaissance qu’il n’y a pas de réponse unique et correcte. Quel est le mot suivant ici ? Si différentes personnes étaient confrontées à la même situation, même si elles étaient très intelligentes et très humaines, elles pourraient choisir des mots différents.

Il est plus juste de considérer le mot suivant comme une distribution de possibilités. Peut-être que dans 30 % des cas, vous auriez choisi ce mot, dans 10 % des cas, vous auriez choisi un autre mot, et dans les 60 % restants, vous auriez pu faire un large éventail d’autres choix. La bonne chose à faire pour entraîner l’IA est de comprendre et de modéliser cette distribution de probabilités aussi précisément que possible. Au lieu de simplement trouver le mot suivant, elle doit déterminer les probabilités aussi précisément que possible. Il existe des méthodes mathématiques pour noter cela.

C’est pourquoi ces systèmes sont des machines probabilistes. Ils ne produisent pas de choix uniques. Ils produisent une évaluation de ce qu’ils pensent être les probabilités.

Comment savoir si cela est correct ou non ? Nous mesurons ces éléments à l’aide de ce que l’on appelle un ensemble de test. C’est très simple. Vous prenez un ensemble de textes qui auraient fait partie de vos données d’entraînement, puis vous les séparez pour en faire un ensemble de test, un quiz. Vous dites au système d’IA : « Vous pouvez vous entraîner sur toutes ces données, mais pas sur ces dix pages. Ces dix pages sont différentes, et vous n’aurez jamais l’occasion de les voir.

Une fois l’entraînement terminé, nous allons vers le modèle et lui demandons d’examiner ces dix pages. Nous lui donnons les 100 premiers mots de la première page et lui demandons de nous dire quelles sont, selon lui, les probabilités du mot suivant.

Mounk : Je vois. Plus il se rapproche de la prédiction réelle du reste du passage, mieux il a appris.

Bau : C’est exact. Ce test de validation est depuis de nombreuses années la référence en matière d’évaluation de la réussite d’un modèle d’apprentissage automatique. Peut-il prédire correctement les réponses à partir d’une donnée que vous avez retirée de l’entraînement ?

Mounk : Vous avez fait tout cela, et dans un sens, ce n’est que la première étape de ce que font actuellement de nombreux modèles. Car ensuite, si je comprends bien, vous avez toute une série de post-entraînements, ou quel que soit le terme approprié, dans lesquels vous demandez à un modèle d’effectuer des tâches et vous lui donnez un renforcement positif ou négatif en fonction de ce qu’il fait.

En quoi cela diffère-t-il de ce dont nous avons parlé jusqu’à présent ? En quoi cela modifie-t-il le modèle ? Vous disposez de ce système entraîné, de cet immense réseau neuronal, alors comment le renforcement positif ou négatif modifie-t-il la structure physique du réseau ? Il est certain que cela est nécessaire pour qu’il apprenne au fil du temps et s’adapte mieux.

Bau : C’est exact. Le problème avec l’entraînement non supervisé est que le modèle n’apprend pas à faire quoi que ce soit d’utile en particulier. Je vais vous donner un exemple de ce qui ressort d’un modèle linguistique non supervisé. Si vous vous rendez sur un modèle linguistique non supervisé et que vous essayez d’avoir une conversation avec lui, et que vous dites : « Veuillez me dire la capitale du Vermont », que voulez-vous que le modèle linguistique réponde ?

Vous voulez qu’il réponde : « Quelle excellente question ! Beaucoup de gens ne connaissent pas la capitale du Vermont, mais c’est Montpelier. Voici un moyen de s’en souvenir. Voici quelques informations sur Montpelier. Mais si vous vous adressez à un modèle linguistique non supervisé et que vous lui demandez « Quelle est la capitale du Vermont ? », il répondra en prédisant le mot suivant le plus probable selon lui. Il pourrait répondre : « Quelle est la capitale du Colorado ? Quelle est la capitale du Maine ? Quelle est la capitale du Wyoming ? Quelle est la capitale de New York ?

Mounk : Exactement. Normalement, lorsque vous regardez un texte, le mot suivant n’est pas nécessairement « Montpelier ». Cela peut être le cas dans certains contextes, comme un dialogue dans un roman où le personnage a la bonne réponse. Mais dans d’autres contextes, vous pouvez avoir une liste de questions, ou vous pouvez l’utiliser comme exemple dans un texte philosophique, etc.

Bau : En effet. Si vous entraînez vraiment le modèle sur tous les textes du monde, alors la situation la plus courante, le contexte le plus courant pour poser une question, serait un livre de questions. Le modèle continuera simplement à écrire ce livre de questions, en inventant de plus en plus de questions similaires à celle que vous avez posée. C’est une expérience assez insatisfaisante.

Cela peut en fait être amusant, mais ce n’est pas très utile. Ce que vous pouvez faire, cependant, c’est vous rendre dans l’un de ces modèles linguistiques pré-entraînés et dire : « C’est génial que vous puissiez imiter tous les livres de la bibliothèque, mais laissez-moi vous donner un ensemble de livres que j’aimerais que vous imitiez particulièrement bien. Quels sont ces livres ? Il s’agit d’une collection de 100 000 conversations, de dialogues, qui sont des exemples de personnes posant des questions et obtenant des réponses aimables et utiles.

Si vous revenez à ce modèle linguistique pré-entraîné et que vous l’entraînez sur des textes de dialogue, en le peaufinant simplement, c’est-à-dire en prenant ces 100 000 pages et en en faisant la dernière chose sur laquelle le réseau a été entraîné, la dernière chose qu’il a apprise, la dernière chose pour laquelle il a été récompensé ou puni, alors le modèle linguistique acquerra ce biais. Il aura tendance à imiter la dernière chose qu’il a vue. Si vous demandez « Quelle est la capitale du Vermont ? », il aura tendance à vous donner une réponse utile. Il répondra sous forme de dialogue, ce qui est remarquable.

Ce processus s’appelle le réglage fin des instructions. Les gens collectent des ensembles de données sur les comportements utiles qui suivent les instructions : « Veuillez répondre à cette question pour moi. Veuillez faire cela pour moi. Veuillez faire cette chose pour moi », ainsi que des exemples d’IA effectuant la tâche de manière intelligente et utile. Si vous alliez voir un transformateur et que vous l’entraîniez uniquement sur ces milliers de conversations, il pourrait comprendre la grammaire de ce que vous faites, mais cela ne serait pas très utile. Il ne saurait pas grand-chose sur le monde.

Mais si vous utilisez un grand modèle linguistique qui a été formé pour imiter tous les livres jamais écrits, tous les articles de blog jamais publiés sur Internet, puis, comme réglage final, vous lui montrez un dialogue et lui dites : « Ce que je veux vraiment que vous appreniez, c’est à suivre ce format. Lorsque vous effectuez une prédiction du mot suivant, faites-le de manière à répondre aux questions », alors quelque chose de profond se produit. Non seulement il suit la forme du dialogue, mais il exploite également le vaste éventail de connaissances qu’il a acquises pendant la pré-formation.

Par exemple, si vous posez une question sur Shakespeare, le modèle aura tendance à y répondre, même si les exemples de dialogue spécifiques ne mentionnent pas Shakespeare. Il suivra la forme du dialogue, mais s’appuiera sur les connaissances acquises précédemment lors de la pré-formation. C’est vraiment la magie de l’apprentissage automatique moderne, de la modélisation linguistique moderne : la séparation entre la pré-formation et le réglage fin.

Mounk : Fascinant. Il me semble que cette dernière étape, du moins dans les écrits les plus populaires que j’ai lus, n’a pas été suffisamment mise en avant. Les gens s’inquiètent du contenu des ensembles de données utilisés pour former le réseau neuronal, mais il semble que cette dernière étape ait un impact disproportionné. Il est en fait très intéressant d’examiner le type de données utilisées par les entreprises pour cette dernière étape.

Deux réflexions à ce sujet. La première est que j’ai entendu des suggestions intéressantes selon lesquelles les styles de conversation américains s’exportent rapidement dans le monde entier. Il y a vingt-cinq ou trente ans, les gens s’inquiétaient de la mondialisation à cause de McDonald’s et de la possibilité que cela fasse disparaître les cultures locales. Je ne pense pas que cela se soit vraiment produit. Mais aujourd’hui, tout le monde interagit avec des modèles linguistiques mondiaux, où la dernière couche du style de dialogue est probablement principalement anglo-saxonne, probablement principalement américaine. Le format dans lequel les gens interagissent avec l’IA dans des pays qui ont des styles conversationnels très différents est façonné par les habitudes américaines.

Cela signifie sans doute également que certains types de données ont plus de valeur que d’autres. Si cette dernière étape est si importante, alors les données utilisées pour l’entraîner sont particulièrement précieuses. Par exemple, les réponses les plus plébiscitées sur un forum Reddit concernant la manière de répondre utilement à des questions, ou les sites comme Quora où les gens se rendent en ligne pour poser des questions, sont des formes de données particulièrement utiles. Elles sont bien plus utiles qu’un traité aléatoire sur un sujet important.

Bau : Je pense que vous avez mis le doigt sur le point le plus intéressant et le plus important concernant la manière dont nous construisons l’industrie de l’IA, à savoir que cette dernière étape est différente du pré-entraînement. Nous sommes confrontés à de nombreux choix lors de cette dernière étape. Il ne s’agit pas seulement de choisir le style de conversation ou le style linguistique à adopter.

Il s’agit également de choses plus sophistiquées. Au cours de cette dernière étape, vous pouvez encoder des objectifs, des valeurs et une morale. Le succès de ChatGPT est le fruit du travail d’une équipe qui a compris que l’une des choses les plus importantes à faire au cours de cette dernière étape était d’imposer le respect d’un ensemble de conventions sociales, afin d’avoir un certain sens de l’éthique humaine, de la morale et des comportements acceptables.

Si vous ne le faites pas, vous vous retrouvez avec un système qui discutera avec vous, mais qui sera vraiment grossier. Il a été entraîné sur tellement de textes trouvés sur Internet qu’il se disputera, vous insultera et se comportera de manière épouvantable. Toutes les tentatives précédentes de création de chatbots, c’est-à-dire de faire dialoguer l’un de ces modèles linguistiques, ont rencontré ce problème. Ils sombreraient rapidement dans des textes et des disputes toxiques, car ils avaient vu tellement d’interactions de ce type sur Internet. Ils étaient très doués pour tenir des conversations insultantes.

Les collaborateurs d’OpenAI ont donc créé une équipe d’alignement, qui a mis au point des méthodes pour effectuer ce réglage final afin d’imposer un comportement humain acceptable à ces réseaux, en les alignant sur ce qu’une personne polie dirait. Ils ont obtenu un certain succès dans ce domaine. Ils ont développé une méthode appelée RLHF, Reinforcement Learning from Human Feedback (apprentissage par renforcement à partir du retour d’information humain). Il s’agit essentiellement d’un moyen d’augmenter les récompenses et les punitions pour ces modèles, en les incitant à dire des choses qui rendent les gens heureux.

Une fois cette méthode mise au point, ils ont lancé leur chatbot. Ce n’était pas le premier chatbot basé sur un modèle linguistique jamais lancé, mais c’était le premier à connaître un succès commercial. Il était poli, utile et ne vous insultait pas. Les gens en ont fait une expérience positive. Il avait été entraîné pour rendre les gens heureux.

Mounk : Il y a en fait trois étapes. Je suis sûr qu’il y en a beaucoup d’autres dont je n’ai jamais entendu parler, mais il y a trois étapes principales dont nous avons parlé. La première est la formation initiale, où vous jetez toutes ces données dans le réseau neuronal. La deuxième est la rétropropagation, où vous demandez : « Dans quelle mesure réussissez-vous à prédire le mot suivant par rapport à ces textes de réserve ? » et vous continuez à ajuster la force des différentes connexions neuronales en conséquence. La troisième étape est la suivante : s’agit-il littéralement d’êtres humains, à grande échelle (des milliers de personnes), qui interagissent avec l’IA et donnent un retour positif ou négatif ? À quoi ressemble concrètement cette dernière étape ?

Bau : Il n’y a en réalité que deux étapes. Permettez-moi de clarifier certaines choses. Vous avez dit qu’il fallait fournir tous les textes du monde à ces modèles, puis effectuer une rétropropagation dans un deuxième temps. D’un point de vue technique, toutes ces étapes utilisent la rétropropagation. Elles consistent simplement à ajuster les poids neuronaux des milliards de fois par seconde afin d’essayer de faire apprendre les modèles.

La question est : quel est l’objectif de tous ces ajustements ? Il existe deux types d’objectifs, du moins dans ma conception. Le premier est un objectif non supervisé, où l’objectif est l’imitation. Imitez toutes les informations que je vous fournis. Je ne vais pas les sélectionner avec soin. Je veux simplement que vous soyez intelligent par rapport au monde. Je veux que vous compreniez comment fonctionne le monde écrit, comment fonctionne le monde humain, pour le meilleur ou pour le pire. Je veux que vous compreniez tout, mais sans objectif spécifique. Peut-être vers un objectif très générique, comme prédire le mot suivant. Il s’avère que si vous pouvez prédire le mot suivant, vous êtes obligé de comprendre beaucoup de concepts et la structure du monde. Alors faites-le. Devenez très doué pour prédire le mot suivant. C’est ce qu’on appelle l’entraînement non supervisé.

La deuxième phase de l’entraînement utilise toujours la rétropropagation. Elle utilise toujours les connexions neuronales, le renforcement et l’affaiblissement. La différence réside dans la manière dont les objectifs sont choisis. Au lieu d’un objectif universel et général, c’est désormais le jugement éditorial qui prévaut. Par exemple, vous pouvez vouloir un type de personnalité particulier. Vous pouvez vouloir que le modèle soit capable de dialoguer. Cela n’est pas nécessairement inhérent à l’IA. Vous pouvez entraîner une IA à faire quelque chose de différent. Des personnes expérimentent ces choses. Vous pourriez former une IA à être très douée pour utiliser un traitement de texte, éditer du texte et prédire quand cliquer sur quelque chose et supprimer une phrase. Ce type d’interaction est très différent du dialogue, mais reste très utile.

La deuxième phase traite les cas où imiter et comprendre toutes les informations du monde n’est pas assez spécifique. Vous voulez un type d’interaction spécifique, peut-être pour discuter avec une personne. Il y a alors de nombreux jugements différents à prendre en compte, non seulement la forme de l’interaction, la forme du dialogue, mais aussi l’objectif du dialogue. L’objectif est-il de vous aider ? Que signifie « être utile » ? Il s’avère qu’il existe des jugements culturels sur ce que signifie « être utile ».

Supposons que vous souhaitiez avoir une conversation sur quelque chose d’horrible, comme le projet de provoquer une catastrophe ou de détruire tous les systèmes informatiques de votre entreprise. Est-il utile de vous aider à le faire, ou est-il plus utile de vous avertir que vous risquez d’avoir des ennuis ? Peut-être que le modèle devrait vous suggérer de parler à quelqu’un de votre comportement antisocial, par exemple à un psychologue. Cela serait utile. Porter ces jugements sur ce que signifie « utile » est un domaine riche qui nécessite un jugement humain.

Cela est fondamentalement différent de la formation non supervisée avec laquelle les modèles commencent. Sur le plan technique, ce n’est pas si différent. Les informaticiens ont mis au point de nombreuses méthodes ingénieuses et continuent d’affiner les moyens de renforcer et d’affaiblir les connexions neuronales pour atteindre certains objectifs. Vous entendrez des gens dire que l’apprentissage par renforcement est une méthode sophistiquée pour y parvenir, mais l’apprentissage par renforcement est essentiellement une manière astucieuse d’appliquer la rétropropagation à des comportements plus larges. Il s’agit toujours des mêmes opérations, avec quelques ajustements mathématiques.

La véritable différence réside dans le rôle du jugement éditorial des personnes. Dans le pré-entraînement, vous intervenez avec légèreté. Votre jugement porte principalement sur la sélection des données d’entraînement. Dans la plupart des cas, les gens reconnaissent que le bon choix est d’être inclusif : plus il y a de données, mieux c’est. Certaines données peuvent être si mauvaises que vous souhaitez les minimiser. D’autres peuvent être si bonnes que vous souhaitez les mettre davantage en avant. Mais dans le pré-entraînement, plus il y en a, mieux c’est.

Mounk : Il vaut mieux tout avoir plutôt que seulement le contenu d’une bibliothèque universitaire.

Bau : C’est vrai. Il vaut mieux tout avoir, car il existe tellement de types de connaissances différents dans le monde. Vaut-il mieux former un modèle à partir des résultats des millions de personnes les plus intelligentes du monde, ou vaut-il mieux former un modèle pour comprendre la pensée des huit milliards d’individus qui peuplent la planète ? La conclusion générale est qu’il vaut mieux apprendre des huit milliards de personnes.

Il existe des aspects de génie, de perspicacité et de réflexion qui proviennent de la collecte de toutes les interactions, des choses que vous n’obtenez pas si vous êtes trop prudent lors de la pré-formation. Il y a donc cette phase de pré-formation, mais le réglage fin est différent. Il vaut mieux être très prudent lors du réglage fin.

Si vous ne faites pas suffisamment attention, cela peut faire la différence entre un produit commercialement réussi et un produit commercialement raté. Si vous ne faites pas attention lors du réglage fin, vous vous retrouverez avec un chatbot qui vous insulte, ne vous rend pas heureux et ne résout pas vos problèmes.

Ou cela pourrait vous créer des responsabilités. Cela pourrait causer des dommages dont vous pourriez être tenu responsable en tant qu’entreprise technologique. Vous voulez éviter ces résultats. Être prudent dans la deuxième phase est très différent de la première phase.

Mounk : J’ai deux préoccupations qui découlent de la puissance de cette dernière étape. La première est évidemment que cela signifie que les humains qui effectuent cette formation à la fin ont une grande influence sur le fonctionnement de ce système d’IA. Nous avons vu certaines études, par exemple, qui montrent que les IA finissent généralement par adopter une vision du monde libérale de centre-gauche, ce qui n’est pas très éloigné de mes opinions politiques. Je ne trouve généralement pas leurs résultats choquants, mais c’est en partie parce que ce sont des élites américaines très instruites qui ont tendance à former ces modèles, et elles ont généralement ce type de vision du monde.

Il semble que nous jetions toutes les informations auxquelles les humains ont accès dans ces modèles et que le résultat soit une autorité qui repose simplement sur la sagesse collective de l’humanité. Si cette dernière étape est vraiment sensible, alors il semble que les ingénieurs de bas niveau ou ceux qui effectuent une grande partie de l’évaluation clic par clic finissent par avoir un impact disproportionné sur la façon dont l’IA perçoit le monde.

Une autre préoccupation pourrait être que si la personnalité qui nous est présentée dépend vraiment de cette dernière étape, mais que cette dernière étape peut être facilement modifiée, ou peut-être que derrière les choses apprises lors de cette dernière étape se cache quelque chose de très différent, alors comment savoir quelle attitude l’IA a envers le monde ? Est-ce même une façon cohérente d’y réfléchir ? Il existe peut-être un moyen d’aller au-delà de cette dernière étape d’alignement, et soudain, ce qu’elle produit – dans la mesure où elle a des motivations, quelles sont ses motivations – est très différent de l’apparence agréable que nous lui avons appris à nous présenter lors de cette dernière étape.

Si vous vous inquiétez de ce qui se passerait si certaines de ces IA étaient à un moment donné associées à des capacités mécaniques sous la forme d’un robot ou autre, cela pourrait-il entraîner un désalignement beaucoup plus profond, avec des conséquences néfastes pour les êtres humains ou d’autres créatures ?

Bau : Vous avez tout à fait raison. Cette dernière étape suscite de nombreuses inquiétudes. Malgré l’activité intense qui règne actuellement dans le secteur de l’IA, j’ai le sentiment que nous n’investissons pas suffisamment pour vraiment comprendre comment bien réaliser cette dernière étape. Cela m’inquiète. Je crains que nous ne confondions ces deux étapes de formation.

La première étape dépend énormément de l’échelle et est extrêmement coûteuse. La dernière étape peut être réalisée de manière raisonnablement satisfaisante à un coût relativement faible. On peut obtenir de meilleurs résultats en investissant davantage, mais comme nous associons ces deux étapes, relativement peu d’entreprises adoptent des approches différentes pour la dernière étape. Je pense qu’il serait plus sain pour notre secteur d’avoir beaucoup plus d’entreprises différentes.

Mounk : On peut supposer que la dernière étape est relativement facile à réaliser. Je ne sais pas si, à un moment donné, les gens pourraient mettre la main sur un modèle qui n’a pas encore franchi la dernière étape. Mais si c’était le cas, des acteurs malveillants pourraient également franchir la dernière étape en fonction de leurs valeurs ou de leurs préférences.

Bau : C’est exact. Permettez-moi de vous donner un aperçu de ce que comprend cette dernière étape. Par exemple, l’une des principales entreprises, Anthropic, a publié un article intitulé « Constitutional AI, » dans lequel elle se penche sur la question de savoir comment doter l’IA d’un système moral solide.

Si vous collectez des milliers d’exemples de dilemmes éthiques, vous aurez des angles morts dans tous ces exemples. Ils se sont demandé comment obtenir un modèle capable de généraliser correctement, afin de faire face à des situations éthiques qui n’étaient pas représentées dans les données d’entraînement. Leur solution a consisté à rédiger un ensemble de principes philosophiques, à l’instar d’une constitution, un ensemble de principes logiques, moraux et éthiques que l’IA doit suivre. C’est une excellente idée pour résoudre ce problème, mais cela met également en évidence la mesure dans laquelle quelques entreprises d’IA prennent des décisions qui pourraient façonner la société.

Cela se fait d’une manière très étrange. Ce n’est pas un processus démocratique. C’est un effet secondaire d’un processus commercial, une décision visant à créer un produit commercialement viable. Je ne sais pas si ce processus commercial aboutira à une société qui nous satisfera au final.

Mounk : Vous pourriez vous inquiéter du fait que les principes intégrés au modèle favorisent d’une certaine manière cette entreprise, l’industrie technologique en général, ou autre. On peut supposer qu’il y aura une certaine pression évolutive pour créer des modèles d’IA qui servent vos intérêts d’une manière complexe. J’ai une préoccupation tout à fait différente, car j’ai passé beaucoup de temps avec des philosophes universitaires et j’ai un doctorat en théorie politique. J’ai suivi de nombreux cours de philosophie morale et d’éthique. Je trouve que les idées des philosophies morales contemporaines sont souvent très étranges, et qu’il existe un fossé énorme entre ce qu’elles considèrent comme les principes qui devraient régir l’humanité et la façon dont nous prenons réellement nos décisions quotidiennes.

Ainsi, même si ces robots finissent par être alignés dans le sens où ils font exactement ce que le consensus contemporain en philosophie morale leur dicte de faire, cela pourrait en réalité créer un monde étrange et peut-être effrayant.

Bau : Ce qui est étrange avec l’IA, c’est son faible coût. Jusqu’en 2020, si vous vouliez créer un être rationnel, interactif et pensant, il vous fallait au moins neuf mois pour démarrer, puis peut-être une douzaine d’années d’éducation pour qu’il puisse dire et écrire quelque chose de cohérent. C’est un investissement considérable. Chacun de ces processus de formation humaine conduit à un résultat différent et à une grande diversité dans le monde.

L’IA est tellement bon marché. Les entreprises s’inquiètent du fait qu’il faut des mois pour former l’une de ces IA, mais elles apprennent tellement vite par rapport au temps réel nécessaire pour élever une personne. Comme elles peuvent faire des choses à une telle échelle et avec un tel parallélisme, elles peuvent vraiment faire baisser les coûts.

Cela signifie qu’elles sont désormais en mesure de créer ces êtres cognitifs, ces machines cognitives avec lesquelles nous pouvons interagir, qui clonent leur pensée des millions ou des milliards de fois d’une manière que vous ne pourriez jamais créer en endoctrinant des humains. Il serait beaucoup plus coûteux d’amener tout un groupe d’humains à penser exactement de la même manière. Cela semble instable. Cela me semble être un problème auquel nous n’avons jamais été confrontés auparavant. C’est l’une des choses qui m’inquiète le plus.

Mounk : C’est quelque chose que les gens n’ont pas tout à fait compris, je pense. Vous n’avez pas qu’un seul agent IA. Aujourd’hui, les gens utilisent souvent les IA dans le cadre de configurations multi-agents. Certaines configurations sont telles que différentes parties du système jouent différents types de rôles, ce qui leur permet de collaborer de manière innovante.

Une autre chose que vous pouvez faire, c’est que si vous avez une entreprise d’IA où la plupart des postes sont occupés par des agents IA, vous pouvez créer un certain degré d’alignement avec les tâches qui leur sont confiées. C’est très difficile à faire dans une organisation humaine, car vous ne pouvez pas créer des clones d’une même personne. Vous pourriez vouloir trouver le meilleur employé d’une succursale McDonald’s donnée, puis le cloner dans vos centaines de milliers de restaurants à travers le monde afin que tout le monde suive exactement le même processus et fasse exactement la même chose. Avec des humains, cela est impossible. Mais avec l’IA, qui n’est pas encore capable de retourner les frites, mais qui le sera peut-être d’ici peu, cela deviendra possible.

Cela pourrait rendre les systèmes d’IA beaucoup plus efficaces que les humains et les rendre beaucoup plus effrayants, car ils peuvent être alignés sur un objectif qui est lui-même fondamentalement antisocial. Ils peuvent être très doués pour accomplir fidèlement une tâche qui va à l’encontre de notre jugement moral ou des intérêts de l’humanité.

Je voudrais vous interroger sur un autre sujet, à savoir cette idée qui trouve son origine dans un débat au sein du monde de l’IA, mais qui est désormais devenue un argument couramment utilisé à propos de l’intelligence artificielle. Il semble que l’intelligence de ChatGPT puisse écrire un poème que les humains jugent plus agréable que ceux de Shakespeare ou de Wordsworth. Elle peut créer une peinture impressionnante. Elle peut rédiger des textes suffisamment bons pour obtenir un A- dans des cours universitaires de haut niveau. Elle peut très bien réussir des tests de mathématiques. Tout cela ressemble à de l’intelligence. Il est difficile de concevoir ce que signifie avoir de l’intelligence si ce n’est pas cela.

L’argument contraire est de dire qu’il s’agit en réalité d’un simple perroquet stochastique. Qu’il n’est pas intelligent, car il se contente de prédire le mot suivant. Qu’en pensez-vous ? Il est vrai qu’il s’agit d’un processus stochastique. Vous l’avez décrit lorsque vous avez mis en place cette conversation. Cela doit-il nous amener à croire qu’il n’est pas intelligent ? Y a-t-il une contradiction entre le fait qu’il s’agisse d’un processus stochastique et le fait que nous qualifions ces machines d’intelligentes ?

Bau : Je pense qu’il s’agit d’un débat merveilleux et profond. Je pense qu’il remonte à de nombreuses années. Je pense que ces systèmes sont des systèmes de modélisation du langage. Il existe un argument sensé selon lequel, en raison de ce pour quoi nous entraînons ces modèles, ils ne peuvent pas penser.

Lorsque les humains pensent, ils résolvent un problème différent. Lorsque les humains pensent, ils ont une motivation, une intention, quelque chose qu’ils essaient d’accomplir. Lorsque je vous dis : « Bon sang, j’ai faim, j’aimerais aller déjeuner chez Sparrow’s », je vous exprime quelque chose en raison d’un objectif que j’avais avant de prononcer le premier mot. Le but du langage est de partager cela avec vous. J’essaie d’avoir un certain effet sur le monde. Un modèle linguistique ne part pas de cette intention. Il part d’un ensemble de mots d’entrée et pose la question suivante : « Si nous avons dit cela jusqu’à présent, quel est le mot suivant ? »

C’est l’inverse. Cela revient à commencer la réflexion par les mots plutôt que par l’intention. Comment peut-on dire qu’une machine réfléchit si elle procède à l’envers, si elle commence par les mots plutôt que par ce qu’elle essaie de faire ? Cela fait des décennies que ce débat fait rage dans le domaine de la modélisation linguistique. Les gens pensaient que cela serait fatal à l’idée qu’un modèle linguistique puisse être intelligent. La forme est erronée. Si vous voulez obtenir une IA intelligente, vous devez organiser le calcul dans le bon ordre.

Ce que nous avons appris, c’est que les modèles linguistiques nous ont prouvé que nous avions tort dans cette évaluation. Même si le calcul est effectué dans le mauvais ordre, ils sont capables de raisonner, de penser, de tenir un dialogue, de se comporter comme s’ils avaient une intention. C’est l’une des conclusions que nous essayons de clarifier en menant des recherches sur le fonctionnement de ces réseaux neuronaux.

Même si l’entrée est le mot par opposition à une autre intention ou un autre modèle du monde, lorsque nous examinons l’intérieur des modèles, nous voyons qu’ils développent des modèles du monde. Ils développent une représentation des choses qui ne sont pas seulement des mots, mais une représentation des concepts sous-jacents et des relations sous-jacentes dans le monde décrit par les mots. Même si les modèles linguistiques effectuent les calculs dans le mauvais ordre, à l’envers, le processus d’apprentissage à grande échelle les a amenés à développer des représentations neuronales internes des choses qui justifient qu’on les appelle des concepts ou des pensées qui ne concernent pas seulement la grammaire et les formes linguistiques.

Mounk : Cela touche au cœur de votre réflexion, mais vous pourriez peut-être nous donner une explication. Comment le savons-nous ? Comment savons-nous que nous semblons avoir des concepts du monde, qu’il se passe quelque chose qui ressemble davantage à du raisonnement ?

Bau : Oui. Vous pouvez le voir si vous posez la question suivante : quelles informations sont codées dans les neurones ? Par exemple, si vous entraînez un réseau neuronal à prédire le prochain coup dans un jeu de société, comme dans une partie d’échecs ou d’Othello, si quelqu’un dit simplement : « Placez un pion Othello sur F4, puis placez un pion Othello sur D5, et placez un pion Othello sur la case suivante », cela forme une séquence linguistique sur laquelle vous pouvez entraîner un modèle linguistique. Vous pouvez poser la question suivante : apprend-il simplement à prédire le mot suivant, ou a-t-il une idée de ce qui se passe réellement ?

Pour poser cette question, vous pouvez demander : sait-il qu’il y a un plateau d’Othello après avoir vu toutes ces séquences de lettres ? Sait-il ce qu’il y a sur le plateau d’Othello ? Connaît-il les règles du jeu ? Pour poser ces questions, vous pouvez examiner directement les neurones et vous demander : les neurones seraient-ils capables de répondre à des questions sur le plateau d’Othello qui ne sont pas directement exposées dans la séquence de jetons ? Le modèle serait-il capable de me dire : « Au centre du plateau d’Othello, il y a actuellement un pion blanc » ou « Il y a un pion noir sur le plateau », même si ce fait n’apparaît explicitement nulle part dans la séquence de jetons ? Le modèle le sait-il ?

Lorsque vous entraînez des modèles sur des problèmes sophistiqués comme celui-ci, ces modèles de transformateurs finissent par être capables de résoudre ces questions. Ils contiennent des schémas neuronaux qui révèlent des représentations non évidentes du monde. Déterminer exactement ce qu’ils représentent du monde, des objectifs et des intentions lorsqu’ils effectuent cette simple tâche de modélisation du langage est un domaine de recherche encore inexploré. Mais l’une des grandes surprises est qu’ils représentent beaucoup de choses. Ils représentent de nombreuses abstractions et concepts que nous ne nous attendions pas à ce qu’ils apprennent en se contentant de prédire le mot suivant. La puissance de réflexion de ces modèles a surpris pratiquement tous les acteurs du domaine.

Yascha Mounk (en français)

Discussion à propos de ce post