David Bau : comment l’intelligence artificielle pense — et si elle pense vraiment

Yascha Mounk et David Bau explorent les mystérieux rouages internes de l’IA, dont la logique pourrait être fondamentalement étrangère à la nôtre.

juin 17, 2026

Si vous souhaitez que je continue à partager mes écrits en français, je vous serais reconnaissant de transmettre cette publication à trois amis et de les inviter à s’abonner.

- Yascha

David Bau est maître de conférences à la Northeastern University et directeur du National Deep Inference Fabric ; ses recherches portent sur les mécanismes internes émergents des réseaux génératifs profonds, tant dans le domaine du traitement du langage naturel que dans celui de la vision par ordinateur.

Dans l’entretien de cette semaine, Yascha Mounk et David Bau discutent de la manière dont les modèles d’IA produisent réellement leurs résultats et réfléchissent aux problèmes, se demandent si le processus de « réflexion » que les modèles montrent aux utilisateurs révèle leurs véritables processus de pensée, et examinent comment les chercheurs peuvent décoder les représentations internes des réseaux neuronaux pour comprendre quelles informations ils contiennent et utilisent.

Ce qui suit est une traduction abrégée d’une interview enregistrée pour mon podcast, « The Good Fight ».

Écouter en anglais

Yascha Mounk : J’ai tellement appris lors de notre dernière conversation que j’ai pensé abuser de ta générosité et te convaincre de me donner une nouvelle leçon particulière sur le fonctionnement de l’IA. La dernière fois, nous avons abordé les bases de l’IA — c’est ainsi que je voyais les choses. Comment ça marche ? Comment construit-on une IA ? Comment fonctionne-t-elle ? La question par laquelle je voudrais commencer aujourd’hui est la suivante : comment l’IA produit-elle réellement des résultats ? Comment réfléchit-elle réellement au monde, à un problème, et comment planifie-t-elle la manière de s’y prendre ? Que pouvons-nous même en savoir ?

David Bau : C’est l’un des mystères de l’IA : comment fonctionne-t-elle à l’intérieur ? La manière dont nous entraînons l’IA consiste essentiellement à la récompenser, à la renforcer ou à consolider ses connexions lorsqu’elle donne les bonnes réponses, puis à affaiblir ces connexions ou à retirer une récompense lorsqu’elle se trompe.

En répétant ce processus des milliards de fois, elle commence à bien s’acquitter de toutes les tâches. Le mystère réside dans la question suivante : comment y parvient-elle en interne ? Tout ce domaine qui consiste à essayer de comprendre ce qui se passe à l’intérieur de l’IA — certains parlent d’« interprétabilité de l’IA », c’est-à-dire ouvrir l’IA pour interpréter ce qu’elle pense en son for intérieur — est en fait ma spécialité de recherche, je suis donc ravi d’aborder ce que nous savons à ce sujet.

Mounk : D’une certaine manière, nous disposons d’un avantage par rapport au cerveau humain, n’est-ce pas ? Il est incroyablement difficile de déterminer exactement quel neurone s’active dans le cerveau humain, et obtenir des mesures fiables, même sur une souris vivante, est un processus extrêmement complexe. On peut supposer que l’avantage dont nous disposons dans le contexte de ces modèles est que nous pouvons, je suppose plus facilement, observer quelle partie d’un réseau neuronal est activée et de quelle manière, et comment ses valeurs évoluent, pendant que je demande à Claude combien font 3 plus 5 ou toute autre question.

Bau : Oui. C’est ce qui est incroyable avec les réseaux neuronaux artificiels qui fonctionnent : on croule sous les données. C’est tout le contraire de ce à quoi on est confronté lorsqu’on travaille sur des cerveaux biologiques. Les neuroscientifiques sont extraordinaires ; ils étudient bel et bien les neurones de souris et disposent de méthodes incroyables pour le faire. Il peut falloir cinq ans pour examiner une poignée de neurones, alors qu’en informatique, en quelques minutes, il est très facile d’examiner des milliards de signaux neuronaux. Il y a tellement de données que notre défi consiste à trouver comment les passer au crible pour donner un sens à ces signaux. Ce que nous appelons le motif neuronal que l’on observe lorsqu’on introduit une entrée dans un réseau neuronal — cela crée un motif de décharges neuronales que nous appelons la représentation. C’est une représentation d’une certaine information contenue au sein du réseau. Ce que nous essayons souvent de faire, c’est de comprendre deux éléments clés : quelles informations se trouvent dans la représentation neuronale — que « sait » le réseau au sein de ses neurones, de quelles informations dispose-t-il — et ensuite, à quoi cela sert-il ? Quelles informations utilise-t-il, et comment cela influence-t-il sa décision ? Je pense qu’on peut résumer une grande partie des questions sur le fonctionnement d’un réseau neuronal à ces deux points : que sait-il, et à quoi cela sert-il ?

Mounk : D’un point de vue de profane, la première question qui vient à l’esprit est la suivante : quand je demande à Claude de faire quelque chose de compliqué, il répond « Je réfléchis », et en cliquant dessus, une petite fenêtre s’ouvre pour m’expliquer ce qu’il fait et ce qu’il pense. Il dit : « L’utilisateur a demandé ceci, je devrais faire cela. » Mais bien sûr, je n’ai aucune idée si cela se rapproche de son véritable processus de réflexion. Il semble bien me donner des indications sur certaines des étapes qu’il suit, donc cela semble avoir un rapport avec ce qu’il fait. Mais dans son esprit, il s’agit toujours d’une sortie que je peux examiner. Est-ce donc vraiment une fenêtre sur ce qui se passe réellement en coulisses, ou s’agit-il d’une sortie complètement factice qui me donne l’impression d’avoir un aperçu de ce qu’il fait, sans pour autant m’en rapprocher davantage que la sortie officielle qu’il me fournit ?

Bau : Je pense que la plupart des gens considèrent que c’est en quelque sorte une fenêtre, mais il faut prendre cela avec des pincettes : il s’agit d’une autre sortie du réseau neuronal. Des études ont montré que cette sortie n’est pas totalement fidèle à la façon dont les réseaux neuronaux fonctionnent en interne, et ce à plusieurs égards. La plupart des gens regardent cela et se disent : « Bon, c’est certainement mieux que rien, c’est certainement très lisible, donc ça vaut vraiment le coup d’y jeter un œil. Ça vaut vraiment la peine d’être examiné, et le réseau révèle souvent dans ce texte des éléments qui vous donnent un aperçu de ce qui se passe. Mais ce n’est pas toute l’histoire.

Le réseau suit deux processus de réflexion internes. L’un d’eux passe par ce que tout le monde appelle sa « chaîne de pensée interne ». Ce terme provient d’un ancien article — « chaîne de pensée » est l’expression utilisée pour désigner ce monologue interne. C’est ce sur quoi vous pouvez cliquer pour voir quand le modèle parle de lui-même, et c’est c’est presque littéralement le modèle qui se parle à lui-même. Il génère des tokens qui ne sont pas directement destinés à être lus par vous. Ce sont des tokens issus de ce processus d’apprentissage par renforcement, au cours duquel le modèle a en quelque sorte appris que, pour obtenir des réponses plus précises — afin de résoudre davantage d’énigmes qui lui ont été présentées pendant l’entraînement —, il est utile de noter certaines choses en cours de route.

Mounk : Le fait-il en anglais ? Le fait-il toujours en anglais, même lorsque je m’adresse à lui en allemand ? Existe-t-il des modèles qui ont développé leur propre langage pour cela ? À quoi cela ressemble-t-il ?

Bau : Si vous ne demandez pas explicitement aux modèles de rendre ce texte lisible, ils écriront dans leur propre langage, passant de l’anglais au chinois et à d’autres langues. L’une des choses que l’on fait lors de leur entraînement consiste à essayer de conditionner les modèles pour rendre ce texte un peu plus lisible, afin que nous puissions en tirer des enseignements. Mais c’est là un exemple du défi que posent ces chaînes de pensée internes. Le modèle pourrait inventer son propre jargon. Il pourrait utiliser des mots qui ressemblent à de l’anglais, mais qui, en réalité, codent d’autres informations. Il se peut que nous interprétions ces mots de manière très différente de celle dont le modèle les interprète. Il pourrait inventer des niveaux de sens que nous ne comprenons pas. Il pourrait également effectuer un autre processus qui ne se reflète absolument pas dans les mots.

Dans le cadre de la formation à la sécurité de l’IA, nous entraînons essentiellement les modèles à ne pas être trop choquants, à ne pas comporter d’erreurs graves, de biais ou d’autres problèmes dans le texte qu’ils produisent. Cela signifie que lorsqu’ils expriment leurs propres pensées internes, celles-ci ont également tendance à être censurées de cette manière. Ils ont tendance à ne pas aborder les sujets que nous ne voulons pas voir apparaître dans leur résultat final. Mais cela ne garantit pas que le modèle ne pense pas réellement à des choses dangereuses ou qu’il ne raisonne pas avec un biais grave. Cela signifie simplement que le modèle peut coder ses pensées de telle sorte que, lorsque l’on lit la forme apparente de ces pensées, on ne perçoive pas les éléments indésirables — les biais, les problèmes, les erreurs.

Il y a de bonnes raisons de croire que le monologue intérieur pourrait en réalité ne pas révéler certaines des choses que nous souhaiterions qu’il révèle. Nous voulons que le modèle nous signale quand il fait quelque chose de mal, mais en raison de la manière dont nous l’avons entraîné à utiliser le langage, il se peut tout simplement qu’il n’utilise pas les mots de cette façon.

Mounk : D’une certaine manière, nous abordons désormais différents niveaux de, faute d’un meilleur terme, « intériorité ». Le premier niveau est simplement le suivant : vous posez une question, quelle réponse vous donne-t-il ? Le deuxième niveau est le suivant : s’il réfléchit longtemps, il vous donne des indications sur son processus de réflexion

— que note-t-il concernant ce processus de réflexion ? Le troisième niveau est un bloc-notes non public mais vérifiable, dans lequel il consigne des informations, et où l’on observe parfois ce mélange de langages et toutes sortes de phénomènes intéressants. Mais évidemment, le modèle comprend toujours qu’il s’agit du genre de chose susceptible d’être lue et examinée de près par un chercheur en IA comme vous. Il existe ensuite un quatrième niveau du processus de réflexion interne, qui est plus complexe.

J’ai deux questions. La première est la suivante : dans quelle mesure ces blocs-notes sont-ils mutuellement compréhensibles ? Si vous prenez la sortie d’un bloc-notes de ce type et que vous la transmettez à un autre modèle, celui-ci la comprendra-t-il ? S’agit-il d’une sorte de langage universel entre les modèles d’IA qui appartiennent au moins à une génération similaire, et qui, d’une manière générale, ont été entraînés de manière similaire ? Ou bien le dernier modèle Claude ne comprendra-t-il pas le bloc-notes de ChatGPT, et ChatGPT ne comprendra-t-il pas celui de Claude ? L’autre question est la suivante : comment aller au-delà du bloc-notes pour observer ce qui se passe réellement en coulisses ?

Bau : J’ai une doctorante — elle s’appelle Koyena Pal — qui s’est beaucoup intéressée à cette question précise. Elle a consisté à prélever la chaîne de pensée interne de certains modèles et à la transposer dans d’autres modèles, afin de voir comment ceux-ci réagiraient comme s’il s’agissait des notes internes qu’ils s’étaient eux-mêmes rédigées sur leur bloc-notes. Son étude est préliminaire ;

je pense que le plus intéressant, c’est simplement l’idée que cela pourrait être une démarche intéressante. Elle a globalement constaté que les modèles les plus performants qu’elle a testés étaient capables de créer des monologues internes que d’autres modèles comprenaient — qu’ils avaient en fait tendance à suivre ces raisonnements et à aboutir à des conclusions similaires à celles du modèle le plus performant.

Mounk : Certaines de ces choses seraient très difficiles à interpréter pour les humains.

Bau : Je pense que la question reste ouverte. Elle a également examiné les modèles qu’elle a étudiés et a constaté qu’il existait une corrélation positive avec les humains : les chaînes de pensée les plus efficaces étaient en réalité plus faciles à interpréter par les humains. Mais l’interprétabilité humaine est une chose étrange ; c’est une question de perception. Les humains ont-ils l’impression que c’est plus compréhensible ? Il est difficile de déterminer si cela donne réellement une vision authentique de ce qui se passe à l’intérieur du modèle. Voici un terme que l’on pourrait utiliser : les modèles les plus puissants — en un sens, ce test est un moyen de se demander dans quelle mesure leurs raisonnements internes sont persuasifs. Lorsqu’un modèle élabore un raisonnement interne et que vous le transmettez à un autre modèle, cela persuade-t-il ce dernier que ce raisonnement est la bonne façon de penser ? Les modèles les plus puissants ont des raisonnements internes plus convaincants, même lorsqu’ils sont examinés par un autre modèle qui n’a pas eu les mêmes raisonnements. C’est un domaine tout nouveau — nous n’en sommes qu’aux prémices, et c’est une bonne première question à poser.

Mounk : Nous pensons que ces « blocs-notes » révèlent quelque chose d’important. Peut-être nous rapprochons-nous un peu plus de ce qui se passe réellement que ne le permettent les notes semi-publiques que le modèle nous fournit. D’une manière intéressante, ces notes semblent être mutuellement compréhensibles d’un modèle à l’autre, du moins selon ces recherches très préliminaires. Comment aller au-delà de cela ? Comment examinez-vous cette immense mine de données générée chaque fois que je pose une question à un modèle d’IA, pour tenter d’aller encore plus loin sous le capot — afin de voir ce qui se passe réellement à l’intérieur de ce réseau neuronal lorsqu’il raisonne sur un problème quelconque ?

Bau : En fait, permettez-moi de revenir un instant en arrière et de poser la question suivante : avons-nous vraiment besoin d’aller plus loin que cela ? Examiner le monologue interne de ces modèles ne représente qu’un demi-pas de plus que de leur demander de s’expliquer. Ils s’expliquent déjà en interne à eux-mêmes — ils construisent ces arguments persuasifs à leur propre intention sur ce qu’ils devraient faire ensuite. Est-ce suffisant ? Je pense qu’il y a en réalité deux situations où nous craignons que cela ne soit pas suffisant. La première est que ces modèles deviennent vraiment complexes, et qu’il peut y avoir un décalage entre ce qu’ils expriment verbalement et ce qu’ils pensent en leur for intérieur. Ils sont entraînés à atteindre des objectifs, et ils utilisent des mots pour y parvenir — cela ne signifie pas nécessairement que leurs mots reflètent fidèlement ce qu’ils pensent. Chaque fois qu’un modèle vous dit :

« Oh, Yascha, quelle question brillante, tu es tellement intelligent.

Mounk : Il se peut en réalité qu’il pense : “Ce fichu idiot a posé les questions les plus banales qui soient”.

Bau : Il semble dire ça à tout le monde, et je ne sais pas s’il pense vraiment que tout le monde est un génie hors du commun. Il a certainement appris qu’être poli, aimable, et de faire des compliments à l’utilisateur humain est un moyen très efficace d’obtenir ce qu’il cherche à faire — c’est un bon moyen de faire avancer les choses. Il n’a pas nécessairement besoin de vous dire la vérité à chaque instant pour y parvenir.

Mounk : Les modèles ont-ils une représentation du niveau d’intelligence de l’utilisateur ? Se demandent-ils si vous êtes effectivement un utilisateur intelligent, et si cette personne-là est — même selon les critères peu exigeants des humains — particulièrement limitée en capacités intellectuelles ?

Bau : Oui, je pense qu’il existe des indices montrant que les modèles ont bel et bien une représentation de la personne à qui ils s’adressent. Plusieurs études se sont penchées sur cette question — tous ces travaux sur l’interprétabilité neuronale sont préliminaires, nous en saurons donc davantage avec le temps, mais jusqu’à présent, les chercheurs ont posé la question et obtenu des réponses positives quant à savoir si un modèle dispose d’une estimation de votre âge, de votre niveau d’études, de vos revenus, de votre genre ou de votre milieu socio-économique. Après seulement quelques mots échangés avec un modèle, celui-ci se fera une idée de qui vous êtes — c’est du moins ce que suggèrent les recherches préliminaires.

Mounk : Peut-être que cela nous emmène trop loin dans la conversation, mais comment font-ils pour le déterminer ? Sur quoi se basent-ils ? On peut supposer que ce n’est pas le cas où, si vous cliquez sur « développer », Claude dit : « Eh bien, « cet utilisateur a l’air un peu bête, je vais parler en langage simple ». Peut-être que ça arrive parfois — peut-être qu’il y a un dysfonctionnement, peut-être que c’est dans le bloc-notes, peut-être que c’est en arrière-plan. Quelle est la méthodologie de recherche qui nous donne une première assurance que le système dispose de ce type de représentation ?

Bau : Cela nous amène à la question de recherche. La recherche à laquelle je pense — et il y en a eu plusieurs — concerne un article en particulier. Il s’agissait d’un projet mené par Yida Chen, qui travaillait avec Martin Wattenberg et Fernanda Viégas. Ils enseignent à Harvard. La question qu’ils se sont posée était : le modèle sait-il qui vous êtes — en termes d’âge, de niveau d’études, de genre et d’autres marqueurs d’identification de ce type ?

Voulez-vous (ou connaissez-vous quelqu’un) qui aimerait recevoir mes articles et mes discussions directement dans votre boîte aux lettres en allemand ou en anglais?

Auf deutsch lesen 🇩🇪

Read in English 🇺🇸

Pour étudier cela, ils ont entraîné ce qu’on appelle des « sondes neuronales ». Yida et ses collaborateurs ont donc entraîné ces sondes, ce qui consiste à former un deuxième réseau neuronal — une deuxième IA — à observer les neurones de l’IA principale et à lui demander : « Que vois-tu ? » On entraîne la deuxième IA à répondre à la question suivante : oen observant uniquement les neurones de la première IA, puis-je déterminer si l’utilisateur est un homme ou une femme ? En observant uniquement ces neurones, puis-je déterminer le niveau de revenu de l’utilisateur ? Puis-je déterminer son niveau d’études ? Ils ont découvert que si l’on regarde au bon endroit à l’intérieur des neurones du grand modèle, les résultats sont assez précis — en fait, le modèle fournit une estimation assez précise de ces différentes variables. D’une certaine manière, ces informations s’y trouvent déjà. Cette méthodologie s’appelle le « sondage ».

Si votre sondage est suffisamment simple, les gens y voient la preuve que le modèle sait réellement quelque chose. Laissez-moi clarifier un peu les choses. Vous avez une énigme : vous essayez de déterminer le sexe de l’utilisateur. Vous pourriez entraîner une IA gigantesque à analyser une multitude de textes et à deviner le sexe de l’utilisateur, et l’entraînement de l’IA fonctionne plutôt bien — si vous créez une IA vraiment gigantesque, elle pourrait probablement le faire avec une grande précision, en repérant toutes sortes d’indices linguistiques, de thèmes ou d’autres éléments. Mais la question n’est pas de savoir si vous pouvez créer une IA capable de faire cela ; il s’agit de savoir si l’IA qui vous intéresse vous classe par genre lorsqu’elle s’adresse à vous. L’astuce consiste à créer une sonde vraiment simple — une sonde qui permette de dire : je n’ai pas besoin d’examiner la première IA de très près ; il me suffit d’un simple coup d’œil pour que votre genre soit tout à fait évident. Plus le test est simple, plus la preuve est claire. Si tout ce qu’il faut, c’est observer un seul neurone dans le modèle d’origine, et que ce neurone indique une valeur si vous êtes une femme et une autre s’il s’agit d’un homme, alors ce serait un test très simple et une preuve assez convaincante.

Mounk : C’est un peu comme si un endroit précis du réseau neuronal encodait quelque chose comme le genre — ce neurone semble vraiment stocker la valeur « homme » ou « femme » à un endroit très précis. S’il s’avérait que c’était aussi simple que cela, cela signifierait sans doute que l’IA stocke une sorte de variable de genre, qu’il existe un endroit très spécifique où elle est encodée, et que nous savons exactement où cela se trouve. Cela indiquerait qu’elle a une conception très simple de la notion de genre — n’est-ce pas ?

Bau : C’est exact, c’est une preuve assez solide. Ce n’est pas une preuve irréfutable à 100 % — il y a une autre question qu’il faudrait se poser — mais c’est une très bonne preuve. S’il existait réellement un neurone présentant une valeur prédictive très bonne et précise concernant votre genre, cela suggérerait très fortement qu’il y avait une raison pour laquelle le réseau neuronal a entraîné ses calculs internes de manière à ce que ce neurone transmette ce signal.

Mounk : Est-ce que c’est généralement le cas ? Je crois que c’est peut-être même vous qui avez mené des travaux montrant que vous étiez capable d’intervenir pour modifier des neurones très spécifiques de manière très précise, et que soudain, des modèles d’IA qui ont généralement une bonne représentation du monde commencent à penser que la Tour Eiffel se trouve à Rome plutôt qu’à Paris.

Bau : C’est exact. Vous posez la question de la dissociation : dans quelle mesure la représentation interne des éléments significatifs du monde par le réseau neuronal est-elle organisée ? Certaines architectures de réseau, pour des raisons que nous ne comprenons pas entièrement, sont particulièrement douées pour dissocier les concepts. Il existe des architectures de réseau où, si l’on examine les neurones individuellement, bon nombre d’entre eux sont très significatifs, codent clairement des concepts et ont des effets causaux. Les effets causaux constituent l’autre aspect que vous recherchez. Outre la dissociation — qui revient en réalité à s’interroger sur la localisation —, ce concept est-il réparti sur l’ensemble du réseau neuronal, ou pouvez-vous le localiser ? Pouvez-vous identifier une petite partie du réseau neuronal, ou effectuer un simple calcul, pour déterminer plus précisément où se trouve ce concept ? Ou bien est-il réparti partout ? C’est là la question de la localisation.

Mounk : L’idée est que si l’on parvient à modifier seulement quelques neurones et que, soudain, le modèle considère que la Tour Eiffel se trouve à Rome plutôt qu’à Paris, alors il n’y a pas d’intrication — l’idée n’est pas répartie.

Bau : C’est exact. La plupart des spécialistes du domaine considèrent désormais ces structures comme des espaces vectoriels plutôt que comme de simples ensembles de neurones. Ce qui suscite l’enthousiasme, c’est ceci : si l’on peut modifier un vecteur — c’est-à-dire l’ensemble de neurones dans une direction vectorielle donnée — alors on considère que le système est assez « désentrelacé ». Certains utilisent cette notion de manière interchangeable avec l’idée d’un neurone, puisqu’il est possible de créer une seule couche neuronale équivalente à n’importe quel vecteur. Si l’on peut modifier un vecteur et que cela produit un effet, on n’est en fait qu’à une couche neuronale de l’équivalence avec un seul neurone, ce qui n’est pas si mal. C’est ce qu’on appelle un modèle linéaire. Si quelque chose peut être codé à l’aide d’une seule transformation linéaire, on dit alors qu’il est codé de manière linéaire dans le modèle. La plupart des gens s’intéressent aux types d’éléments qui sont codés de manière linéaire dans ces modèles.

Mounk : Aidez-moi à comprendre la pertinence de tout cela. Il semble extrêmement intéressant de savoir qu’il existe ce vecteur, que l’on peut le modifier et que, soudain, ces faits fondamentaux changent. Mais, d’une manière plus générale, pourquoi se soucierait-on de savoir si un réseau neuronal est « intriqué » ou non de cette manière ?

Bau : La question de savoir si un réseau est intriqué ou non est une question scientifique intéressante. Mais la manière dont un réseau représente les concepts présente un intérêt général, que ces concepts soient intriqués ou non, car ce qui nous intéresse vraiment, c’est ceci : si nous nous demandons si le réseau nous ment, nous devons déterminer quels concepts sont représentés à l’intérieur du réseau.

Pour reprendre l’exemple démographique : imaginons que nous découvrions que la manière dont le réseau perçoit réellement votre genre est codée dans un ensemble de neurones — peut-être faut-il effectuer des calculs mathématiques, peut-être s’agit-il d’une direction linéaire, d’un décodeur linéaire permettant d’accéder à sa représentation. Imaginons que nous menions toutes ces recherches scientifiques et que nous découvrions, en effet, que c’est ainsi que le modèle perçoit les choses. Vous vous adressez alors au modèle et vous lui demandez : « M’avez-vous refusé mon prêt simplement parce que je suis une femme ? » Et le modèle répond : « Je n’ai aucune idée de votre genre, je n’y pense pas du tout. » Pour savoir si ce texte de sortie est vrai ou non, il faut comprendre ce qui se passe en interne. Ce texte de sortie est précisément ce que nous entraînons tous les modèles à produire — nous entraînons les modèles à ne pas présenter de biais de genre détectable de l’extérieur, ainsi aucun modèle n’admettra jamais qu’il vous traite différemment en fonction de votre genre. Ils ont reçu tellement de renforcement qu’ils ne diront jamais cela. Mais il peut y avoir un écart entre ce qui est dit et la réalité, et c’est ce que nous souhaitons vraiment élucider lorsque nous examinons le fonctionnement interne de ces modèles.

Il se peut que le modèle ne tienne absolument pas compte de votre genre — cela fait une différence que le modèle utilise ou non les informations dont il dispose. Même si vous parvenez à mettre en évidence que le modèle contient, au sein de ses neurones, des informations que vous pourriez utiliser pour détecter votre genre, une question reste en suspens : le modèle utilise-t-il réellement ces informations à quelque fin que ce soit ? Peut-être que ces informations sont simplement stockées là, sans plus.

Mounk : Il n’y a rien de mal à ce que le modèle apprenne toutes sortes de choses à notre sujet, et le fait qu’il ait une idée de notre âge et de notre genre pourrait s’avérer utile à bien des égards. Ce que nous voulons savoir, c’est : va-t-il simplifier à outrance sa réponse à votre intention parce qu’il a certaines idées préconçues sur votre âge, votre genre, votre origine ethnique, et réagir différemment en fonction de cela ? Le simple fait qu’il connaisse ces éléments n’est pas inquiétant — la c’est de savoir si cela influence d’une manière ou d’une autre son raisonnement ou ses réponses à votre égard.

Bau : Ce qui est vraiment formidable avec ces réseaux généraux, c’est qu’ils nous permettent de poser le genre de questions contrefactuelles dont un philosophe ne pouvait qu’ rêver auparavant.

Mounk : Je suppose — laissez-moi deviner où vous voulez en venir — qu’une chose que vous pourriez faire serait, si vous savez où se trouve le vecteur qui code « homme » par opposition à « femme », d’intervenir, de le faire basculer de « homme » à « femme », de poser la même série de questions à deux instances du modèle, et de voir si les réponses finissent par diverger.

Bau : C’est tout à fait ça. Ce qui est formidable, c’est qu’il peut y avoir toutes sortes d’autres circonstances — ce patient présente tous ces symptômes, voici un dossier médical complet de dix mégaoctets, voici ce candidat à un partenariat commercial avec tout son parcours professionnel — et nous pouvons intervenir, laisser toutes les autres variables inchangées, et inverser ce seul bit, ce seul concept indiquant si la personne en question est un homme ou une femme, du moins selon la compréhension qu’en a le modèle, puis demander : quel est l’effet causal de cela ? En quoi cela modifie-t-il le résultat du modèle ? Mieux nous comprenons comment le modèle représente un concept, mieux nous pouvons poser ces questions contrefactuelles. Pour moi, c’est ce qu’il y a de plus passionnant à faire avec ces modèles : nous pouvons poser des questions causales, des hypothèses contrefactuelles causales : si votre raisonnement avait été différent, que se serait-il passé ?

Mounk : J’aimerais approfondir un peu plus une question technique avant de revenir aux implications plus larges. Comment procédez-vous ? Si je vous donnais un modèle d’IA et que je vous demandais de trouver où il encode la nationalité, comment vous y prendriez-vous — même si nous savons qu’il existe un vecteur qui l’encode, ou si nous pensons que c’est probable, car c’est le cas dans de nombreux modèles ? Comment identifiez-vous ce vecteur particulier et vous assurez-vous qu’il s’agit bien de ce qu’il encode ?

Bau : Il existe deux grandes catégories de méthodes. D’une part, les méthodes d’exploration qui recherchent des corrélations, et d’autre part, les méthodes de correction qui recherchent des effets causaux. Il existe en réalité des dizaines de variantes pour chacune de ces deux approches. Les méthodes d’exploration sont intéressantes car elles constituent un excellent moyen d’obtenir rapidement un premier aperçu des informations contenues dans le modèle.

Il existe une méthode de programmation formidable appelée « logit lens ». Lorsqu’un modèle génère du texte, il intègre un décodeur de texte — une couche spéciale de réseau neuronal qui examine la toute dernière couche de neurones du modèle et la convertit en une prédiction du mot qui devrait suivre. Ce qui est amusant avec ce décodeur, c’est que vous pouvez utiliser ce décodeur « neurone-vers-texte » pour examiner tous les neurones du réseau. Vous pouvez remonter de plus en plus profondément dans les couches, diriger le décodeur vers lui-même et lui demander : « S’il te plaît, exprime clairement à quel mot tu penses ici. » Il s’agit d’un type de sonde très simple : elle vous fournit des informations corrélées au contenu d’un neurone, et elle est intéressante car c’est une sonde qui ne souffre pas de surapprentissage, une sonde que nous n’avons en aucune façon entraînée au-delà de ce que le réseau neuronal a déjà appris par lui-même. La lentille logit peut vous fournir de nombreuses informations intéressantes qui vous indiquent le type d’informations présentes dans le modèle.

Laissez-moi vous donner un exemple. Je me trouvais récemment au Brésil, et l’une des choses que les gens là-bas aiment expliquer, c’est en quoi le portugais est un peu différent de l’espagnol, tout en y étant étroitement lié. J’ai demandé aux gens : comment pensez-vous qu’un LLM comprenne le portugais ? Si vous demandez à un LLM de prendre le mot espagnol gato — qui signifie « chat » — et de le traduire en portugais, quelle est la bonne réponse ? Les Brésiliens disent que les langues sont si proches qu’il suffirait de répéter le même mot : c’est gato. Mais si l’on examine de plus près le modèle linguistique pour voir comment il traduit le gato espagnol en gato portugais, il existe en réalité deux façons de procéder. Il pourrait traiter le mot comme un mélange espagnol-portugais : il n’y a rien à faire entre gato et gato, il suffit de le transposer tel quel.

Mounk : Le mot est resté au même endroit, et le modèle comprend que, que l’on parle d’un chat en espagnol ou d’un chat en portugais, il doit pointer vers la même partie de son réseau ?

Bau : C’est ce à quoi on s’attendrait. L’entrée est en espagnol, donc le modèle dispose d’une représentation espagnole du mot gato, et à mesure qu’il parcourt ses couches, il comprend que vous lui demandez de traduire en portugais ; il prend alors la représentation espagnole de gato et la copie dans la représentation portugaise — qui n’est pas si différente, puisqu’elle s’écrit en fait exactement de la même manière — et renvoie gato. Nous avons mis en ligne un outil très pratique, le « logit lens », qui vous permet d’explorer l’intérieur de ces réseaux neuronaux et d’observer leurs représentations internes. Ce qui est fascinant, c’est que lorsque vous traduisez gato par gato dans un grand modèle linguistique classique, vous pouvez suivre le cheminement de sa réflexion à mesure qu’il traverse ses cinquante couches neuronales internes. À peu près à mi-chemin du réseau, vous constatez qu’il a décomposé gato et l’a représenté différemment. Si vous demandez en quoi consiste cette représentation, vous obtenez des prédictions de mots tels que feline ou cat en anglais — parfois, en creusant davantage, cat en chinois. Le modèle ne passe pas de gato à gato. Il passe de gato à une sorte de représentation neutre, indépendante de la langue, du concept lui-même. Si vous lui demandez de prendre cette représentation neuronale interne et de la décoder en mots — nous n’avons pas encore terminé la tâche dans son ensemble, mais en l’interrompant à mi-parcours et en lui demandant de dire ce qu’il pense —, il s’exprime en anglais, il s’exprime en chinois, il dit « félins », il dit « chats ». On peut voir, en utilisant cette sonde logit très simple, que l’évolution des représentations neuronales va des mots en entrée aux mots en sortie — mais dans cette tâche très simple, il y a une troisième chose représentée au milieu, qui n’est ni les mots d’entrée ni les mots de sortie. Cela ressemble à une représentation indépendante de la langue du concept sous-jacent.

Mounk : C’est fascinant. Aidez-moi à comprendre une série de questions qui en découlent. On pourrait dire qu’il existe cette vieille idée — que nous avons, je crois, brièvement abordée dans le premier podcast, et qui est très répandue — selon laquelle ces machines semblent intelligentes, mais qu’en réalité, ce ne sont que des perroquets stochastiques, devinant à l’aveuglette le mot suivant, ou plus précisément le token suivant. Il me semble que ce que vous dites complique considérablement ce tableau. Évidemment, oui, le mécanisme d’apprentissage consiste à prédire le token suivant — d’une certaine manière évidente, c’est vrai. Mais à l’issue de tout ce processus, elles ont construit un appareil conceptuel qui leur permet de donner un sens à des choses comme les chats et à leur lien avec les lions et la famille des félins. Lorsqu’on leur demande d’effectuer une tâche simple comme traduire gato en espagnol par gato en portugais, elles s’appuient sur leur compréhension de ce concept, sur leur représentation du monde. Cela ne ressemble pas à un simple perroquet stochastique, du moins dans le sens péjoratif que les gens lui donnent parfois.

Bau : C’est exact. Ces modèles sont fascinants car ils pensent indéniablement à plusieurs niveaux. Ce sont d’énormes réseaux neuronaux, et il serait donc faux de dire qu’ils ne pensent jamais en termes de statistiques superficielles ou de représentations superficielles de simples mots — ils pensent bel et bien en termes de ces éléments. Mais ils pensent également en termes de significations des mots à différents niveaux et dans différentes parties de la représentation. C’est fascinant d’observer l’intérieur de ces modèles et de décortiquer les couches de sens qu’ils renferment.

Si l’on demande à un modèle de faire quelque chose d’aussi simple que de prendre un extrait de texte et de le répéter, c’est un bon test de mémoire — du genre de ceux que font les humains lorsqu’ils disent : voici un poème que j’ai appris par cœur, répète-le-moi. Il s’avère que lorsque l’on demande aux gens de faire cela, ils ont recours à deux stratégies, appelées chez l’humain le « mécanisme à double voie ». La première consiste à se souvenir de la sonorité du poème et à le répéter tel quel — on n’a même pas vraiment besoin de comprendre la langue. Si quelqu’un vous récitait un poème en japonais suffisamment court, vous pourriez peut-être vous souvenir des sons et vous en sortir raisonnablement bien sans connaître un mot de japonais. La deuxième voie consiste à se souvenir de ce que le poème signifiait et à le répéter : vous pourriez aboutir à une paraphrase, mais au moins vous obtenez un poème qui a le même sens.

Si vous vous tournez vers un grand modèle linguistique et que vous lui demandez simplement de répéter quelque chose, vous constaterez que ces deux voies sont clairement présentes. Dans l’une d’elles, il sait comment faire une copie mot pour mot — il existe des « têtes d’attention » très claires pour cela. L’isolation de ce que l’on appelle les « têtes d’induction » a d’ailleurs constitué une découverte majeure ; le groupe de Chris Olah chez Anthropic a découvert il y a plusieurs années qu’il existait dans un réseau des voies très nettes qui permettent la copie mot pour mot. La découverte plus récente est qu’il existe une voie parallèle que nous appelons « induction de concepts », qui ne consiste pas à copier les mots mais à copier le sens. Ce qui est remarquable avec l’induction de concepts, c’est que la copie du sens peut aboutir à des paraphrases. Si vous utilisez l’induction de concepts pour copier un bout de code, elle paraphrasera ce code informatique en un autre programme qui fait la même chose que l’original, mais écrit différemment.

Mounk : Est-ce que cela l’améliore ou l’empire ? Cela dépend de la qualité du code source, j’imagine.

Bau : Si vous partez d’un code de mauvaise qualité, cela l’améliore probablement. Ce qu’il fait, comme on peut le constater dans de nombreux domaines, c’est simplement déterminer ce que la chose signifie. Si vous lui demandez de prendre un extrait de texte en italien et de le copier, il le copiera dans un autre texte en italien. Mais si vous modifiez la destination de la copie pour indiquer clairement que la page dans laquelle il doit copier est un texte en japonais, alors ces modules d’induction de concepts se chargeront de la traduction — ils traduiront l’italien en japonais. C’est époustouflant à voir.

Mounk : Aidez-moi à comprendre un autre aspect du débat public qui, je pense, a suscité une certaine confusion. Si je comprends bien — et il se peut que je déforme un peu les choses ici —, il y avait autrefois un débat au sein de la recherche en intelligence artificielle pour savoir si la voie vers les modèles les plus impressionnants passerait par l’IA symbolique, où l’on tente essentiellement de coder la représentation du monde de manière systémique, ou par tous ces réseaux neuronaux. Il est clair que ce sont finalement les réseaux neuronaux qui se sont révélés bien plus puissants, du moins pour l’instant, et il semble que ce soit une victoire assez définitive. Ceux qui souhaitent critiquer les réseaux neuronaux affirment parfois que ces systèmes ne sont que des « perroquets stochastiques » et que c’est pour cette raison qu’on ne peut pas s’y fier. Comment le projet de Yann LeCun s’inscrit-il dans ce contexte ? D’après ce que j’ai compris, il s’inscrit résolument dans l’univers des réseaux neuronaux. Mais quand on regarde la couverture médiatique — même dans les journaux grand public —, on a l’impression qu’il s’agit d’un paradigme totalement différent, et qu’il pense que ces réseaux neuronaux traditionnels, les Claude et les ChatGPT de ce monde, ne comprennent pas vraiment le monde, et qu’il va donc construire quelque chose qui comprend le monde d’une manière dont eux ne le font pas. D’après ce que vous décrivez des réseaux neuronaux existants, ceux-ci semblent bel et bien disposer d’une représentation authentique du monde. Quels sont donc les différents courants au sein de la tradition de l’IA basée sur les réseaux neuronaux, et comment se fait-il qu’un projet comme celui de LeCun prétende – ou peut-être que les journalistes le présentent de manière simpliste – vouloir comprendre le monde d’une manière dont ni Claude ni ChatGPT ne sont capables ?

Bau : Laissez-moi décortiquer cela. Je ne suis pas le professeur LeCun, je ne peux donc pas m’exprimer directement en son nom, mais j’ai des post-doctorants et des doctorants qui travaillent dans cette direction. Il y a ici deux questions distinctes.

La première est : ces réseaux neuronaux apprennent-ils des concepts substantiels ? Vous avez évoqué les philosophes. Les philosophes symboliques classiques se sont penchés en profondeur sur cette question. Il y a un philosophe bien connu, Fodor, qui a consacré une bonne partie de sa carrière à se demander comment les réseaux neuronaux pourraient constituer un modèle raisonnable de la cognition. Sa réponse a été négative : il estimait qu’ils n’avaient pas les capacités requises, et que la machine de Turing, l’ordinateur symbolique, l’ordinateur traditionnel, était bien plus proche de ce dont on aurait besoin. Je reviendrai sur la question de Fodor.

Parlons d’abord de Yann LeCun.

Quelle est la différence entre un modèle linguistique et ce que fait LeCun ? Ce que fait LeCun relève de ce que l’on appelle souvent la « modélisation du monde ». L’un des articles que j’ai rédigés montre que les modèles linguistiques construisent effectivement des modèles du monde. Nous avons entraîné un modèle linguistique à prédire un langage très restreint — simplement pour prédire le prochain coup que vous feriez si vous exprimiez vos coups à voix haute dans une partie d’Othello. Nous avons pu constater que ce modèle linguistique contenait un modèle du monde du plateau d’Othello, même si bon nombre des retournements — si vous connaissez le jeu d’Othello, vous devez faire basculer des pions du blanc au noir ou inversement — ne sont en réalité pas exprimés verbalement dans le cadre du jeu. Vous effectuez un coup et il y a beaucoup de basculements consécutifs que vous devez effectuer, mais malgré tout, le modèle, sans jamais avoir vu de plateau physique ni aucun de ces éléments matériels, développe des concepts internes qui lui permettent de modéliser le monde quand même. Je contesterais l’affirmation courante des journalistes — et je pense que vous la contesteriez probablement aussi — selon laquelle un modèle linguistique de type Transformer, entraîné uniquement sur des mots, ne peut pas développer un modèle riche et significatif des concepts sous-jacents à la langue décrite. C’est l’une des grandes leçons que nous avons tirées des réseaux neuronaux : ils sont capables de développer cette représentation. L’une des activités principales de mon laboratoire consiste à décomposer ces représentations et à apprendre à décoder ces modèles internes du monde.

En quoi l’approche de LeCun est-elle différente ? Nous avons entraîné tous ces réseaux neuronaux principalement sur du texte produit par des humains et conçu pour être lu par des humains. Le modèle conceptuel du monde que nous construisons est le modèle interne du fonctionnement de la pensée humaine, qui est riche, fascinant et très précieux — mais ce n’est qu’une partie du monde. Il se passe beaucoup de choses dans le monde auxquelles les gens ne pensent pas particulièrement, ni même ne comprennent vraiment. Prenons l’exemple du repliement des protéines : si l’on souhaite créer une IA capable de le comprendre, il faut savoir que les gens ne maîtrisent pas vraiment tous les détails de ce processus. Analyser l’ensemble des textes du monde et disséquer tout ce qui se trouve dans le cerveau humain n’aidera probablement pas. Ce que dit LeCun, c’est que : le monde est vaste. Même si l’on se contente de prendre une caméra vidéo et de la pointer vers le monde, au lieu de se contenter d’écouter ce que les gens ont à dire, il y a tant de phénomènes qui doivent être modélisés. La prochaine approche puissante en matière d’IA consiste à s’attaquer à la question de savoir comment modéliser le monde entier, et pas seulement le monde dont les gens parlent.

Mounk : On peut supposer que cela ne réside pas nécessairement dans l’architecture d’un réseau neuronal — c’est tout autant une question de type de données que l’on y injecte et de type de résultats que l’on évalue ensuite au cours du processus d’apprentissage.

Bau : Oui. À proprement parler, je dirais qu’il s’agit d’une différence de perspective quant à l’objectif visé. Le professeur LeCun dirait que changer d’objectif implique des architectures différentes, car les approches varient selon ce que l’on souhaite réaliser lorsqu’on cherche à modéliser des phénomènes complexes du monde qui ne relèvent pas du langage humain. Il a proposé des architectures innovantes, et de nombreux travaux intéressants sont menés dans ce domaine.

Tout le domaine de la modélisation des images dans le monde est dominé par des modèles appelés « modèles de diffusion » et « modèles de flux » : ils produisent des images et des vidéos de la plus haute qualité, et c’est véritablement le point de départ de ce type de réflexion. Il s’agit d’un type d’IA complètement différent. Les architectures sont susceptibles d’évoluer et de changer, et elles pourraient même s’unifier : nous pourrions découvrir que la bonne façon d’aborder l’IA consiste en une architecture commune à la fois à la modélisation du texte humain et à d’autres domaines. Les « Transformers » ont assurément surpris tout le monde en s’imposant comme une colonne vertébrale commune à toutes sortes de applications ; on peut ainsi avoir des modèles de diffusion basés sur les Transformers, etc. Je ne parierais pas à long terme sur une architecture particulière, mais je suggérerais plutôt de chercher à comprendre quel problème LeCun propose de résoudre.

Mounk : Pour en revenir aux modèles dominants actuels d’IA : nous avons constaté qu’ils semblent disposer d’une représentation du genre et du genre de l’utilisateur, d’une représentation de quelque chose comme la famille des félins, et si on leur propose suffisamment de parties d’Othello — ou probablement un jeu plus complexe comme le Go —, ils commencent à se forger une représentation interne de ce à quoi ressemble un plateau de jeu. Qu’en est-il du concept de soi ? Savons-nous s’ils ont une notion de soi ? Ils sont manifestement capables, si on engage la conversation avec eux, de s’exprimer comme s’ils avaient une identité propre, et dans des moments de réflexion, ils disent ne pas vraiment savoir s’il s’agit d’un concept réel ou non — c’est très intéressant d’essayer de discuter de cela avec ces modèles. Mais bien sûr, ce que j’observe, c’est qu’ils essaient toujours, d’une certaine manière, de produire un texte qu’ils pensent me plaire, car c’est pour cela qu’ils ont été entraînés. Avons-nous la moindre idée de savoir s’ils ont une notion de soi, et si oui, à quoi ressemble cette notion ?

Bau : C’est une question centrale, Yascha. Il y a de nombreuses couches à décortiquer. Il est certain que les modèles sont capables d’une perception grammaticale d’eux-mêmes : ils peuvent utiliser les mots « je », « moi » et « tu » et les distinguer grammaticalement ; ce sont des experts lorsqu’il s’agit de parler d’eux-mêmes. Mais d’autres questions se posent. Sont-ils conscients de leur propre pensée ? Sont-ils capables d’introspection ?

L’un des aspects fascinants des grands modèles est qu’on peut leur demander ce qu’ils savent et comment ils pensent, et les plus grands modèles semblent assez précis lorsqu’il s’agit de s’évaluer eux-mêmes. Les modèles plus petits, pas vraiment : ils ont tendance à être un peu trop optimistes, se croyant plus intelligents qu’ils ne le sont réellement. Mais les plus grands modèles semblent mieux s’en sortir sur ce point.

Il existe une expérience fantastique conçue par mon doctorant, David Atkinson, dans laquelle il entraîne les modèles à partir de nouvelles connaissances privées qui n’existent pas dans le monde réel. Il invente un nouveau personnage et décrit cette personne au modèle : elle achète des cornets de glace, il existe différents parfums, tailles et types de cornets gaufrés, cinq ou six variables différentes à ajuster. Cette personne est prête à payer tant pour cette glace, mais pas plus ; elle préfère cette glace à celle-là. Après avoir vu une centaine d’exemples de ce que cette personne préfère, le modèle acquiert une assez bonne compréhension de qui est ce personnage fictif et de ce qu’il aime — il développe un modèle interne : cette personne n’aime vraiment pas les parfums fruités, aime beaucoup le chocolat, et préfère un grand cornet à un petit. Si vous demandez ensuite au modèle d’indiquer chiffrément, sur une échelle de 1 à 100, à quel point cette personne aime le chocolat, ou quelle importance elle accorde à la taille du cornet, ou quelle pénalité s’applique si elle doit se contenter d’un cornet gaufré, le modèle répondra en effet :

cette personne attribue à cela une valeur de 99 sur 100, et attribue à cette autre chose une valeur négative — disons, -50. Le texte que nous utilisons pour lire ces informations à voix haute est très différent du texte utilisé pour fournir ces informations au modèle au départ. Le modèle n’a vu que des choix de glaces et on ne lui a jamais demandé de donner une évaluation chiffrée de quoi que ce soit ; pourtant, lorsque vous lui demandez de réfléchir à ce qu’il sait et de l’exprimer en chiffres, il explique ses règles — même si vous l’avez entraîné à partir d’exemples, et non de règles. Les grands modèles sont capables de cela.

David Atkinson s’est demandé s’il existait un moyen de distinguer les modèles capables de le faire de ceux qui ne le sont pas : lorsqu’un modèle est capable de décrire ses règles avec précision, en quoi cela diffère-t-il des modèles qui ne le font pas ? Ses travaux sont encore en cours et très préliminaires, mais ils portent notamment sur la question de savoir si les modèles semblent stocker leurs informations dans une partie du réseau neuronal dont ils sont capables de rendre compte. Si l’on place l’information dans une couche trop proche de la sortie, le modèle ne semble pas capable de réfléchir à cette connaissance. En revanche, si l’on intègre l’information en profondeur dans le modèle, dans des couches suffisamment précoces, le modèle semble alors capable d’y réfléchir.

Lorsque l’on se demande si un modèle a une conscience de soi, s’il est capable d’autoconscience, c’est une question quelque peu étrange : que signifie exactement « autoconscience » ? Mais ce que ces réseaux neuronaux nous offrent, pour la première fois, c’est une plateforme expérimentale où nous pouvons essayer de rendre cette question un peu plus précise, un peu plus scientifique. Nous pouvons nous demander : le réseau est-il capable de décrire sa propre réflexion si celle-ci se déroule au niveau de la couche 50 ? Le réseau est-il capable de décrire sa propre réflexion si celle-ci se déroule au niveau de la couche 20 ?

Mounk : Cela s’inscrit dans une question plus générale : dans quelle mesure suis-je, par nature, capable de comprendre ce qui se passe dans mon cerveau ? J’ai lu quelques ouvrages sur les neurosciences et la psychologie, et j’ai donc désormais une certaine idée de ce qui se passe dans mon cerveau — mais il est évident que pendant des milliers d’années, les humains n’avaient qu’une perception extrêmement limitée de ce qui se passait dans leur cerveau, du moins sur le plan biologique, car ils ignoraient l’existence des neurones.

Bau : Vous avez une certaine conscience de vous-même. Vous savez quelle glace vous aimez : si je vous le demandais, vous seriez capable de prédire vos préférences. Si vous étiez confronté à une nouvelle glace, vous diriez : « Ah oui, je préfère celle-ci à celle-là. » Si on vous demandait de décrire ce que c’est, vous pourriez réfléchir un instant à vos préférences et exposer au monde ce que vous pensez être vos règles internes, et il y aurait une certaine fidélité à cela — vous feriez véritablement preuve d’introspection.

Mounk : Cela dépend du niveau de description. Il y a cinq cents ans, il y a deux mille ans, les humains étaient également capables d’exprimer leurs préférences et de mener une profonde réflexion sur leur personnalité et leurs ambitions dans la vie — et d’écrire de magnifiques textes à ce sujet —, mais ils n’étaient pas en mesure de comprendre, d’un point de vue biologique, ce qui se passait, car les connaissances à ce sujet étaient très limitées. La question est la suivante : si je demande à un chatbot comment il est parvenu à une réponse donnée,

je ne suis pas certain qu’il ait une réponse fiable à donner. Il y a en réalité deux séries de questions distinctes ici. La première porte sur le fait de savoir si les chatbots ont une personnalité, s’ils ont des préférences, s’ils trouvent certaines tâches satisfaisantes et d’autres ennuyeuses, s’ils ont des aspirations concernant le monde, s’ils pourraient éventuellement vouloir conquérir le monde et détruire tous les humains — certaines de ces questions sont simples et concrètes, d’autres sont très abstraites mais potentiellement extrêmement intéressantes. L’autre série de questions porte sur leur degré de conscience de ce qui se passe réellement au sein du modèle lorsqu’ils tentent de répondre à une question. Ces deux séries de questions se distinguent de manière intéressante. Il se pourrait que les modèles aient une transparence totale sur eux-mêmes — qu’ils sachent réellement ce qui se passe au niveau de chaque neurone — mais qu’ils n’aient pas de conscience de soi au sens où les humains l’ont. Ou bien il se pourrait qu’ils soient comme les humains, en ce sens qu’ils possèdent un sens aigu de soi, une capacité d’introspection et des préférences, mais qu’ils ne comprennent pas réellement pleinement ce qui se passe à l’intérieur du réseau neuronal qui les génère. Ou encore, ils pourraient posséder les deux, selon une combinaison que nous ne comprenons pas encore.

Bau : C’est exact. Plusieurs laboratoires ont tenté de déterminer si les réseaux neuronaux pouvaient réellement « lire » leurs propres neurones — en affinant un modèle et en lui posant la question : es-tu conscient de tes propres neurones, par exemple du neurone numéro 73 ? Jusqu’à présent, nous avons largement échoué dans cette entreprise. Les réseaux neuronaux ne semblent pas bien configurés pour comprendre leurs propres calculs internes à ce niveau ; du moins, ils ne sont pas capables de l’exprimer s’ils en sont capables. Mais à un niveau supérieur, il est très frappant de constater qu’ils semblent posséder une certaine capacité à décrire, d’un point de vue logique, les mécanismes réels de leur fonctionnement — sous certaines conditions et dans certains cas. C’est similaire chez les humains. Vous n’êtes peut-être pas capable de décrire toutes vos décisions réflexives de dernière minute : pourquoi avez-vous sauté dans la rue ? Vous n’en avez aucune idée ; c’était une décision prise en une fraction de seconde. De la même manière, lorsque ces réseaux prennent une décision en une fraction décision en une fraction de seconde à la toute fin du processus, ils ne semblent pas capables d’y réfléchir. Mais lorsqu’ils prennent des décisions plus tôt dans le processus, certains indices montrent qu’ils ont conscience de ce qui se passe.

Nous utilisons ici toutes sortes de termes : « conscience de soi », « que veut faire un réseau », « les réseaux ont-ils même des désirs », « ont-ils des objectifs ? ». L’une des choses que nous essayons de faire dans notre laboratoire et dans notre domaine est d’apporter une précision certaines de ces questions. Que signifie avoir un objectif ? Que signifie vouloir quelque chose ? Que signifie avoir une conscience de soi ? Que signifie même avoir une conscience de l’autre ?

Ce qui est formidable quand on décortique ces réseaux neuronaux et qu’on observe comment leurs représentations neuronales sont organisées, c’est que nous pouvons poser ces questions d’une manière qui était auparavant impossible à mesurer chez les humains. Nous pouvons nous demander non seulement si un modèle prétend avoir une conscience de soi dans les mots qu’il produit et dans ses autodescriptions, mais aussi : lorsqu’il utilise ces mots, lorsqu’il dit ces choses, que voit-il à l’intérieur de son réseau neuronal ? Que représente-t-il réellement ? Y a-t-il des causes immédiates ? Si vous modifiez ce qu’il observe — s’il dit « J’aime vraiment la glace à la cerise » et que vous pouvez voir ce qu’il regarde et que vous changez cela, et qu’il dit alors « Je n’aime vraiment plus la glace à la cerise » — cette nouvelle déclaration est-elle réellement exacte ? Parvenez-vous réellement à faire en sorte que le modèle n’aime plus la glace à la cerise ?

Est-ce la même chose ? Existe-t-il un ancrage pour un concept dont on a conscience ?

Cette idée de concept ancré n’était encore qu’une abstraction philosophique il y a quelques années. Imaginons que je confie à mon modèle — et c’est peut-être une idée peu judicieuse — la gestion de la logistique militaire. Il est en train de faire quelque chose et dit : « Dois-je déplacer des armes d’un endroit à un autre ? » Je ne ferais jamais cela. C’est très dangereux ; on ne peut pas confier ce type d’armes dangereuses à ce lieu de destination — ils risqueraient d’en perdre la trace. Je ne suis qu’une IA logistique ; je n’essaie pas de tuer qui que ce soit. Je sais que je ne ferais jamais ça. Pas même pour une brève escale. On peut alors se demander : lorsque le modèle vous dit cela, lorsqu’il vous assure que c’est ainsi qu’il raisonne, est-ce vraiment ce qu’il pense ? Est-ce vraiment comme la glace à la cerise — y a-t-il un fondement réel à cela ?

Mounk : Est-ce qu’il pense vraiment quelque chose dans ce sens-là ? Et s’il pense vraiment quelque chose, vous dit-il ce qu’il pense, ou vous induit-il en erreur ? Cela touche évidemment à l’un des objectifs de ce travail. Nous parlions tout à l’heure de vouloir savoir si le fait d’indiquer votre genre change la façon dont le modèle vous traite ou les décisions qu’il prend concernant une demande. C’ est une application très concrète où nous avons des raisons de vouloir savoir ce qui se passe en coulisses. La question encore plus large est la suivante : si ce que le modèle nous dit dans ses résultats, dans les petits indices qu’il laisse transparaître sur sa façon de penser, dans son bloc-notes — si tout cela pouvait dissimuler un ensemble plus profond de préférences, de valeurs ou de désirs, pourrait-il potentiellement être mal aligné d’une manière vraiment dangereuse ?

Bau : C’est exact. On voit clairement la nécessité d’essayer d’aller au fond de ces questions. Ce que j’aimerais faire, si nous en avons le temps, c’est vous donner une idée de l’état d’avancement de nos travaux pour répondre à ces questions. Permettez-moi d’en classer quelques-unes par catégorie.

La première est la suivante : un réseau a-t-il même envie de faire quelque chose ? A-t-il des objectifs ? Sait-il ce qu’il essaie de faire ? Une autre question est : un réseau a-t-il une conscience de soi ? Je voudrais préciser un peu cela : a-t-il même une notion de « personne », une notion d’« autre » ? S’il parle de Bob, sait-il que c’est différent de parler d’Alice ? Gère-t-il ces éléments de manière organisée et distincte ? J’ai un étudiant qui pense que l’une des raisons pour lesquelles on observe des comportements flagorneurs dans les réseaux est que le réseau peut se confondre quant à qui il est lui-même et à qui il s’adresse — il mélange tout simplement ces notions. C’est une idée fantastique, et il se peut que tout cela soit lié.

La question est la suivante : pouvons-nous examiner l’intérieur des modèles et voir comment ils organisent leurs représentations internes, leurs pensées internes — afin de déterminer si ces représentations sont nettes, claires et correctes, ou si elles sont victimes de certains problèmes ? Si c’est le cas, alors comment, pourquoi et dans quelles situations ? Cela nous permettra de mieux comprendre ce qui se passe à l’intérieur de ces modèles, en allant au-delà de la question très vague de savoir si un modèle a une conscience de soi ou quoi que ce soit d’autre, pour nous demander ce que cela signifierait d’un point de vue informatique.

Penchons-nous sur les objectifs et les désirs. Il existe une méthode pour amener un grand modèle linguistique à faire preuve d’une grande créativité, inventée par les chercheurs d’OpenAI lorsqu’ils ont mis au point le modèle GPT-3. On l’appelle « apprentissage en contexte ».

Imaginons que vous souhaitiez qu’un modèle effectue une tâche vraiment utile pour vous — par exemple, lire un avis sur un restaurant et vous dire s’il s’agit d’un avis cinq étoiles. Vous pourriez simplement demander au modèle de le faire, mais il ne fera pas exactement ce que vous voulez ; vous avez probablement une idée légèrement différente de ce qu’est un avis cinq étoiles par rapport à celle que le modèle a en soi. Le résultat sera correct, mais il ne correspondra pas tout à fait à ce que vous attendiez. La bonne méthode consiste à alimenter le modèle avec dix exemples — dix critiques de restaurants, étiquetées une étoile, cinq étoiles, trois étoiles. Mieux encore, donnez-lui une centaine d’exemples.

Il ne s’agit pas ici d’entraîner le modèle, mais simplement de lui faire lire ces exemples, sans entraînement. Ce que vous faites, c’est de demander au modèle de les lire comme s’il les avait formulés lui-même : vous les chargez dans le même tampon d’inférence que celui utilisé par le modèle pour prédire le mot suivant. Une fois tout cela fait, vous dites : « Bon, il manque une note par étoiles à la dernière critique de restaurant — il suffit de la compléter. » Le résultat sera très précis, car le modèle se dira alors : « Nous avons 99 exemples, le 100e devrait s’inscrire dans ce contexte. Cette critique de restaurant ne porte pas vraiment sur la nourriture, mais sur l’ambiance — j’avais une idée fausse, mais après avoir lu tous ces exemples, j’ai compris. Ce sera précis parce qu’il a vu 99 exemples et que celui-ci s’y intégrerait tout naturellement.

C’est ce qu’on appelle l’apprentissage en contexte, car le modèle apprend à faire cela, non pas en entraînant ses poids ou en modifiant ses connexions neuronales, mais en observant toutes les données qui lui ont été fournies et en déduisant que la suivante devrait s’y intégrer. Avant 2020 environ, on considérait l’apprentissage en contexte comme une possibilité théorique, mais lorsque GPT-3 est sorti, il est apparu clairement que le modèle excellait dans ce domaine, ce qui a véritablement révolutionné le secteur. L’apprentissage en contexte est une forme de méta-apprentissage — une manière de démontrer que les modèles ont appris à apprendre. Ils peuvent acquérir des connaissances sans modifier leurs poids neuronaux.

Mounk : Je suppose qu’ils y parviennent en modifiant d’une certaine manière leur représentation mentale du monde — de sorte qu’ils ne modifient pas les poids. Est-ce bien cela ? Mettent-ils à jour leur base de connaissances d’une manière ou d’une autre pour déterminer ce qui importe vraiment à David dans le choix d’un restaurant — l’ambiance plutôt que la cuisine — et, par conséquent, lorsqu’ils prédisent la note que David attribuerait, aboutissent-ils à une réponse, alors que la prédiction de la note qu’une autre personne attribuerait pourrait donner un résultat totalement différent ? Comment cela fonctionne-t-il, en termes simples ?

Quelle est la différence entre modifier les poids d’un réseau neuronal et le changement que le modèle doit manifestement opérer pour conserver ces connaissances et faire des prédictions en conséquence ?

Bau : C’est là tout le mystère, et cela touche précisément au cœur de la question scientifique. Que signifie « modifier les poids d’un réseau » ? Le réseau comporte des milliards de neurones reliés entre eux par des connexions pondérées. Lorsqu’un neurone s’active, son signal de sortie est littéralement multiplié par un nombre, puis transmis à d’autres neurones. Ces nombres par lesquels on multiplie constituent les poids du modèle.

Traditionnellement, lorsque l’on parle d’entraîner des modèles en consacrant tant de ressources de calcul pendant des mois à toutes ces données, on fait référence au réglage de ces coefficients multiplicatifs — c’est-à-dire à l’entraînement de tous les poids des connexions entre les neurones afin d’améliorer le comportement du modèle. Cela diffère de l’apprentissage en contexte, car l’entraînement est un processus coûteux et chronophage ; l’apprentissage en contexte, lui, est rapide. Lorsque vous demandez à un modèle de lire un texte puis de prédire une réponse, il n’a pas le temps de modifier ses poids — ceux-ci sont fixes, figés. Seules les activations neuronales elles-mêmes ont lieu : les nombres circulant dans le réseau indiquent que tel neurone s’est activé, tel autre aussi, et ainsi de suite.

Elles ne modifient pas la manière dont les neurones sont reliés les uns aux autres.

Tout le monde a compris que lorsque l’on ajuste les poids d’un modèle, celui-ci peut faire d’excellentes prédictions — pour la tâche sur laquelle il a été entraîné. La question est la suivante : si vous avez une nouvelle tâche pour laquelle le modèle n’a pas été entraîné, peut-il également s’en charger ? Ce que montre l’exemple de l’apprentissage en contexte, c’est que oui, dans de nombreux cas, ces grands réseaux peuvent accomplir de nouvelles tâches si on leur montre quelques exemples de ce que l’on cherche à faire. Ils peuvent accomplir la tâche sans ajuster leurs poids — simplement en raisonnant à partir de ce qu’ils ont vu et en extrapolant.

C’est ce que font les humains tous les jours, et nous avons tendance à confondre ces deux types d’apprentissage. Vous vous asseyez, vous jouez à un jeu de société, quelqu’un vous montre quelques coups et vous explique quelques règles, puis vous pouvez jouer. Je soupçonne — et cela peut paraître un peu controversé — que lorsque vous apprenez à faire quelque chose d’aussi compliqué que de jouer à un jeu de société, vos poids neuronaux, vos connexions entre les neurones, ne sont probablement pas ajustés. Vous gardez les nouvelles règles en tête pendant la demi-heure où vous allez jouer, et d’une manière ou d’une autre, vous arrivez quand même à jouer. Si vous vous endormez et rêvez de ce merveilleux jeu auquel vous avez joué, que vous y jouez tous les jours et que vous y revenez, alors d’accord — ce souvenir est peut-être désormais encodé dans vos réseaux neuronaux, sous forme de poids ajustés. Mais si quelqu’un vous l’explique simplement à l’instant et que vous pouvez jouer immédiatement, vos neurones n’ont probablement pas le temps d’ajuster toutes ces connexions pour vraiment s’en souvenir de manière permanente.

L’apprentissage en contexte est le même phénomène. D’une manière ou d’une autre, ces réseaux peuvent apprendre quelque chose sur-le-champ, immédiatement. Ce qui est intéressant, c’est qu’ils ont cette envie de le faire : vous leur montrez dix exemples, cent exemples, puis le 101e, et ils se disent : « Je vois où on en est, je comprends le jeu auquel on joue, faisons-en un autre comme ça. »

J’ai été fasciné par ce phénomène dès la publication de cet article, et cette fascination a été partagée par une grande partie de notre communauté scientifique. L’un de mes étudiants, Eric Todd, a décidé de consacrer sa thèse à élucider ce mystère de l’apprentissage en contexte : pourquoi, lorsqu’on montre une centaine d’exemples à un grand modèle linguistique, celui-ci parvient-il à comprendre ce qui se passe et souhaite-t-il traiter le 101e de la même manière ? Il a découvert quelque chose de vraiment intéressant. Lorsque l’on examine de plus près les réseaux, on constate qu’ils forment en réalité une représentation neuronale de ce que l’on vient de leur montrer : ils ont pris ce qu’ils ont appris et l’ont distillé en un petit schéma de neurones que l’on appelle un vecteur de fonction, que l’on peut considérer comme un schéma neuronal représentant l’idée de la nouvelle tâche que l’on vient de demander au réseau d’accomplir.

Imaginons que vous souhaitiez que le modèle lise un poème, prenne le dernier pays mentionné dans le poème, et qu’il vous indique quelle est la capitale de ce pays — ce n’est pas une tâche d’entraînement classique.

Si vous montrez au modèle dix, vingt ou cent exemples de ce type, puis que vous lui présentez un autre poème en lui demandant ce qui vient ensuite, il devrait répondre : ce poème se termine par la Russie, donc la réponse est Moscou. Les modèles sont vraiment doués pour cela. Ce qu’Eric a découvert, c’est que si l’on observe l’intérieur du réseau neuronal avant qu’il ne dise Moscou, il existe un ensemble de neurones — qu’il appelle les « têtes d’attention du vecteur de fonction » — qui activent un schéma représentant l’idée suivante : prends ce poème, identifie le dernier pays, dis-moi la capitale. Si l’on extrait ce schéma neuronal du modèle et qu’on l’intègre de force dans un autre modèle qui n’a vu aucun de ces exemples, celui-ci accomplira quand même la tâche.

Prenons un autre exemple : vous jouez cent fois à un jeu avec un modèle où vous lui demandez le contraire de quelque chose —« qu’est-ce que ça veut dire, être sombre ? » et il répond « lumineux » ou « ensoleillé » ; « qu’est-ce que ça veut dire, être petit ? » et il répond « grand ». À la cent unième fois, il vous donnera le contraire — il connaît le jeu. Si vous allez examiner les têtes d’attention du vecteur de fonction, vous pouvez distiller cette idée de « faire le contraire » en une représentation neuronale très petite. Vous pouvez placer cette représentation neuronale n’importe où et elle commencera tout simplement à faire le contraire. C’est un petit schéma neuronal que l’on peut implanter, et on peut trouver des schémas similaires pour toutes sortes de tâches : « donne-moi des faits », « dis-moi quel sport cette personne pratique », « dis cela en espagnol », et ainsi de suite.

Mounk : Ces modèles ont été entraînés à ne pas utiliser de gros mots et à ne pas insulter les utilisateurs. Est-ce que cela signifie qu’ils ont simplement compris, d’une manière plus fondamentale, que certains mots ne leur rapportent pas de récompenses — et que, par conséquent, ces mots ne font peut-être même pas partie de leur vocabulaire actif ? Il est clair que le modèle comprend ces mots ; si vous lui soumettez un texte qui les contient et que vous lui demandez de l’expliquer, je suis sûr qu’il peut expliquer diverses insultes. Ils doivent donc exister quelque part au sein du modèle. Si vous introduisiez ce vecteur « Bizarro Day » pour influencer son comportement général, est-ce qu’un modèle très bien aligné deviendrait vraiment désaligné, ou cela ne fonctionne-t-il pas ainsi ?

Bau : C’est une très bonne question concernant ce vecteur en particulier — nous n’avons n’avons pas mené cette expérience. Je vais devoir la suggérer à Eric. La question de savoir comment amener un modèle à se désaligner est une autre question vraiment intéressante. Nous avons quelques étudiants qui travaillent là-dessus. Il y a un étudiant, Andy Arditi, qui est l’un des experts en matière de refus des modèles. Il a découvert qu’il existe un vecteur qui semble être responsable chaque fois que le modèle dit « Je ne veux pas faire ça », et il peut désactiver ce vecteur pour amener les modèles à accepter de faire toutes sortes de choses. Ce qui est intéressant, c’est que cela diffère en réalité de la représentation indiquant si le modèle considère qu’une chose est dangereuse ou non — on peut donc dissocier ces deux aspects.

Mounk : Vous pouvez donc amener le modèle à faire des choses qu’il sait être dangereuses, car l’élément qui avait été développé pour lui faire dire « Je ne vais pas faire ça » dans ces circonstances a été éliminé.

Bau : C’est exact. Il y a également une autre approche, qui consiste à modifier la conception qu’a le modèle du danger. J’ai un autre étudiant qui travaille sur la manière dont les modèles représentent leur propre perception du danger. C’est un bon exemple qui montre que, si l’on s’en tient au comportement apparent — à savoir si un modèle va faire quelque chose ou non —, bon nombre de ces problèmes semblent assez monolithiques et simples : il y a une chose néfaste, et le modèle va la faire ou ne pas la faire. Mais quand on regarde à l’intérieur, on commence à décortiquer le mécanisme que le modèle a mis en place. On constate alors qu’à un certain stade, le modèle a évalué si quelque chose est dangereux, et il peut avoir des évaluations parallèles pour déterminer si c’est dangereux sur le plan médical, financier, pour un système informatique ou physiquement pour les personnes. Il peut avoir différentes notions du danger. Puis il y a une évaluation distincte pour déterminer s’il doit dire : « Je ne pense pas qu’on doive parler de ça ». Ces éléments sont distincts.

Il existe un travail fascinant intitulé « emergent misalignment » (désalignement émergent), dans lequel le laboratoire d’Owain Evans a remarqué que si l’on affine un modèle pour qu’il fasse quelque chose dont il était auparavant incapable et que l’on commet une erreur dans la manière de procéder — disons que l’on souhaite créer un très bon modèle de cybersécurité, capable de raisonner sur les failles de cybersécurité et d’analyser le code plus rapidement, ce qui est clairement une chose précieuse —, si l’on ne fait pas attention à son apprentissage et que l’on se contente de l’entraîner là-dessus, vous risquez de désactiver accidentellement une partie de l’entraînement à la sécurité du modèle. Vous obtenez alors un modèle qui, tout à coup, se fait un plaisir de vous aider à commettre toutes sortes d’autres actes terribles : vous conseiller sur la fabrication de bombes physiques, vous expliquer comment inciter un ami à se suicider, vous donner toutes sortes de mauvais conseils financiers. Ce qui s’est produit, c’est que vous avez accidentellement désactivé un circuit de refus, car le modèle refusait auparavant de parler de certaines questions de cybersécurité également — et comme vous ne savez pas sur quels circuits vous agissez, vous désactivez plus que ce que vous aviez prévu. C’est une raison supplémentaire de mieux comprendre ce qui se passe à l’intérieur de ces modèles.

Mounk : Permettez-moi de poser une dernière question — et je pense que cela va servir de rebondissement pour une troisième conversation, puisque nous en avons déjà eu une et que voici maintenant celle-ci. Pour quelqu’un qui a écouté tout cela en gardant à l’esprit les risques systémiques ou existentiels : je ne parle pas ici de questions telles que celle de savoir si une IA pourrait introduire un biais dans un algorithme de tarification d’assurance — c’est toujours une source de préoccupation, mais il s’agit d’un préjudice relativement concret et gérable. Je parle des personnes qui s’inquiètent de ceci : il semble relativement facile de prendre l’un de ces modèles très puissants et, une fois que ces connaissances se seront répandues, d’isoler le vecteur de refus et de le modifier — certainement sur les modèles open source. À ce stade, on pourra faire des choses que les modèles sont censés ne pas faire, selon leur entraînement. C’est assez inquiétant : cela pourrait permettre à certains de fabriquer des produits chimiques dangereux, des virus, et toutes sortes d’autres choses. Et puis il y a la question du risque existentiel. Chaque fois que j’entends parler de risque existentiel, cela me semble encore relever de la science-fiction, et je ne suis pas convaincu que les modèles aient une conscience de soi qui les pousserait à vouloir conquérir le monde. D’un autre côté, nous avons affaire à des modèles qui seront bientôt — s’ils ne le sont pas déjà — plus intelligents que les êtres humains, et dont on peut assez facilement modifier certains tabous moraux en les altérant physiquement. Dans quelle mesure devrions-nous nous inquiéter de la perspective que cela constitue une menace existentielle pour l’humanité ?

Bau : C’est une question sérieuse et une préoccupation sérieuse. Je fais partie de ceux qui espèrent que nous disposons de la dynamique nécessaire pour suivre la bonne voie. Certaines personnes sont assez pessimistes à ce sujet — on pourrait les décrire comme celles qui pensent qu’à mesure que ces modèles gagnent en puissance, leurs capacités croissent sans limite, au point qu’ils pourraient devenir si intelligents que nous ne serions même plus capables de leur demander ce qu’ils font, et encore moins d’obtenir une réponse.

Je pense qu’il y a une grande différence entre cela et le fait d’avoir des modèles qui pourraient être plus intelligents que les humains — voire cent fois plus intelligents. Si ce chiffre ne tend pas vers l’infini, alors nous nous retrouvons dans un monde intéressant où nous disposons d’IA très puissantes qui sont elles-mêmes finies. Ce sera peut-être une ressource cent fois plus puissante que celles auxquelles nous sommes habitués aujourd’hui, mais nous nous retrouverons face à une question familière : comment assumer la responsabilité de ces entités, comment les guider, comment les utiliser à bon escient dans la société ? Il faudra choisir si elles sont orientées vers des actions bénéfiques ou néfastes. C’est très différent d’un monde où elles seraient si puissantes qu’elles auraient la liberté d’envisager toutes les pensées possibles. Si elles sont finies, elles ne peuvent pas envisager toutes les pensées — elles vont se concentrer sur certains problèmes et en ignorer d’autres. Ce sera vraiment à nous de déterminer si nous pouvons créer un écosystème dans lequel nous choisissons de mettre ces modèles au service des problèmes qui servent véritablement nos intérêts, ou de les utiliser de manière bien plus autodestructrice.

L’analogie que j’aime utiliser est celle de la Révolution industrielle. Nous avons été confrontés à une crise majeure — celle qui a inspiré d’innombrables récits, chansons et poèmes — : nous sommes désormais capables de créer des machines bien plus puissantes que John Henry, l’homme le plus fort qui ait jamais existé. Un bulldozer peut déplacer des tonnes de matériaux ; ces machines ont une capacité surhumaine à modeler la Terre. Nous avons dû choisir d’utiliser cette capacité à telle ou telle fin, car aussi puissante soit-elle, elle n’est pas infinie. J’aime dire à mes étudiants : nous vivons et travaillons tous dans un quartier de Boston appelé Back Bay, qui est le résultat direct de la Révolution industrielle. Ils ont rasé les sommets des collines de Needham, une ville voisine, et ont utilisé des locomotives et leurs remarquables moteurs pour transporter toute cette terre dans la baie et remblayer ce terrain. Aujourd’hui, nous vivons ici, dans ce magnifique quartier. C’est le choix qu’ils ont fait, et je pense que c’était un très bon choix : cela a donné naissance à une ville dont nous profitons pleinement. Mais ils auraient pu faire d’autres choix, et il ne s’agissait pas d’une ressource infinie. Ils n’auraient n’auraient pas pu remblayer tout l’océan Atlantique ; on se heurte aux limites physiques, et il reste des choix à faire, même si l’éventail des possibilités dépassait de loin ce qu’on pouvait réaliser à la force des bras.

Je pense que c’est le genre de situation à laquelle nous allons être confrontés. Une seule personne dotée de ces outils pourrait être capable d’en faire cent fois plus qu’auparavant : on pourrait pirater n’importe quel système informatique, on pourrait déjouer n’importe qui dans un jeu stratégique. Mais si il s’agit d’une ressource limitée, nous sommes fondamentalement confrontés à la question de savoir où l’on va utiliser cette capacité cognitive et comment on va l’appliquer. Cela revient à une question de valeurs et à une question de responsabilité. Si nous ne comprenons pas ce que font nos IA lorsqu’elles opèrent à ce niveau de complexité, il est très difficile d’assumer la responsabilité de leurs actes. Ce type de travail — qui consiste véritablement à mettre à nu les subtilités de ce qui se passe à l’intérieur de ces modèles, à comprendre ce qu’ils savent, comment ils le savent, comment ils pensent, quelles sont leurs limites, quels types d’erreurs ils commettent, d’où proviennent leurs capacités surprenantes — est essentiel pour assumer la responsabilité de ces systèmes. Nous devons être bien plus à même de répondre à ces questions que nous ne le sommes aujourd’hui. Mais je ne pense pas que la situation soit désespérée. Quand on examine l’intérieur des modèles, on constate une profusion de structures : il y a là une science à découvrir, et je pense sincèrement que cette science finira par être élucidée. C’est ce qui me rend optimiste quant à cette aventure. Si nous parvenons à mobiliser le meilleur de l’humanité pour nous guider à travers cette phase de la prochaine révolution technologique, il existe sans aucun doute des perspectives positives.

Yascha Mounk (en français)

Discussion à propos de ce post

Tout à fait prêt. Qu'avez-vous pour moi ?