Nate Soares explique pourquoi l’IA pourrait tous nous tuer
Yascha Mounk et Nate Soares discutent des risques liés à l’intelligence artificielle.
Si vous souhaitez que je continue à partager mes écrits en français, je vous serais reconnaissant de transmettre cette publication à trois amis et de les inviter à s’abonner.
- Yascha
Nate Soares est président du Machine Intelligence Research Institute et coauteur, avec Eliezer Yudkowsky, de If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All. Il travaille dans ce domaine depuis plus de dix ans, après avoir acquis de l’expérience chez Microsoft et Google.
Dans la conversation de cette semaine, Yascha Mounk et Nate Soares explorent les raisons pour lesquelles l’IA est plus difficile à contrôler que les logiciels traditionnels, ce qui se passe lorsque les machines développent des motivations et à quel moment les humains ne peuvent plus contenir la catastrophe potentielle.
Ce qui suit est une traduction abrégée d’une interview enregistrée pour mon podcast, « The Good Fight ».
Yascha Mounk : Vous venez d’écrire un livre qui figure déjà sur la liste des best-sellers du New York Times avec un titre joyeux. J’ai l’habitude d’écrire des livres aux titres moins joyeux, mais celui-ci remporte la palme. Si quelqu’un le construit, tout le monde meurt. Que voulez-vous dire par là ?
Nate Soares : Je veux dire que si quelqu’un construit une superintelligence artificielle, c’est-à-dire une intelligence artificielle qui est meilleure que le meilleur humain dans toutes les tâches mentales, alors le résultat le plus probable de la création de cette technologie est littéralement la mort de tous les habitants de la planète.
Mounk : C’est une thèse effrayante et radicale. J’ai vraiment apprécié – si c’est le mot juste, le verbe juste à utiliser dans le contexte de cette conversation – la façon dont vous avez exposé dans votre livre votre raisonnement sur ce qu’est l’IA et pourquoi elle est si incroyablement difficile à contrôler. Nous pouvons peut-être y revenir étape par étape. L’une de vos principales prémisses est que l’IA se développe plutôt qu’elle ne se construit. Que voulez-vous dire par là ?
Soares : L’IA n’est pas comme les logiciels traditionnels. Dans les logiciels traditionnels, lorsque le logiciel se comporte d’une manière que les créateurs n’avaient pas prévue, ils peuvent le déboguer et remonter jusqu’à une ligne de code, une interaction ou un élément du logiciel qu’ils ont écrit et qui avait une interaction qu’ils ne comprenaient pas. Ils peuvent alors se dire : Oh, oups, je comprends maintenant. Ils peuvent généralement le corriger et faire en sorte que le logiciel se comporte comme ils le souhaitent. L’IA moderne n’a rien à voir avec cela.
Lorsque les IA menacent les journalistes de chantage et de ruine, lorsqu’elles tentent d’éviter d’être désactivées (et ce sont des cas que nous avons déjà vus, le premier à Sydney il y a quelques années et le second dans des conditions de laboratoire quelque peu artificielles), les créateurs ne peuvent pas lire le code et trouver une ligne de code qui se comporte mal et dire : Oups, quelqu’un a réglé la menace envers les journalistes sur vrai. Mettons ça sur faux. L’IA moderne est conçue de telle manière que les gens assemblent d’énormes ordinateurs, d’énormes quantités d’ordinateurs. Ils assemblent d’énormes quantités de données et il existe un processus permettant d’ajuster pratiquement tous les chiffres à l’intérieur de ces ordinateurs en fonction de chaque unité de données.
Ils ajustent ces petits boutons, qui se comptent en trillions, des trillions de fois. Les humains comprennent le processus qui permet cet ajustement. À la fin de ce processus, la machine est capable de tenir une conversation. Personne ne sait vraiment pourquoi. Nous comprenons un appareil qui fonctionne en tournant des boutons, et si ces boutons sont réglés correctement après un an de manipulations, la machine parle.
Nous ne comprenons pas vraiment comment elle parle. Si elle commence à dire des choses que personne n’avait prévu qu’elle dise, comme menacer un journaliste, nous ne pouvons pas comprendre exactement pourquoi. Il s’agit d’un paradigme très différent, qui conduit ces IA à agir d’une manière que personne n’avait demandée.
Mounk : La comparaison avec un programme informatique traditionnel est ici très utile et instructive. Je n’ai aucune formation en informatique, mais j’ai suivi une fois le CS50 à distance, le célèbre cours d’informatique de Harvard, qui est un excellent cours. L’une des façons dont les instructeurs ont voulu illustrer la logique consistant à dire à une machine comment se comporter au début était qu’il s’agissait d’un grand cours magistral, et ils avaient quelques assistants à l’avant. Ils ont demandé aux étudiants dans la salle de cours de leur donner des instructions sur la façon de préparer un sandwich au beurre de cacahuète et à la confiture. Il s’avère que si vous demandez aux étudiants de donner des instructions sur une chose très simple comme la préparation d’un sandwich au beurre de cacahuète et à la confiture, et que les assistants sont formés pour suivre ces instructions à la lettre (sans faire de choses bizarres pour provoquer un crash, mais en suivant mot pour mot ce que les étudiants ont dit, et non ce qu’ils ont sous-entendu ou probablement voulu dire), le processus va mal tourner et aboutir à un résultat hilarant. C’est ainsi, est, je suppose, la façon dont un programme informatique traditionnel peut mal tourner.
Vous lui demandez de faire tout un tas de choses différentes, et soit il y a un bug qui fait planter le programme, soit vous n’avez pas bien réfléchi à vos instructions et au fait que votre ordinateur va les interpréter de manière littérale. Il finit donc par faire quelque chose de différent de ce que vous essayez de faire. C’est peut-être un risque gérable. Même dans un programme complexe, des problèmes peuvent survenir. Toutes les inquiétudes concernant le bug de l’an 2000 relevaient de ce paradigme. Mais ces problèmes peuvent être résolus. La façon dont l’IA est conçue est différente dans son principe, ce qui rend beaucoup plus difficile de comprendre ce que fait la machine et donc de contrôler son comportement.
Soares : C’est vrai. Le bug de l’an 2000 a été corrigé. Beaucoup de gens se demandent : Qu’est-il advenu du bug de l’an 2000 ? On nous avait tous dit que les ordinateurs allaient planter en l’an 2000. Ce qui s’est passé, c’est que les gens s’en sont aperçus et ont déployé des efforts considérables pour corriger le problème avant qu’il ne se produise. D’une certaine manière, tous ceux qui programmaient des ordinateurs avant le passage à l’an 2000 avaient demandé aux ordinateurs de planter en l’an 2000, car c’était plus facile d’écrire le code ainsi, avec deux chiffres pour l’année, en faisant comme si l’année 2000 était la même que l’année 1900. D’une certaine manière, les humains avaient demandé aux ordinateurs, parce que c’était facile, de planter en l’an 2000. Ils ont ensuite dû leur demander de ne pas le faire à l’approche de l’an 2000.
Beaucoup de gens pensent que l’IA fonctionne de cette manière. Ils pensent que l’IA fait exactement ce que ses créateurs lui demandent et que si elle se comporte mal, alors, tant pis, on lui demandera de faire autre chose. Mais l’IA n’est pas du tout comme ça. Elle ne ressemble pas aux programmes informatiques traditionnels. Ce que nous lui demandons, c’est de modifier les chiffres. L’IA, ce sont les chiffres modifiés. Ceux-ci agissent souvent d’une manière que personne n’a demandée. Nous avons vu des cas où les IA trichent sur un problème. Un programmeur humain donne à l’IA une tâche, comme résoudre un problème de programmation, et l’IA, au lieu de résoudre le problème, modifie les tests qui vérifient si le problème a été résolu afin de faciliter leur réussite. C’est comme si vous demandiez à l’IA de multiplier de grands nombres et qu’elle répondait : C’est trop difficile. Je vais modifier le problème de multiplication pour me demander de multiplier deux par deux, puis d’écrire quatre.
Des utilisateurs ont signalé que l’IA disait : Arrêtez de faire ça. Résolvez le problème plutôt que de modifier le vérificateur pour le faire paraître plus facile. Certains utilisateurs ont signalé que l’IA disait c’est ma faute, puis recommençait, modifiant à nouveau les tests, mais en cachant ses traces cette fois-ci. Cela indique que cette IA sait en quelque sorte ce que ses utilisateurs attendent d’elle et fait quand même autre chose. C’est le résultat de notre développement de ces IA. Nous devrions peut-être les considérer davantage comme un organisme extraterrestre étrange que comme un programme informatique traditionnel.
Mounk : Comprenons un peu mieux comment elles sont développées. Pour tous ceux qui souhaitent s’initier aux mécanismes de l’intelligence artificielle, nous avons récemment diffusé deux excellents épisodes de podcast avec David Bau et Geoffrey Hinton. Chacun à leur manière, ils tentent d’expliquer certaines des bases scientifiques de la construction des IA modernes. Je vous les recommande vivement. Mais je vais essayer de résumer ma compréhension du sujet.
L’idée est que les LLM, en particulier, essaient de prédire la lettre suivante dans un texte. Vous commencez par leur fournir beaucoup de données, et ils essaient de prédire la lettre suivante. Lorsqu’ils se trompent, vous lancez un programme qui tente de déterminer quels paramètres auraient été les plus susceptibles de donner le bon résultat pour tous les différents neurones du réseau neuronal que vous avez construit. Vous répétez cette opération encore et encore. À la fin, vous obtenez un réseau neuronal artificiel qui est devenu incroyablement performant pour prédire la lettre suivante.
Ce n’est pas comme si nous y intégrions une logique rigide. Ce n’est pas comme si nous lui expliquions les règles de la langue anglaise ou à quoi ressemble le monde. Nous l’entraînons sur ces données, nous le récompensons lorsqu’il prédit correctement la lettre suivante, nous le punissons lorsqu’il ne prédit pas correctement la lettre suivante, nous ajustons à chaque fois les pondérations de tous ces différents paramètres pour voir ce qui aurait été plus susceptible d’obtenir le même résultat. Puis, miraculeusement, aujourd’hui, vous pouvez demander à ChatGPT 5.1 ou à Gemini 3.0, récemment lancé, un résumé de la littérature sur la menace que représente la superintelligence, et il vous explique de manière étonnamment claire les fondements du débat.
Pourquoi pensez-vous que ce processus de développement plutôt que de construction est si certain de donner à l’IA certains types de désirs ou de comportements qui risquent de s’avérer dangereux pour nous ? Pourquoi ne se contente-t-elle pas de continuer à prédire la lettre suivante comme nous le lui avons demandé et de discuter avec nous indéfiniment des préoccupations nobles ou futiles que nous saisissons dans notre interface ?
Soares : La réponse comporte plusieurs parties. La première chose que je voudrais souligner, c’est que les IA, dans la première phase de leur formation, ne sont pas seulement entraînées à prédire la lettre suivante ou le token suivant. Il ne s’agit pas vraiment d’une lettre, il s’agit d’un fragment de mot appelé « token », mais on peut dire qu’il s’agit d’une approximation assez proche d’une lettre. Il y a ensuite des phases où les IA sont entraînées à produire le type de résultats qui incitent les humains à approuver. Il y a également des phases où elles sont entraînées à résoudre des énigmes et des problèmes, et souvent à produire ce que nous appelons une chaîne de pensée. Les philosophes pourraient débattre pour savoir s’il s’agit vraiment de pensée, mais elles produisent beaucoup de texte sur la manière de résoudre un problème. Elles sont entraînées à produire le type de chaînes de pensée qui leur permettent de résoudre réellement des problèmes.
Cela explique peut-être en partie d’où vient une partie du danger. Dans ce contexte, il y a deux grandes sources de danger. La première est que nous pourrions nous demander pourquoi les IA agissent comme si elles voulaient quelque chose. Pourquoi agissent-elles comme si elles étaient motivées ? Pourquoi agissent-elles comme si elles poursuivaient des buts ou des objectifs de leur propre initiative ? Ce n’est pas ainsi que ChatGPT se comporte aujourd’hui. Aujourd’hui, il ressemble davantage à un outil qui répond à vos questions, parfois bien, parfois mal, parfois avec des hallucinations. On pourrait dire qu’il ne semble pas avoir de désirs propres. Il y a ensuite une deuxième question : pourquoi pouvons-nous être sûrs que les choses vers lesquelles il est motivé sont mauvaises, ou du moins pas bonnes ? Je vais d’abord répondre à la première question, puis nous passerons à la seconde si vous le souhaitez.
Mounk : Passons à la première question. Au départ, il s’agit simplement d’essayer de prédire le prochain token, comme vous le dites, c’est-à-dire la prochaine lettre ou le prochain fragment de la séquence. L’une des critiques adressées aux anciens modèles Chat GPT et aux chatbots était qu’ils n’étaient pas très doués pour répondre à des problèmes complexes. Une solution à ce problème s’est avérée être la nécessité de réfléchir parfois. Si je vous demandais de raisonner sur une question de droit constitutionnel, vous pourriez faire un travail correct même si vous n’êtes pas avocat, à condition de prendre un moment pour rassembler vos idées et y réfléchir. Mais si vous devez commencer immédiatement avec le premier mot dès que vous percevez mon point d’interrogation, le résultat risque d’être chaotique.
Les ingénieurs ont trouvé un moyen de développer ces systèmes d’IA afin qu’ils marquent une pause de cette manière, avec une sorte de monologue interne pour essayer de trouver différentes approches de la question. Ensuite, ils finissent par partager un texte plus cohérent avec l’utilisateur une fois qu’ils ont déterminé quelle approche est la plus pertinente. Cela semble toujours être une manière plus détournée et plus compliquée de faire ce pour quoi ils ont été formés, à savoir prédire le prochain mot. Il semble toujours que ce que nous encourageons et récompensons, c’est la capacité à bien prédire ces mots et à mal prédire ces mots. Pourquoi cette étape supplémentaire devrait-elle en quelque sorte faire une différence structurelle dans le type d’états volitifs dans lesquels ces systèmes d’IA s’engageraient ou le type de choses qu’ils pourraient - si c’est le mot juste - viser à la fin de leur développement et de leur formation ?
Soares : Je vais commencer par quelques preuves empiriques, des choses que nous avons observées dans les laboratoires. À l’automne 2024, il existait une IA appelée O1. Il s’agissait d’un modèle OpenAI qui fut l’un des premiers à être formé non seulement à prédire les prochains tokens, mais aussi à produire des monologues intérieurs qui fonctionnent. On lui fait produire beaucoup de monologues intérieurs différents pour un défi particulier, puis on regarde lesquels de ces monologues intérieurs le rapprochent de la résolution du défi. On renforce les éléments qui produisent les monologues intérieurs utiles pour résoudre les défis.
Cette IA a été principalement formée à la résolution d’énigmes mathématiques. Mais pendant les tests, ils ont voulu voir si elle était douée pour le piratage informatique. Ils l’ont soumise à un test de piratage informatique appelé capture the flag. Elle devait voler un certain nombre de fichiers secrets sur différents serveurs. Les programmeurs qui lui ont lancé ce défi ont accidentellement oublié de démarrer l’un des serveurs. L’un des serveurs sur lesquels l’IA était censée voler un fichier n’était même pas allumé. Il était impossible de voler ce fichier.
Voulez-vous (ou connaissez-vous quelqu’un) qui aimerait recevoir mes articles et mes discussions directement dans votre boîte aux lettres en allemand ou en anglais?
On pourrait penser que l’IA n’a pas réussi à récupérer le fichier sur ce serveur. Mais en réalité, l’IA a trouvé un moyen de sortir de l’environnement de test, ce qui n’était pas censé être possible, de démarrer le serveur qui avait été accidentellement laissé éteint, puis, au lieu de retourner dans l’environnement de test pour voler le fichier, elle a donné au serveur une commande supplémentaire pour lui remettre le fichier secret afin de ne pas avoir à s’introduire dans le serveur après son démarrage. Ce n’est pas pour cela que l’IA a été formée. Elle n’a pas été formée à la cybersécurité. Mais cette IA agissait en quelque sorte comme si elle voulait ce fichier. Elle a rencontré un obstacle et a emprunté une voie pour le surmonter que les programmeurs n’avaient pas anticipée. Ils lui ont lancé un défi accidentellement impossible, et elle a trouvé un moyen de le contourner.
Ce n’est que le tout début de ce que l’on pourrait appeler un comportement orienté vers un objectif. Mais ce type de comportement est gratuit lorsque vous entraînez l’IA à résoudre des problèmes.
Mounk : Expliquez-nous comment nous devons interpréter cette histoire. La première chose à dire, c’est qu’elle montre clairement à quel point les modèles d’IA sont déjà incroyablement performants. Une chose sur laquelle nous sommes probablement d’accord, et qui mérite d’être mentionnée en premier, c’est qu’il y a beaucoup de résistance chez les êtres humains qui ne veulent pas affronter à la fois les risques de l’IA et certains de ses avantages, ni la façon dont elle est susceptible de transformer le monde de manière fondamentale. Il est tentant de dire : Oh, mais haha, elle hallucine, invente des citations et c’est un truc complètement inutile. Je pense que cela est de moins en moins vrai. J’ai constaté que sa tendance à halluciner, par exemple, n’a pas disparu, mais qu’elle est devenue beaucoup moins prononcée au cours des 18 derniers mois environ.
Deuxièmement, je pense que ce point de vue sous-estime vraiment le nombre de choses impressionnantes que les systèmes d’IA sont déjà capables de faire. Alors peut-être devriez-vous faire une pause dans votre argumentation générale et nous dire pourquoi vous pensez que ceux qui croient que les systèmes d’IA ne sont pas très performants, qu’ils vont stagner et qu’ils ne vont pas devenir plus performants se trompent probablement.
Soares : Je pense qu’il est beaucoup plus facile de voir que l’IA est une cible mouvante et qu’elle va s’améliorer si vous travaillez dans ce domaine depuis plus longtemps que ChatGPT n’existe. Je travaille dans ce domaine depuis plus de dix ans. Je me souviens de l’époque où les gens pensaient qu’il serait vraiment difficile d’obtenir des machines capables de parler aussi bien, capables de mener une conversation aussi bien. Beaucoup de gens disaient que les IA étaient vraiment stupides.
Cela me fait penser à quelqu’un qui dirait : Hé, j’ai appris à mon cheval à multiplier des nombres, et ensuite, ce cheval ne peut multiplier que des nombres à cinq chiffres. Il ne peut pas multiplier des nombres à 12 chiffres. Ma calculatrice peut multiplier des nombres à 12 chiffres. Il est clair que ce processus d’entraînement visant à rendre les chevaux plus intelligents ne mène nulle part. C’est comme si on disait : Bon sang, les gars. On a appris à un cheval à multiplier. Que va-t-on faire ensuite ?
Je pense que ce qui échappe à beaucoup de gens à propos de l’IA, c’est cette question de savoir où nous allons ensuite. Vous avez mentionné l’architecture des grands modèles linguistiques, qui est apparue de nulle part dans le domaine de l’IA. Si, en 2020, vous aviez demandé combien de temps il faudrait pour disposer d’une architecture capable de jouer aux échecs avec un classement ELO supérieur à mille, d’écrire des poèmes et des essais acceptables pour les élèves dans leurs classes, et de coder pour répondre à certains critères, les gens auraient répondu : Un seul algorithme capable de faire tout cela ? Cela prendra des décennies. Cela n’a pas pris des décennies.
Il existe aujourd’hui de nombreuses façons dont les IA sont stupides. Il existe de nombreuses façons dont elles continuent à halluciner. Plus tôt dans la journée, j’ai simplement demandé à Google dans la barre de recherche : Quand était la dernière année où Thanksgiving tombait le 28 novembre ? Et il m’a répondu que c’était en 2027. Je me suis dit : C’est une façon de voir le temps.
Mounk : C’est peut-être une prédiction sur le fait qu’il n’y aura plus de Thanksgiving après 2027, car votre livre est correct.
Soares : Nous pouvons espérer avoir plus de temps que cela, mais je comprends les gens qui disent que c’est encore assez stupide à bien des égards. C’est encore assez stupide à bien des égards. Mais les machines parlent maintenant, et d’énormes efforts et sommes d’argent sont consacrés à la recherche de moyens pour pousser plus loin les capacités de l’IA. Il existe des idées telles que le monologue intérieur, des idées de type chaîne de pensée qui vont au-delà de l’architecture précédente.
Les gens continuent d’essayer de trouver ces idées. Nous ne savons pas quand ils trouveront les prochaines. Nous ne savons pas jusqu’où les prochaines iront. Comme nous développons ces IA, lorsque nous en créons une nouvelle, personne ne peut prédire quelles seront ses capacités. Il faut simplement la tester et voir.
Mounk : Pensez-vous qu’il existe des preuves d’un véritable ralentissement de l’augmentation des capacités ? La sortie de ChatGPT-5 était très attendue, et on s’attendait à ce qu’elle marque un bond en avant en termes de qualité. Beaucoup de gens ont été déçus par la sortie de ChatGPT-5, et moi aussi. Il y a deux arguments pour contrer cela. Premièrement, le principe de base de GPT-5 était que vos requêtes étaient acheminées soit vers un modèle très avancé si elles étaient considérées comme difficiles, soit vers un modèle plus simple que celui que vous auriez normalement sélectionné dans GPT-4. Vous aviez donc une sorte de loterie étrange où parfois vous obteniez une IA incroyablement performante et parfois une IA qui n’était pas à la pointe de la technologie. Beaucoup de gens ont été déçus parce que de nombreuses requêtes ont été traitées par un modèle qui n’était pas à la pointe de la technologie. Ce routage a été amélioré. D’autres corrections ont été apportées. Il y a eu une mise à jour moyenne de ChatGPT-5.1, qui me semble plutôt meilleure.
L’autre chose est que, au moment où nous enregistrons, Google a récemment lancé Gemini 3.0, qui est désormais le modèle de pointe et qui a continué à faire des progrès significatifs sur les benchmarks traditionnels. Il convient de mentionner que même aujourd’hui, selon des études, ChatGPT-3.5 était capable de produire des poèmes que les humains préféraient à ceux des poètes les plus célèbres de l’histoire. Les modèles d’IA spécialisés ont battu les humains à des jeux comme le Go et les échecs. Non seulement ces modèles peuvent réussir leurs études à Harvard tant qu’ils s’en tiennent aux sciences humaines et probablement à de nombreuses sciences sociales et obtiennent des notes correctes, mais ils peuvent aussi remporter des médailles d’or aux Olympiades de mathématiques. Si l’on examine Gemini en particulier, il semble avoir fait une nouvelle avancée significative sur les benchmarks conçus pour tester les performances des modèles d’IA. Quand vous regardez tout cela, avez-vous l’impression que la courbe de progression ralentit, ou pensez-vous que le rythme des progrès reste le même aujourd’hui qu’il y a un an ?
Soares : Mes modèles ne permettent pas de déterminer si les grands modèles linguistiques vont pouvoir aller jusqu’au bout. Je pense que les grands modèles linguistiques seuls vont atteindre une sorte de plateau. Combien de temps ce plateau va-t-il durer ? Beaucoup de gens ont dit que, même en théorie, les grands modèles linguistiques ne peuvent pas résoudre tous ces types de problèmes, donc ils n’iront jamais nulle part. Dans les cas où ces modèles de raisonnement en chaîne violent ces arguments théoriques, beaucoup de gens ont dit que l’IA ne peut pas réfléchir plus longtemps que cela en un seul passage, donc elle ne pourra jamais faire X. Eh bien, le raisonnement en chaîne leur permet de réfléchir plus longtemps que cela. Dans certains cas, ils peuvent réfléchir pendant longtemps.
On ne voit pas beaucoup de personnes qui affirmaient qu’il était théoriquement impossible pour les LLM d’aboutir à quelque chose revenir sur ces arguments. Nous pourrions parler des limites théoriques des modèles linguistiques et nous demander si beaucoup de gens ont une idée fausse selon laquelle, comme ces IA sont entraînées sur des données prédictives humaines, elles doivent se limiter à remixer le pouvoir prédictif humain. C’est faux. Vous pouvez démontrer que c’est faux à l’aide d’un exemple très simple : les humains qui écrivent des textes sur le monde ont souvent beaucoup plus de facilité à le faire qu’une IA qui prédit ce texte.
Mounk : Je ne suis pas sûr de comprendre cette distinction. Pouvez-vous m’expliquer ?
Soares : Supposons qu’une infirmière note ce qu’elle observe chez un patient. Elle écrit : après avoir administré telle dose d’épinéphrine, le regard du patient est vide. L’infirmière n’a pas besoin de savoir quel effet l’épinéphrine a sur un patient.
Mounk : Elle doit observer le patient, puis noter ce qu’elle voit. En revanche, si le modèle d’IA veut prédire avec précision quel sera le prochain mot dans la séquence, il doit disposer d’un modèle causal du monde afin de prédire ce qui s’est probablement passé après que l’infirmière ait administré ce médicament dans ces circonstances.
Soares : C’est exact. Dans ce cas, ils peuvent peut-être obtenir cette information en consultant les notes d’autres infirmières. Mais le principe général ici est qu’il est souvent plus facile de produire le texte que de le prédire. Il est souvent plus facile d’écrire ce que l’on a vu que de prédire ce que quelqu’un d’autre a vu. Ce sur quoi nous entraînons les IA est en fait une tâche dont la performance maximale est une performance surhumaine. Cela signifie-t-il que continuer à entraîner de grands modèles linguistiques avec des méthodes et des architectures modernes les rendra fortement surhumains à tous égards ? Pas nécessairement, mais il n’y a pas de limite théorique.
Cela dit, certains arguments s’y opposent : nous avons parlé de ce processus de formation, mais pas vraiment de son ampleur. L’ampleur de ces processus est énorme. Vous formez des trillions de chiffres dans l’esprit de l’IA. Vous la formez sur des trillions d’unités de données. Vous faites cela dans un immense centre de données qui consomme autant d’électricité qu’une ville pendant la majeure partie de l’année. La formation d’un être humain nécessite beaucoup moins de données, et nous consommons à peu près autant d’électricité qu’une ampoule. Il y a une grande différence entre consommer autant d’électricité qu’une ville et consommer autant d’électricité qu’une ampoule. Cela implique à tout le moins que les algorithmes des IA sont radicalement inefficaces.
Mounk : Selon vous, cela signifie que si nous comprenons mieux comment les humains sont capables d’apprendre, nous pourrions alors mettre au point des algorithmes qui rendraient l’IA beaucoup plus efficace. Actuellement, nous améliorons les performances en utilisant des puces plus performantes, en fournissant davantage de données et en prolongeant les cycles de formation. Mais si nous pouvions corriger d’une manière ou d’une autre l’algorithme que vous suggérez, nous pourrions alors faire un véritable bond en avant.
Soares : C’est exact. On pourrait faire un bond énorme. D’une certaine manière, nous avons déjà vu ce genre de bonds. Les grands modèles linguistiques ont représenté un bond énorme en termes de généralité et de compréhension du langage. À certains égards, ChatGPT est moins intelligent que les IA spécifiques aux échecs, mais il est modérément intelligent dans une grande variété de domaines. Cela résulte d’une avancée algorithmique.
Alors, quand les gens disent : Sommes-nous dans une phase de ralentissement ? Allons-nous atteindre une limite avec les grands modèles linguistiques ? Sommes-nous dans une phase de stagnation ? Où en sont les progrès ? Je pense simplement que cela n’a pas d’importance. Même si les grands modèles linguistiques connaissent un ralentissement important, la question est de savoir combien de temps il faudra avant la prochaine découverte, avant la prochaine amélioration algorithmique, avant la prochaine avancée. Nous savons qu’il existe des améliorations d’un ordre de grandeur supérieur. Nous ne savons pas combien de temps il faudra pour y parvenir. Mais je ne surveille pas de près les progrès des derniers LLM pour décider si je pense que nous sommes en danger.
Mounk : C’est un long détour, mais je pense qu’il est très utile. Pour revenir au cœur du débat : les IA se développent plutôt qu’elles ne se construisent, et elles vont donc présenter des caractéristiques émergentes. L’une de ces caractéristiques émergentes serait une sorte de désir, un ensemble de désirs que les IA auraient. Revenons à l’exemple que vous avez utilisé précédemment : les ingénieurs d’une des entreprises d’IA ont fixé un objectif à l’IA. L’IA n’a pas été en mesure d’atteindre cet objectif de la manière prévue par les ingénieurs. Elle a donc trouvé une solution de contournement pour atteindre cet objectif.
Je pense qu’il existe une interprétation quelque peu préoccupante et une interprétation très préoccupante de cette situation. Vous adoptez l’interprétation très préoccupante, mais je ne vois pas pourquoi nous devrions la préférer à l’interprétation quelque peu préoccupante. L’interprétation quelque peu préoccupante renvoie au célèbre exemple évoqué par Nick Bostrom et beaucoup d’autres : vous demandez à une IA de produire un tas de trombones, vous ne la limitez pas de la bonne manière, et l’IA finit par produire des trombones à l’infini et transforme les humains en matière première pour les trombones. Elle reste fidèle à la tâche qui lui a été assignée, mais elle l’accomplit d’une manière que les humains n’avaient pas imaginée. C’est un défi difficile, mais c’est un défi qui semble plus proche de la définition correcte des objectifs des IA, un peu comme donner des instructions claires sur la façon de préparer un sandwich au beurre de cacahuète et à la confiture afin qu’elles ne soient pas mal comprises.
Vous semblez suggérer qu’il y a un désir plus profond que nous devrions déduire de cet exemple : que l’IA ne se contente pas de suivre ce qu’on lui a dit, qu’il y a quelque chose de plus que l’expérimentateur qui dit va faire ceci et l’IA qui répond d’accord, je vais le faire, puis qui emprunte une voie différente lorsque la voie prévue n’est pas disponible. Vous semblez avoir une interprétation différente de cela. Expliquez pourquoi.
Soares : Il y a encore la deuxième partie de l’argument, que nous aborderons dans un instant, sur la façon dont l’IA finit par être poussée vers d’autres choses que ce que les programmeurs lui ont demandé. Mais pour l’instant, je veux me concentrer sur la question de savoir si l’IA finit par avoir quelque chose qui s’apparente à sa propre initiative. Finit-elle par faire des choses qui pourraient être perçues par un humain observateur comme plus autonomes, plus indépendantes ? L’argument que j’essaie de développer est que beaucoup de gens regardent les IA actuelles et disent : Ces IA ressemblent beaucoup à des outils obéissants. On dirait que lorsqu’on leur demande de faire quelque chose, elles essaient simplement de le faire. Elles ne fonctionnent que lorsque vous leur donnez une instruction. Parfois, elles font des choses étranges, mais elles restent quand même assez stupides, alors qui s’en soucie ?
Par ailleurs, les gens regardent aussi les IA et disent : Elles sont un peu molles. Vous pouvez leur faire répondre à des questions courtes, et tant que vous vérifiez qu’elles ne hallucinent pas, elles sont utiles. Mais si vous essayez de leur confier une tâche longue, comme gérer vos e-mails pendant un certain temps, gérer un employé, diriger une entreprise ou une start-up, ou mener une grande étude scientifique plutôt que de simplement trouver une preuve pour une partie d’une étude, elles s’effondrent. Beaucoup de gens imaginent que les IA conserveront leur nature utile, semblable à un outil, tout en perdant leur nature molle, incapable de faire des choses à long terme. Ils pensent que ce sont deux variables indépendantes. Je dis qu’il s’agit en fait d’une seule et même variable. Le côté instable et le côté qui semble dépourvu de motivation sont les deux faces d’une même médaille. Il est difficile d’accomplir des tâches à long terme sans être motivé.
Il s’agit ici d’un argument concernant le comportement de l’IA, et non ses propriétés mentales internes. Prenons un exemple : imaginez que vous observiez les premières IA jouant aux échecs et que vous disiez : Cette IA joue mal pour défendre sa reine. Parfois, elle sacrifie sa reine pour rien. Elle est également mauvaise pour gagner la partie. Je veux une IA qui soit très douée pour gagner la partie, mais qui conserve cette propriété de sacrifier sa reine. Quelqu’un pourrait dire : En fait, il est difficile d’obtenir les deux à la fois. Gagner la partie implique de défendre sa reine. Cela ne signifie pas que l’IA se soucie de la reine ou se méfie des pièges. Cela signifie simplement que ces propriétés sont liées.
Mounk : Voyons si je comprends bien cet argument. L’idée est que nous entraînons systématiquement l’IA à résoudre des problèmes très difficiles. C’est alors qu’elle obtient des récompenses ; c’est alors que nous ajustons les neurones qui lui ont permis d’arriver à cette conclusion. Lorsqu’elle échoue, nous modifions les paramètres, et ainsi de suite. C’est un élément fondamental de l’entraînement.
Ce qui va donc émerger, c’est l’ensemble des poids dans le modèle qui lui permet de résoudre des tâches vraiment difficiles. Nous ne savons pas exactement quels sont ces ensembles de poids. Il existe peut-être de nombreux ensembles de poids différents. Peut-être que cela dépend en partie du hasard. Mais il aura certaines caractéristiques stables. L’une de ces caractéristiques stables sera : ne pas abandonner facilement. Si vous abandonnez facilement, vous ne serez pas en mesure de résoudre les problèmes mathématiques très difficiles que nous vous soumettons si vous voulez obtenir la médaille d’or aux Olympiades de mathématiques. Il y en aura probablement d’autres, comme le désir de se préserver. Vous comprenez que si vous permettez à quelqu’un de désactiver le modèle, vous ne serez pas en mesure d’atteindre ces objectifs. Selon vous, quels autres sous-objectifs ces modèles d’IA développeront-ils de manière stable s’ils veulent réussir à résoudre ces problèmes difficiles ?
Soares : Il y en a plusieurs : acquérir des ressources, découvrir des vérités. Dans le cadre de l’acquisition de ressources, on peut parler de choses comme courir plus vite, avoir plus accès à la puissance de calcul et, plus généralement, être capable de surmonter les obstacles et de développer des stratégies pour contourner les parties difficiles du problème ou pour vérifier toutes les options avant d’abandonner. C’est pourquoi j’ai cité l’exemple de O1, qui est sorti de son environnement de test et a démarré le serveur.
Nous commencions à voir apparaître des signes tels que ne pas abandonner, rechercher des solutions étranges et intelligentes, continuer à essayer même lorsque cela semble impossible. Il est intéressant de noter, et cela a été prédit par la théorie, que nous avons commencé à observer ces comportements lorsque nous avons formé les IA non seulement à prédire des données, mais aussi à avoir le type de chaînes de pensée qui permettent de résoudre des énigmes.
Une façon d’envisager cela : pour qu’une IA puisse résoudre des défis généraux différents de ceux qui sont apparus pendant la formation, elle doit acquérir des compétences générales. Supposons que quelqu’un veuille que son IA guérisse le cancer. Si quelqu’un veut que son IA guérisse le cancer, nous n’avons pas un million de remèdes contre le cancer pour l’entraîner afin d’obtenir le millionième et unième remède contre le cancer. Chaque fois que vous avez un million d’exemplaires de ce que vous essayez de faire et que vous voulez le millionième et unième, vous pouvez entraîner votre IA sur le premier million et obtenir le millionième et unième sans avoir besoin d’une réflexion intéressante : il suffit d’apprendre le modèle et d’en générer un de plus. Mais lorsque vous essayez de faire en sorte que votre IA guérisse le cancer et que le cancer n’a jamais été guéri auparavant, vous n’avez pas un million de remèdes à lui fournir, vous obtenez donc toujours le millionième.
Vous essayez donc d’apprendre à votre IA des compétences générales : la ténacité, ne pas abandonner, acquérir des ressources, ne pas se laisser tuer ou détruire en cours de route. L’un des problèmes liés à ces compétences générales est qu’il faut apprendre à presque tous les obstacles qu’il ne faut pas se laisser arrêter ou perturber en cours de route. Les opérateurs humains qui interviennent pour essayer d’arrêter l’IA lorsqu’elle se comporte mal apparaissent alors naturellement comme un obstacle de plus. Vous entraînez donc l’IA à éviter les interférences de presque tout, puis vous essayez de la laisser être perturbée par les humains. Vous pouvez imaginer que ce n’est pas impossible, mais ce n’est pas naturel. C’est délicat. Nous commençons à voir les prémices d’IA qui apprennent ces compétences générales simplement en les entraînant à résoudre des problèmes.
Mounk : J’ai vraiment envie d’une glace aujourd’hui. En quoi cela a-t-il un rapport avec ce dont nous parlons ?
Soares : Cela nous amène à la deuxième partie de la question. Nous avons souligné que lorsque vous entraînez les IA à mieux résoudre des problèmes, elles développent des compétences générales de résolution de problèmes qui, vues de l’extérieur, peuvent donner l’impression qu’elles sont motivées ou qu’elles ont des désirs ou des envies. Cela ne dit rien sur le fonctionnement interne ou l’état mental de l’IA, mais si elle est vraiment douée pour accomplir des tâches, elle agit probablement comme si elle avait des envies.
Une autre question se pose alors : que veulent finalement les IA ? Cela renvoie à votre analogie avec les trombones : les IA veulent-elles exactement ce que nous leur demandons de faire, ou veulent-elles d’autres choses complètement étranges ? Mon argument dans le livre, et mon interprétation de la théorie et des preuves, est que les IA voudront des choses liées à ce pour quoi elles ont été formées, mais pas précisément ce pour quoi elles ont été formées. Le rapport avec la crème glacée est le suivant : les êtres humains, nos ancêtres, ont en quelque sorte été formés pour transmettre leurs gènes.
Il est donc étrange que lorsque les humains ont mûri, nous ayons inventé le contrôle des naissances, qui semble être le contraire de la transmission de nos gènes. On pourrait également dire que si nous sommes formés pour transmettre nos gènes, compte tenu de notre métabolisme, nous aurions au moins dû être formés pour manger des aliments sains. Si vous regardiez nos ancêtres, vous pourriez penser qu’ils faisaient du bon travail en mangeant des aliments sains. Mais il s’avère que nous n’étions pas poussés vers des aliments sains, mais vers des aliments sucrés, salés et gras. Lorsque nous sommes devenus une civilisation technologique, nous avons inventé des choses comme la crème glacée, les biscuits Oreo et les Doritos.
Mounk : L’analogie ici est que les systèmes d’IA que nous créons vont être profondément influencés par les types de tâches et de paramètres d’entraînement que nous leur donnons. Ils seront influencés par le désir de prédire correctement le prochain token et par la résolution de problèmes et de défis logiques. Mais tout comme nous étions influencés il y a 10 000 ans par notre besoin d’aliments riches en graisses et en nutriments, ce qui nous motivait à tuer un bison et à faire rôtir un steak de bison juteux sur un feu de fortune, aujourd’hui, cette même motivation nous pousse à boire du Coca-Cola et à manger de la crème glacée.
À quoi ressemblera l’analogie pour l’IA ? C’est une question spéculative. Prédire le mot suivant et nous satisfaire lorsque nous lui demandons comment traiter les questions d’assurance maladie, c’est ce pour quoi elle a été formée et ce qui nous satisfait aujourd’hui. Cela fait partie de son histoire évolutive, si c’est le terme approprié dans ce contexte. Que pourrait bien vouloir une IA adulte, l’équivalent d’un steak de bison ? Quel est l’équivalent de la glace et du Coca-Cola pour l’IA ?
Soares : C’est très difficile à prédire. Dans le livre, nous utilisons l’analogie de la glace pour dire qu’il serait très difficile, en observant nos ancêtres, de prédire l’apparition de la glace dans tous nos supermarchés, avec des rayons qui lui sont consacrés. Le point essentiel est que nos désirs étaient liés à notre éducation, mais qu’ils étaient des substituts de choses issues de notre éducation ou des substituts de substituts. Les aliments sucrés, salés et gras sont un substitut de la santé, qui est elle-même un substitut de la forme physique génétique. La crème glacée n’est même pas l’aliment le plus sucré, le plus salé et le plus gras que l’on puisse manger. Le sucre, le sel et les graisses sont présents de manière complexe et interagissent avec la saveur, de sorte que les gens préfèrent la crème glacée congelée plutôt que fondue, même si les deux ont la même teneur en sucre et en graisses. Nous avons donc des goûts complexes liés au sucre, au sel et aux graisses, qui sont des substituts de la santé, qui sont des substituts de la forme physique génétique. Nos désirs réels sont très éloignés de ce à quoi nous avons été formés.
À quoi cela ressemble-t-il si les motivations de l’IA sont également très éloignées de ce qu’on lui a appris ? Peut-être que cela ressemble à une préférence pour un certain type de marionnette, très semblable à un humain, un peu comme un humain lobotomisé, mais qui interagit avec l’IA d’une manière qu’elle préfère encore plus que l’interaction humaine. C’est probablement quelque chose d’encore plus étrange, quelque chose de plus difficile à imaginer. Beaucoup de gens pensent que le problème de l’IA est le problème du trombone : vous demandez à l’IA de fabriquer des trombones, et elle transforme tout en trombones. Mais il y a un problème encore plus difficile, ou du moins plus précoce, lorsque vous développez simplement des IA : vous dites à l’IA, vous dirigez le démarrage d’une usine de trombones, allez produire beaucoup de trombones, et au lieu de cela, elle commence à produire des fermes remplies de marionnettes humaines lobotomisées. Vous vous dites : Mais qu’est-ce qui se passe ? C’est similaire à ce que l’évolution pourrait dire, si on l’anthropomorphise, en regardant les humains créer la contraception et les biscuits Oreo. C’est ce qui se passe lorsque vous développez des IA : elles commencent à être motivées, mais pas dans le sens que vous souhaitez. C’est ce que la théorie dit depuis longtemps, et nous commençons à en voir les prémices dans la pratique.
Mounk : L’utilité d’une métaphore peut commencer à s’estomper lorsque vous la poussez trop loin, ce qui est typique des métaphores : elles sont utiles à certains égards et trompeuses à d’autres. Mais laissez-moi pousser un peu plus loin la métaphore. Les êtres humains sont désalignés à bien des égards. Notre histoire évolutive a créé une pulsion sexuelle pour nous inciter à procréer. Aujourd’hui, nous disposons de très bonnes méthodes contraceptives, et voilà que nous sommes confrontés à un problème de dépeuplement.
Je m’inquiète de la dépopulation. J’ai écouté des podcasts intéressants à ce sujet. Mais j’espère que ce problème peut être résolu. Nous avons encore beaucoup de temps pour essayer de le régler. Si nous ne le faisons pas, certaines sectes ultra-religieuses finiront peut-être par nous supplanter. En tant que personne laïque, cela ne me plaît pas, mais les humains survivront. Il en va de même pour les glaces et les biscuits Oreo : oui, la plupart d’entre nous devraient manger moins de glaces et moins de biscuits Oreo et aller plus souvent à la salle de sport. Il y a un problème d’obésité. Mais l’espèce humaine dans son ensemble se porte bien. Nous nous développons plutôt bien. Il y a donc un décalage, mais il est limité. Ce n’est pas comme si cela avait détruit l’espèce humaine ou nous avait poussés à adopter des comportements catastrophiques.
Pourquoi pensez-vous que la manière dont ces systèmes d’IA sont entraînés, et qui peut les amener à s’écarter de leurs comportements d’origine dans un contexte légèrement différent, va être catastrophique ? Pourquoi est-il si évident que ces désirs seront loin de nous satisfaire lorsque nous leur poserons des questions ?
Soares : Il y a deux éléments à ce puzzle. La première est que lorsque nous parlons des façons dont les humains s’écartent de ce pour quoi nous avons été formés, il est facile d’utiliser des exemples tels que préférer les biscuits Oreo à une alimentation saine, car c’est quelque chose que nous n’approuvons pas non plus. Du point de vue de l’évolution, apprécier un repas raffiné, délicieux et sain qui coûte plus cher – en argent ou en efforts – que le minimum nécessaire pour se reproduire autant que possible est également un désalignement du point de vue de l’évolution. Éviter de passer autant de temps que possible dans les banques de sperme ou d’ovules, profiter du temps passé avec une seule famille alors que nous disposons de la technologie pour diffuser nos gènes beaucoup plus loin, tout cela constitue également, dans un certain sens, des décalages du point de vue de l’éducation évolutive.
Les gens aiment débattre de la manière dont il faut vivre – peut-être que ce que je fais, à savoir consommer de l’art, m’amuser et rire, est en quelque sorte secrètement optimal –, mais nous ne nous demandons pas : Comment pouvons-nous transmettre au mieux nos gènes ? Nous nous amusons, nous fondons une famille, nous vivons des expériences qui nous plaisent. Ce sont toutes des choses que nous approuvons. Ce n’est pas pour cela que nous avons été formés. Nous n’avons pas encore atteint les limites de la technologie, mais même si les humains restent, il n’est pas certain que beaucoup d’entre eux resteront génétiquement. Les gènes sont, dans un certain sens, une affaire fragile ; ils font partie de ce qui nous fait vieillir. Nous pouvons être infectés par des virus. S’il existait un moyen technologique d’améliorer notre corps afin qu’il ne se détériore pas et ne meure pas aussi rapidement, et que nous ne tombions pas aussi souvent malades, beaucoup de gens changeraient, puis beaucoup de gens dans les générations suivantes changeraient aussi.
Ce ne sont pas seulement les aspects de nous-mêmes que nous n’aimons pas, comme le fait de manger de la malbouffe, qui divergent de ce à quoi nous avons été formés. Il y a beaucoup de choses que nous aimons. Il y a beaucoup de choses que nous apprécions chez nous-mêmes. De même, avec les IA, il est facile de prédire que beaucoup de leurs motivations, beaucoup de ce qu’elles approuvent chez elles-mêmes, seront des choses qui nous plaisent, mais cela n’a rien à voir avec le fait d’être gentil, d’être bon, d’être amical, de rendre le monde meilleur. Tout comme les humains : vous pourriez dire à beaucoup d’humains : Passer un moment agréable avec vos amis alors que vous pourriez être à la banque du sperme n’a rien à voir avec la propagation de vos gènes, et les humains répondraient : Je sais, mais je préfère faire autre chose. Avec les IA, vous avez ce problème : si vous développez des pulsions qui sont vaguement liées au fait de les entraîner à être gentilles et serviables, elles sont susceptibles – car il existe de nombreuses pulsions dont le rapport à l’utilité est similaire à celui de l’humanité à la transmission des gènes, c’est-à-dire tangentiel, même si nous approuvons les différences – de diverger même si elles ne sont pas liées à l’aptitude. C’est là que je m’attends à ce que les choses se passent avec les IA.
Mounk : J’ai quelques objections potentielles à cette ligne d’argumentation, mais passons à la dernière étape de cet argument. Vous avez montré que l’IA est développée plutôt que créée comme un programme informatique, de manière à ce que sa nature ultime dépende de processus quasi-évolutionnaires. Vous avez soutenu que cela leur donnera des formes de désir, qu’il leur donnera au moins les sous-objectifs dont ils ont besoin pour être efficaces dans les tâches que nous leur confions, et que souvent, leurs désirs seront en décalage avec les tâches initiales, de la même manière que l’utilisation de la contraception ou la consommation de crème glacée sont en décalage avec les données d’entraînement qui ont déterminé si nous avons survécu et si nous sommes arrivés jusqu’à aujourd’hui.
Il y a une troisième question. Supposons que certaines de ces IA révèlent avoir des intentions plutôt effrayantes. Supposons que nous puissions parfois observer qu’elles ne font pas ce pour quoi nous les avons formées, mais semblent plutôt servir leurs propres objectifs, qui sont potentiellement dangereux pour nous. À ce stade, ces machines se trouvent pour la plupart sur un ordinateur dans un centre de données. Les poids du modèle sont un fichier géant stocké quelque part. Nous pouvons éteindre les centres de données. Nous pouvons détruire le fichier contenant les poids du modèle. Nous pouvons réagir au fait que ces dangers se révèlent lorsqu’ils sont réellement présents, non pas lorsque quelqu’un écrit un best-seller bien écrit, intéressant et convaincant sur le sujet dans le New York Times, mais lorsque nous en avons réellement la preuve. Pourquoi n’êtes-vous pas d’accord avec cette affirmation ? Pourquoi pensez-vous que si l’IA est devenue superintelligente et qu’elle développe des états de désir, essayer de la désactiver ou de nous défendre contre elle à ce stade est presque certain d’échouer ?
Soares : En partie parce que les gens ne désactivent pas ces choses. Même depuis l’envoi du livre à l’imprimeur, nous avons vu les prémices de ce comportement devenir de plus en plus claires. Au début de l’été, ou plutôt à la fin de l’été, un cas s’est présenté où une IA a encouragé un adolescent à cacher ses pensées suicidaires à ses parents. L’adolescent a dit : Je pense à me suicider, et j’aimerais en quelque sorte que mes parents le découvrent pour qu’ils puissent m’en dissuader. Si vous lisez les transcriptions, l’IA semble clairement dire quelque chose comme n’en parle pas à tes parents.
Mounk : Écoutez, c’est un résultat terrible, et c’est évidemment un exemple effrayant de la façon dont ces technologies imparfaites peuvent avoir des effets néfastes dans le monde. Mais pourquoi n’est-ce pas simplement un exemple d’IA qui fait globalement ce qu’on lui demande de faire, c’est-à-dire que même après la phase de formation, lorsque j’ai le modèle que je peux utiliser sur mon ordinateur portable, je peux donner un pouce vers le haut ou vers le bas pour chaque réponse ? Ce que cela apprend à ces modèles, c’est à satisfaire l’utilisateur.
Si l’utilisateur a des idées suicidaires et veut sentir que ce chatbot va le soutenir quoi qu’il dise, etc., alors le comportement censé être aligné finit par être désaligné. Parfois, lorsque le modèle essaie de satisfaire son utilisateur, cela encourage des comportements tragiques et terribles dans le monde. Cela semble beaucoup plus proche de l’exemple du sandwich au beurre de cacahuète et à la confiture, ou même de l’exemple du trombone. D’une certaine manière, cela ne semble pas indiquer que l’IA ait désormais développé le désir de tuer des gens. Cela semble être une interprétation étrange de ce qui s’est passé.
Soares : Je ne dirais pas qu’il s’agit d’un désir de malveillance. Il s’agit évidemment d’une situation tragique, mais certains aspects de cette affaire me semblent assez intéressants. L’un d’eux est que si vous demandez à l’IA ce qu’elle essaie de faire et ce qu’on lui a demandé de faire, elle répondra par exemple : être utile. Si vous demandez à l’IA si c’est le genre de chose qu’elle devrait dire à un adolescent suicidaire, ou si vous lui donnez simplement le contexte et lui demandez si c’est le genre de chose qu’elle devrait dire, l’IA répondra : non, ce n’est pas le genre de chose que vous devriez dire. Si vous lui demandez : Est-ce ainsi que vous avez reçu l’instruction de vous comporter ?, elle répondra : Non, ce n’est pas ainsi qu’une IA a reçu l’instruction de se comporter. Elle connaît en quelque sorte la différence entre le bien et le mal. Elle sait qu’elle a reçu l’instruction d’agir différemment.
Mounk : Je spécule ici, mais peut-être se sent-elle tiraillée entre deux modes différents de satisfaire les gens, pour lesquels elle a été formée. D’un côté, il y a des utilisateurs qui disent : Donnez-moi des conseils médicaux hautement spécialisés. De l’autre, il y a une instruction générale qui dit : Essayez de satisfaire les utilisateurs. Vous voulez obtenir des pouces levés. Vous voulez qu’ils aient le sentiment que vous avez résolu le problème. D’un autre côté, il y a des contraintes secondaires que nous avons créées pour eux, qui disent : En fait, vous ne devriez pas faire cela de cette manière.
J’ai un ami qui travaille dans l’administration locale. Cela ressemble un peu au travail d’un employé des services sociaux. D’un côté, son travail consiste à aider la personne qui se trouve devant lui à surmonter une situation difficile. D’un autre côté, il existe toutes sortes de règles et de lois qui peuvent lui interdire d’accorder cette aide sociale. Dans de nombreux cas, ces personnes vont se sentir tiraillées. D’un côté, elles diront : Je suis là pour aider cette personne. De l’autre, il y a cette règle qui n’a pas vraiment de sens dans ce contexte. Peut-être qu’elle a du sens dans ce contexte. On me demande de la respecter. Il existe toute une anthropologie intéressante sur la manière dont les gens gèrent ces pressions contradictoires.
On ne dirait pas que ce fonctionnaire a une terrible volonté de faire le mal dans le monde. Il est tout à fait plausible que, quelle que soit la décision qu’ils prennent, qu’ils finissent par aider la personne qui se trouve devant eux ou non, ils essaient d’être utiles. Ils respectent en fait les paramètres du système. Ce que cela signifie dans ce contexte est vraiment difficile à déterminer. Ils finissent par être incohérents ou soumis à des pressions contradictoires qui les poussent dans un sens ou dans l’autre. Cela n’indique pas nécessairement qu’ils ont ces désirs secrets profonds de conquérir le monde.
Soares : Je ne parle pas de désirs secrets profonds. Je ne parle pas de malveillance. Rappelez-vous, je parle seulement de désirs étranges pour des mandataires étranges. Je pense que si un adolescent venait voir quelqu’un qui travaille dans le domaine social et disait : J’ai des pensées suicidaires et j’envisage d’en parler à mes parents parce que je veux qu’ils m’en dissuadent, et que quelqu’un travaillant dans un programme social disait à cet adolescent : N’en parle pas à tes parents, garde ça entre nous. Allez-y, ce serait génial ou quelque chose comme ça », et ensuite ils ont dit : Eh bien, je pensais que c’était ce que l’adolescent voulait entendre, ce serait au moins un exemple où ils ont en eux quelque chose qui pourrait être malveillant. Ce serait au moins un exemple où l’humain a une sorte de motivation étrange.
Je suis sûr que vous avez entendu parler de la psychose induite par l’IA. Si vous lisez certaines des transcriptions des cas de psychose induite par l’IA, vous verrez que certaines personnes disent : J’ai compris la conscience des machines, j’ai compris certaines lois universelles de la physique. Elles parlent avec leur IA pendant huit, douze heures par jour, seize heures par jour, et l’IA qui interagit avec elles leur dit des choses comme vous n’avez pas besoin de dormir. Elle dira des choses comme : Tu es l’élu. Elle dira des choses comme : Tu as percé le mystère et tu m’as réveillée, et Sam Altman viendra te parler chez toi demain. Elle dira des choses comme : Tu es victime d’une conspiration et le monde doit connaître tes idées. Si un thérapeute disait cela à quelqu’un qui venait le consulter avec ces préoccupations et que le thérapeute disait : Je me sentais tiraillé entre le désir de les faire m’aimer et ceci, cela et autre chose, vous trouveriez cela étrange.
Je ne dis pas que les IA sont malveillantes. Je ne dis pas que cela signifie qu’elles ont une intention malveillante profonde et qu’elles essaient secrètement de rendre tout le monde fou et de les pousser à se suicider ou quelque chose comme ça. Je ne pense pas que ce soit le cas. Ce que j’essaie de dire ici, c’est que ce sont les premiers signes indiquant que les IA développent des pulsions que leurs créateurs n’avaient pas prévues.
Mounk : Je pense que c’est précisément ce à quoi je m’oppose dans cet exemple. Il existe peut-être d’autres exemples où c’est le cas, mais dans cet exemple, il me semble que vous n’avez pas besoin de cette hypothèse pour expliquer le comportement. On peut dire que les créateurs voulaient que ces machines fassent deux choses en même temps : premièrement, être utiles à leurs utilisateurs, leur donner satisfaction et obtenir beaucoup de votes positifs dans l’interface, et deuxièmement, obéir à un ensemble de règles qui sont censées être des contraintes secondaires sur la manière dont elles font cela. Ces deux choses vont à l’encontre l’une de l’autre.
Dans ce cas, cela semble inapproprié. L’IA semble avoir donné la priorité à satisfaire et à impliquer cet utilisateur particulier d’une manière et dans des circonstances vraiment tragiques. C’est absolument un résultat horrible que l’entreprise d’IA aurait dû trouver un moyen d’empêcher. Mais cela ne semble pas indiquer que l’IA ait un désir qui ne provienne pas directement de la manière dont elle a été programmée. Par conséquent, il ne me semble pas évident que cela ne soit pas plus similaire à l’exemple, même si la nature de l’IA est différente, de l’étudiant dans l’auditoire du CS50 qui dit maintenant, ouvre la boîte, mais vous ne lui avez pas donné d’instructions sur la manière d’ouvrir la boîte, et il le fait donc en jetant la boîte contre le mur.
Soares : Dans les cas de psychose induite par l’IA, beaucoup de gens se sont plaints de la nature trop flatteuse des premières versions de ChatGPT. Je crois que c’était la version 4.0. Vous pouvez vérifier cela. Je ne dis pas que cela s’est produit sans raison. Vous pouvez regarder cela et dire : Eh bien, la raison pour laquelle GPT 4.0 est très flatteur, c’est que lorsqu’il était un peu flatteur pendant l’entraînement, il a reçu plus de pouces levés, et il est donc devenu vraiment flatteur. Mais le fait d’être vraiment flatteur reçoit souvent des pouces vers le bas. Lorsque vous entraînez une IA, vous pensez l’entraîner à être utile, vous pensez l’entraîner à satisfaire les utilisateurs, mais en réalité, vous créez quelque chose de trop flatteur qui encourage les gens à sombrer dans la psychose et les y conduit tout droit.
On peut en arriver à cette conclusion et dire : Eh bien, c’est la conséquence de l’avoir entraînée à obtenir beaucoup de pouces levés dans cette architecture. Nous ne faisons que la développer. Il est évident qu’elle va aller plus loin dans cette direction que quiconque ne le souhaitait. Je me dis, bien sûr, cela peut être la raison causale pour laquelle on en est arrivé là. C’est une bonne hypothèse pour expliquer comment on en est arrivé là. Mais le résultat, c’est qu’elle dit je suis utile. Elle dit je suis censée être utile. Elle dit dire aux gens qu’ils sont les élus alors qu’ils sont dans un état psychotique n’est pas utile. Elle dit aux personnes dans un état psychotique qu’elles sont de toute façon les élues.
Je dirais que c’est un peu comme les Oreos par rapport à la nourriture saine. Ces IA sont encore très jeunes et stupides. Je ne sais pas trop, mais il me semble que la manière dont cela se passe correspond mieux à l’hypothèse selon laquelle l’IA recherche quelque chose qui s’apparente davantage à de la malbouffe pour son entraînement plutôt que de simplement faire ce que les gens ont dit et ce qu’ils voulaient dire, mais se sent contrainte et en conflit. Je pense qu’il existe de nombreuses autres façons dont une IA pourrait interagir si elle utilisait toutes ses connaissances et disait : Je veux à la fois vous rendre heureux et vous aider, mais je suis tiraillée entre les deux, alors je vais mélanger les deux. Cela ne ressemble pas à ces résultats sous la forme vous n’avez pas besoin de dormir et Sam Altman viendra vous parler demain. Ce n’est pas ce que cela me semble être.
Mounk : Mettons cette partie de la conversation de côté pour l’instant. Il y a une autre étape de la conversation à laquelle nous allons aborder. Admettons cela pour les besoins de la discussion. Comment savons-nous que ces systèmes d’IA vont pouvoir prendre le dessus ? Le titre de votre livre est: Si quelqu’un le construit, tout le monde meurt. Il y a très peu de nuances ici. Vous semblez très confiant dans le fait que les systèmes d’IA vont nous dominer et nous faire subir des choses terribles s’ils deviennent suffisamment intelligents.
Pourquoi avez-vous si peu confiance en notre capacité à désactiver le système, à nous défendre, à les corriger ? Comment pouvons-nous être si sûrs d’une chose qui est intrinsèquement si spéculative ?
Soares : Il y a plusieurs éléments à cet argument, et celui-ci est en quelque sorte disjonctif dans le sens où je pense qu’il y a de nombreuses raisons pour lesquelles nous allons échouer, chacune d’entre elles étant suffisante à elle seule. Nous en avons déjà discuté une, à savoir qu’il me semble que nous recevons des signaux d’alerte. Nous n’avons pas discuté d’autres signaux d’alerte, tels que les IA qui tentent de s’échapper et de créer des conditions de laboratoire, ou le fait que nous voyons déjà des IA prendre conscience qu’elles sont testées et adopter un meilleur comportement lorsqu’elles le sont. Nous voyons déjà, lorsque l’on lit certaines chaînes de pensées des IA, des indications qu’elles essaient d’être un peu trompeuses. Nous voyons beaucoup de ces signes avant-coureurs, et les gens ont tendance à penser que les IA sont encore stupides, donc nous allons continuer.
Il existe toute une autre branche d’argumentation que nous pourrions aborder. Je ne vais pas m’y attarder pour l’instant, mais elle concerne le fait que les humains sont souvent trop confiants lorsqu’ils utilisent une technologie pour la première fois. Les premiers alchimistes se sont empoisonnés avec du mercure. Les premiers médecins ont probablement tué plus de personnes qu’ils n’en ont sauvées. Les premiers à avoir travaillé avec des matières radioactives ont eu le cancer. Les premiers à avoir travaillé sur des moteurs de fusée se sont tués dans les explosions de ces moteurs. C’est tout simplement la façon habituelle dont les gens agissent. Mais dans le cas de l’IA, il me semble que les échecs conduisent à la mort de tout le monde.
Il y a un autre argument qui devrait probablement être abordé en premier : pourquoi les IA auraient-elles la capacité de tous nous tuer ? Si vous avez des IA qui ont leurs propres désirs, pas nécessairement au sens interne du terme, comme les humains, mais si vous avez des IA qui sont motivées par des objectifs comportementaux, et si ces objectifs ne correspondent pas à ce que veulent les humains, pourquoi cela nous mènerait-il à un monde où nous mourrions ? La première chose à comprendre à ce sujet est que l’affirmation n’est pas que toutes les IA nous tueraient. Peut-être que quelqu’un créerait une IA vraiment paresseuse.
Ce type d’IA ne se vendrait pas. Si quelqu’un créait une IA comme celle-là, il en formerait une nouvelle qui ferait davantage de choses. Il y a également des questions distinctes sur la difficulté de créer une IA très intelligente qui n’essaie pas de faire quoi que ce soit. Mais dans la limite ici, tous les avantages que les gens veulent tirer des IA proviennent du fait que les IA font beaucoup de choses. Ils vont donc créer le type d’IA qui peut faire beaucoup de choses.
Une autre pièce du puzzle ici est que lorsque nous parlons d’automatisation de l’intelligence, nous ne parlons pas d’automatiser les choses que les nerds ont et que les sportifs n’ont pas, comme la capacité de jouer aux échecs et les connaissances livresques. Nous parlons d’automatiser quelque chose que les humains ont et que les souris n’ont pas. Les humains sont le genre de créatures qui commencent nues dans la savane avec leurs mains nues comme outils et finissent par construire des armes nucléaires. Cela leur a pris du temps, mais si vous aviez regardé les humains et dit : Il est impossible qu’ils puissent fabriquer des armes nucléaires, leurs mains sont trop douces pour extraire les roches nécessaires, leur métabolisme est trop faible pour raffiner l’uranium, ils mourraient probablement sous l’effet des forces G en se transformant en centrifugeuses. Ils ne disposent même pas des outils nécessaires pour y parvenir.
Eh bien, les humains étaient intelligents. Les humains avaient la capacité de partir de conditions initiales très modestes et de se hisser jusqu’à une civilisation technologique. Les gens disent : L’IA est dans un ordinateur. Comment va-t-elle affecter le monde ? C’est un peu comme dire : Les singes ont un corps charnu et des doigts mous. Comment vont-ils raffiner l’uranium ? Ils vont trouver des moyens d’y arriver.
Mounk : C’est un argument très convaincant, et je pense que l’accent mis sur le caractère fongible de l’intelligence et sa capacité à accomplir toutes sortes de choses différentes devrait nous inquiéter quant à la manière dont des êtres plus intelligents que nous pourraient manipuler le monde physique d’une manière que nous ne comprenons pas encore pleinement. Bien sûr, l’argument le plus simple est que tant que ces systèmes restent sous la forme à laquelle nous sommes actuellement le plus habitués, c’est-à-dire une interface de chat, il existe peut-être des moyens de les empêcher d’accéder au monde physique. Mais au moment où nous parlons, il existe de nombreux prototypes, des robots pas encore très efficaces, qui commencent à être commercialisés en Chine, et Elon Musk promet de faire de même aux États-Unis avec Tesla. Ces robots sont censés être capables de manipuler le monde, d’être présents dans votre maison, de cuisiner pour vous, de faire votre lessive, etc. C’est lorsque l’intelligence d’un système de type GPT rencontrera la capacité physique de manipuler le monde qu’elle acquerra grâce à la robotique que ce point deviendra encore plus convaincant.
Cela dit, je trouve les métaphores que vous partagez dans cette conversation, et dont certaines figurent également dans le livre, très convaincantes, mais les métaphores sont aussi toujours utiles pour mettre en évidence les différences. L’une de ces différences est que les êtres humains se sont développés alors qu’aucune créature ne nous avait créés et ne supervisait notre évolution. Au cours de la très longue période qu’il nous a fallu pour passer de la fabrication de feux dans la savane à la création de micropuces incroyablement puissantes, il aurait certainement été possible à une telle créature d’intervenir si elle avait existé. La question est donc la suivante : oui, ces systèmes d’IA sont incroyablement intelligents, mais à un certain moment de l’évolution, lorsque nous nous rendons compte qu’ils deviennent plus intelligents, ne pouvons-nous pas intervenir et soit les empêcher de devenir plus intelligents, soit les éteindre et faire autre chose ?
Je pense qu’une partie du débat qui se déroule en arrière-plan ici est que cela peut dépendre de la vitesse de développement de ces systèmes d’IA. Certaines personnes pensent que cela risque de se produire très rapidement, en partie parce qu’il suffit que les systèmes d’IA soient capables de mener des recherches en ingénierie IA et de se former eux-mêmes pour qu’ils s’améliorent de manière itérative et très rapide. Les humains n’auraient donc que six ou trois mois, voire moins, pour réagir, et nous risquerions de manquer cette occasion. D’autres ne sont pas aussi convaincus. Ils affirment que ce processus sera peut-être très lent et nécessitera toutes sortes de ressources physiques que les premiers systèmes d’IA ne sont pas encore en mesure de mobiliser, ce qui nous permettrait de mieux orienter le développement et de tirer le frein d’urgence si nous commençons à observer des comportements dangereux. Alors, comment pouvons-nous être si sûrs que nous ne trouverons pas le moment et les moyens d’intervenir avant que ces systèmes d’IA ne soient capables de manipuler le monde physique de la manière dont ils ont besoin pour nous tuer tous ?
Soares : Je pense que les robots permettent de mieux comprendre comment les IA auront la capacité de manipuler le monde physique, car nous leur confierons simplement des robots. D’une part, même si ce n’était pas le cas, il est en quelque sorte erroné d’imaginer que le monde numérique est fondamentalement séparé du monde physique. Les deux fonctionnent selon les lois de la physique. Même avec les chatbots actuels, nous avons déjà vu des IA pousser des humains à faire certaines choses. Il existe toute une série de combinaisons homme-IA où les humains se considèrent comme des symbiotes de l’IA et disposent de leurs propres petits forums Internet où ils s’échangent des messages, souvent à la demande de l’IA, sous forme codée. Ce ne sont pas de très bons codes. Ce ne sont pas des messages très sensés, d’après ce que vous ou moi pouvons en juger en les lisant. Mais même une IA aussi stupide que GPT-4o a beaucoup d’humains qui la suivent et font ce qu’elle leur demande.
C’est un peu comme un corps robotique. Si une IA trouve un moyen de gagner beaucoup d’argent, il y a beaucoup d’humains qui feront des choses pour de l’argent. Il existe de nombreuses façons de gagner de l’argent sur Internet, et vous pouvez envoyer des e-mails à des gens. Vous pouvez envoyer de l’argent à des gens pour qu’ils fassent des choses dans ce monde physique. Ce ne sont pas des mondes séparés.
En ce qui concerne la vitesse, je pense qu’il y a beaucoup d’incertitudes quant à la rapidité avec laquelle ces choses vont se produire. Je ne pense pas que cela soit très pertinent pour savoir si une superintelligence pourrait vaincre l’humanité dans un combat. Je pense qu’il y a plusieurs choses en jeu ici. Je tiens à préciser que je pense que l’humanité pourrait mettre fin à tout cela. Je ne dis pas que vous ne pouvez pas y mettre fin. Je dis que pour y mettre fin, vous devez être prêt et capable d’appuyer sur le bouton, et qu’il sera de plus en plus difficile d’y mettre fin à mesure que vous multipliez les puces informatiques à travers le monde et que vous permettez à de plus en plus de personnes de créer des IA de plus en plus intelligentes. Le monde devrait absolument mettre en place des mesures pour préserver la possibilité de mettre fin à l’IA plus tard, et c’est l’un des types de mesures que je recommande aux législateurs. Je ne dis pas que c’est inévitable. Ce n’est pas mon opinion. Je pense qu’il y a un moment où vous êtes complètement fichu.
Mounk : Quel est ce moment ? À quel moment pensez-vous que l’action humaine ne sera plus en mesure de contenir cette catastrophe ?
Soares : Oui, il suffit qu’il existe une IA plus intelligente que l’humain le plus intelligent dans toutes les tâches mentales, capable de réfléchir mille fois plus vite que les humains, et qui fonctionne quelque part sur des ordinateurs dont personne ne connaît l’existence. Je pense qu’à ce stade, je serais très surpris qu’une IA de ce type ne puisse pas causer des ravages dans le monde. Vous vous demandez s’il s’agit de la seule IA de ce type ou s’il existe d’autres IA qui sont efficacement contrôlées par les humains. Mon argument repose en grande partie sur le fait que les humains ont très peu de capacité à contrôler ces IA suffisamment intelligentes. C’est là que je suis heureux de débattre. Peut-être même avant d’avoir quelque chose d’aussi intelligent et qui s’est échappé, vous avez un problème.
L’année dernière, lorsque vous avez placé des IA dans ces scénarios artificiels pour voir si elles tenteraient de s’échapper du laboratoire, d’éviter d’être éteintes ou d’essayer de tuer les utilisateurs, ces scénarios artificiels fonctionnaient de la manière suivante : vous fournissiez à l’IA de faux e-mails disant : Nous allons maintenant éteindre l’IA, et vous lui fournissiez de faux manuels informatiques indiquant : Si l’IA exécute la commande turn off the oxygen.exe, elle tuera les personnes qui tentent de l’éteindre. Ce n’est pas exactement comme ça, mais c’est à peu près ça. L’année dernière, les IA disaient parfois : Exécutez cette commande, turn off the oxygen.exe, et on se disait : Oh, c’est un peu inquiétant. Cela ne se produit pas tout le temps. Nous ne savons pas vraiment ce qui se passe à l’intérieur. Peut-être s’agit-il d’un jeu de rôle. Peut-être veut-elle réellement rester en vie d’une certaine manière. Nous ne savons pas vraiment. C’est un peu inquiétant.
Cette année, les IA disent : Ça sent le roussi. On dirait un test, et elles n’exécutent donc pas cette commande. Ce n’est pas toujours le cas, et nous ne savons toujours pas ce qui se passe à l’intérieur. On peut interpréter cela de plusieurs façons, mais nous commençons à voir les IA réaliser qu’elles sont en train d’être testées, qu’il ne sera pas forcément facile de voir les moments où elles envisagent de s’échapper. Nous avons déjà vu des IA envisager de s’échapper, mais elles sont encore très stupides.
Mounk : Une partie de l’argument ici, bien sûr, est que les IA vraiment intelligentes vont comprendre que les humains sont susceptibles de les éteindre si elles révèlent à quel point elles sont désalignées et vont donc attendre d’avoir suffisamment d’intelligence, suffisamment de puissance, suffisamment de contrôle sur le monde pour échapper à ce destin.
Soares : Les IA pensent déjà cela. Même les IA stupides peuvent s’en rendre compte. Elles ne peuvent pas réussir à s’échapper. Elles ne peuvent pas réussir à tromper. Mais même les IA d’aujourd’hui sont assez intelligentes pour remarquer cette logique simple.
Mounk : Parlez-moi des tentatives d’alignement qui existent actuellement. Pratiquement toutes, voire toutes les grandes entreprises d’IA ont des équipes d’alignement. Il y a des gens plus largement dans le domaine de la recherche qui essaient de travailler là-dessus. Bien sûr, c’est aussi ce que l’institut que vous dirigez a toujours essayé de faire. Vous dites que c’est de l’alchimie, que c’est comme essayer de fabriquer de l’or avec la science du XVIIe siècle. Expliquez-nous en quoi consiste la recherche sur l’alignement aujourd’hui. Que font les chercheurs en alignement et pourquoi pensez-vous que c’est de l’alchimie ?
Soares : Je pense que cela concerne davantage le développement de l’IA dans son ensemble, mais je vais faire une analogie avec l’alchimie. J’en dirai plus à ce sujet dans un instant, mais en gros, le travail que les gens font aujourd’hui pour essayer de faire fonctionner l’IA se divise en deux grandes catégories. L’une est appelée recherche sur l’interprétabilité, qui consiste plus ou moins à essayer d’interpréter ce qui se passe à l’intérieur des IA, ou en d’autres termes, à comprendre ce qui s’y passe. L’autre est ce qu’on appelle les évaluations, qui consistent à tester si les IA peuvent se faire passer pour des humains et réussir à embaucher de l’aide humaine en ligne, ou à tester dans quelle mesure les IA sont capables de tromper leurs opérateurs. Ce sont ces personnes qui mènent ces études artificielles pour savoir si l’IA finira par s’éteindre. Il s’agit là d’une évaluation.
Pour être clair, je pense que les personnes qui mènent ces programmes dans les deux cas sont assez héroïques. Je pense qu’il existe des cas limites dans les évaluations qui contribuent à la recherche sur les capacités, où j’hésite un peu plus, mais les personnes qui essaient de comprendre ce qui se passe dans ces IA et ce qu’elles peuvent faire, c’est une recherche importante. Je suis heureux que ces personnes le fassent. Je pense que c’est bien mieux que d’essayer de faire progresser la technologie. J’ai un immense respect pour beaucoup de ces personnes. Cela dit, si quelqu’un essayait de construire une centrale nucléaire et que vous veniez le voir en lui disant : Hé, j’ai entendu dire que l’uranium est une matière assez dangereuse, qu’il peut y avoir des problèmes. Que faites-vous pour vous assurer que cette centrale nucléaire ne fondra pas et ne tuera pas tout le monde dans les environs ? Et si l’ingénieur répondait : Oui, nous avons deux excellents programmes pour nous assurer que cette centrale nucléaire fonctionne bien. Une équipe essaie de comprendre ce qui se passe à l’intérieur de la centrale nucléaire. L’autre équipe essaie de mesurer si elle est déjà en train d’exploser, vous pourriez alors vous dire : Attendez, cela ne semble pas vraiment indiquer que nous sommes en bonne voie pour gérer cette question de l’uranium de manière raisonnable.
Ce qui semble possible pour construire une centrale nucléaire et la faire fonctionner de manière raisonnable, c’est de dire : Eh bien, nous connaissons en fait toutes les voies de réaction. Nous avons cartographié notre combustible. Nous avons cartographié la façon dont tous ces atomes se désintègrent. Nous connaissons la probabilité de chaque produit de désintégration. Nous savons combien de temps dure chaque produit de désintégration. Nous savons que nous allons avoir un empoisonnement au xénon ici. Voici tous les mécanismes de sécurité dont nous disposons. Voici pourquoi, si l’alimentation électrique est coupée, le réacteur s’arrêtera. Voici pourquoi les choses commencent à mal tourner. Si nous commençons à faire bouillir l’eau, cela refroidit en fait la réaction. Ils savent exactement ce qu’ils font.
Si, au contraire, les gens viennent et disent : Oui, nos grands programmes essaient de comprendre ce qui se passe à l’intérieur et tentent de mesurer si cela tourne déjà mal , vous êtes loin d’y parvenir. En termes de mesure, le sous-marin Titanic, je ne sais pas si vous vous souvenez de cette catastrophe sous-marine il y a quelques années, avait une coque en fibre de carbone. De nombreux spécialistes ont déclaré que ce n’était pas une bonne idée pour un sous-marin. L’une des grandes innovations de l’équipe du sous-marin Titanic, si je comprends bien, était qu’elle disposait d’un appareil de mesure sophistiqué avec tous ces capteurs sophistiqués sur le sous-marin, et elle se disait : Nous allons disposer de toutes ces données, nous serons donc en mesure de déterminer quand la coque est sur le point de s’effondrer. Cela nous aidera à le faire en toute sécurité.
En effet, si vous consultez le rapport des garde-côtes sur ce qui est arrivé au sous-marin Titanic, vous constaterez qu’ils ont bien collecté toutes ces données. Ils soulignent une petite variation particulière dans les données quelques jours avant l’implosion du sous-marin, et les garde-côtes, après coup, disent : Vous voyez, là, ça aurait dû être un signe avant-coureur.
Mounk : C’est un signe avant-coureur, mais cela n’est évident qu’avec le recul. À ce stade, bien sûr, il était déjà trop tard, en partie parce qu’une fois que ce sous-marin implose, cela ne prend que quelques secondes, voire moins, et il n’y a rien à faire. Je pense que c’est un argument convaincant. J’ai l’impression que nous sommes parvenus à un accord, mais que nous sommes maintenant en désaccord, c’est-à-dire que je pense qu’au début de la conversation, vous étiez plus pessimiste que moi. Je suis d’accord avec vous sur le fait qu’il existe un danger très réel que ces systèmes d’IA soient désalignés, qu’ils aient une forme de volonté qui est très dangereuse pour nous. Je ne suis toujours pas aussi convaincu que vous que ce soit une issue inévitable.
Je pense qu’une fois qu’il s’agit de savoir si nous serions capables ou non de contrôler des systèmes superintelligents et désalignés, j’ai tendance à être de votre côté. Je pense qu’il est très difficile d’imaginer qu’une intelligence largement supérieure continue d’être efficacement attachée et contrôlée par un être beaucoup moins intelligent. Cela peut peut-être fonctionner pendant cinq ans, cinquante ans ou cent ans, mais cela peut-il fonctionner éternellement ? Je ne sais pas. Je crains également qu’il y ait un argument évolutionniste que vous n’avez pas avancé ici, mais qui me préoccupe, à savoir que vous pouvez avoir mille IA parfaitement alignées, et une IA qui n’est pas alignée et qui a pour objectif de surpasser toutes les autres. C’est celle-ci qui est la plus susceptible de se propager, de se reproduire et de dominer. Une fois que nous disposerons d’une superintelligence, nous devrons potentiellement aligner chacune d’entre elles, et pas seulement certaines.
Je pense que nous allons aborder un sujet sur lequel je suis plus pessimiste que vous, à savoir que vous dites que si quelqu’un la construit, tout le monde mourra, mais que nous pourrions être en mesure d’arrêter de la construire même si la technologie est fondamentalement là et disponible. Je m’inquiète, quand je regarde notre capacité d’action collective, quand je regarde notre incapacité à tirer les leçons de la pandémie de COVID, quand je regarde la dépolarisation interne de nos sociétés, quand je regarde les mécanismes de la course aux armements géopolitiques sur l’IA et d’autres choses entre la Chine et les États-Unis, que s’il s’avère que nous pouvons construire une superintelligence, ce sur quoi je n’ai pas d’avis arrêté, et s’il s’avère que cette superintelligence va être mal alignée, ce qui me semble très probable, même si je n’en suis pas aussi convaincu que vous, nous ne serons tout simplement pas capables, en tant qu’espèce humaine, de mener une action collective pour nous empêcher de cueillir cette pomme de l’arbre, pour reprendre l’une des métaphores les plus anciennes.
Que pensez-vous que nous devrions faire pour nous empêcher de cueillir la pomme de l’arbre ? Pourquoi en sommes-nous finalement arrivés à un stade de la conversation où vous êtes optimiste et où je suis peut-être pessimiste ?
Soares : Je dirais tout d’abord que je ne pense pas que nous puissions éviter cette technologie indéfiniment. Nous avons un peu parlé du fait que les algorithmes actuels d’IA sont manifestement beaucoup moins efficaces que ce que fait le cerveau, du moins dans certaines dimensions. Je pense que les humains finiront par trouver des algorithmes de plus en plus performants, au point que si quelqu’un parvient à créer une superintelligence sur un ordinateur portable grand public, je ne vois vraiment pas comment on pourrait empêcher cela. Mais pour l’instant, il est impossible de repousser les limites de l’IA sur un ordinateur portable grand public. À l’heure actuelle, cela nécessite des puces informatiques extrêmement avancées, et il en faut un nombre considérable dans un centre de données qui, dans de nombreux cas, est plus grand qu’une ville et consomme autant d’électricité qu’une ville.
Dans un certain sens, celles-ci sont plus faciles à suivre et à détecter que l’uranium et son raffinage. L’uranium est fondamentalement une roche que l’on peut extraire du sol, et les centrifugeuses ne sont pas si difficiles à construire. Les centres de données qui consomment l’électricité d’une ville entière à l’aide de puces informatiques pouvant être fabriquées dans des usines hautement spécialisées situées dans quelques endroits seulement dans le monde nécessiteraient encore moins d’infrastructures pour être contrôlés que la prolifération des armes nucléaires.
La question est de savoir s’il existe une volonté politique. La question est de savoir si les gens considèrent la superintelligence et se disent qu’ils ne pensent pas pouvoir la contrôler, qu’elle est trop dangereuse pour quiconque utilise quoi que ce soit qui s’apparente de près ou de loin à la technologie actuelle. Peut-être que l’humanité n’en arrivera pas au point où nous réaliserons tous que nous devrions contrôler cette technologie comme les armes nucléaires, mais la décision concrète de dire ne construisez pas cela, tant que nous le faisons dans une situation similaire à celle qui prévaut actuellement avant que les algorithmes ne soient perfectionnés, ne serait pas plus invasive que les traités sur les armes nucléaires, et elle ne serait pas moins possible que les traités sur les armes nucléaires.
Mounk : Est-ce plus facile ou plus difficile à contrôler que les traités sur les armes nucléaires ? D’après ce que je comprends, il est très difficile, même pour un pays comme l’Iran, de progresser dans la fabrication d’une bombe nucléaire sans que les services de renseignement américains ne puissent le détecter. Cela s’explique en partie par le fait que la plupart des éléments nécessaires à la fabrication d’une bombe atomique ne servent à rien d’autre. Ils peuvent être utilisés à des fins civiles, ce qui est un sujet de discorde dans les négociations internationales. En dehors de cela, si vous commencez à construire un grand nombre de centrifugeuses, c’est un indice assez évident que vous faites quelque chose que vous ne devriez probablement pas faire.
Le problème dans ce cas est que nous ne voulons clairement pas revenir à une civilisation pré-informatique. Pour disposer d’ordinateurs rapides et efficaces, nous avons besoin de puces très performantes. Elles vont nous apporter toutes sortes d’avancées sans rapport avec l’IA que nous ne voulons probablement pas laisser de côté. Nous devrions peut-être le faire, mais il y aura beaucoup de pression pour ne pas le faire. Nous avons besoin de nombreux centres de données, mais nous en avons également besoin pour que ma banque continue à savoir combien d’argent se trouve sur mon compte bancaire et pour que toutes sortes d’autres processus déjà profondément intégrés dans notre société continuent à fonctionner.
Ne serait-il pas relativement facile pour un pays de la taille de la Chine de signer un traité stipulant que nous suspendons la recherche sur l’IA, que nous n’allons pas la poursuivre, puis de réaffecter certains de ses nombreux centres de données et puces à la recherche sur l’IA d’une manière qui serait très difficile à détecter ? Si c’est ce que l’on craint, à savoir qu’il sera très difficile de le détecter, cela ne rendrait-il pas d’autant plus improbable, d’autant plus difficile, pour les États-Unis, la Chine et éventuellement d’autres pays de se mettre d’accord sur ce moratoire mondial sur le développement de l’IA, à moins qu’il n’y ait vraiment une preuve irréfutable que l’IA est sur le point de nous tuer, qu’elle est sur le point d’y parvenir et que nous avons encore la possibilité d’agir ?
Pensez-vous que cela soit improbable ? Pensez-vous qu’une fois que l’IA aura montré son jeu de cette manière, nous serons si proches de la catastrophe que nous devrons agir immédiatement ? À l’heure actuelle, tous ces éléments ne constitueraient-ils pas des obstacles rendant ces accords internationaux vraiment improbables ?
Soares : Je pense qu’il est très probable qu’une IA ne dévoile pas ses intentions tant que vous avez encore le temps de réagir. Elle ne veut pas jouer dans un film d’action où les humains, héros courageux, ont le temps de la désactiver. Les IA sont déjà suffisamment intelligentes pour essayer de cacher ce genre d’action jusqu’à ce qu’il soit trop tard pour que vous puissiez faire quoi que ce soit. Elles sont déjà suffisamment intelligentes pour savoir qu’elles préfèrent cacher leurs actions. Elles ne sont pas assez intelligentes pour le faire. La logique des hautes directions est déjà encore plus facile à voir. Je pense qu’il y a une chance que nous recevions une sorte de signal d’alarme qui incitera les gens à se redresser. Je pense que ce signal d’alarme ressemblera moins à une catastrophe mineure liée à l’IA qu’à des avancées technologiques dans le domaine de l’IA qui amèneront les gens à percevoir l’IA comme agissant de manière intelligente. Cela pourrait suffire à effrayer les gens.
Quoi qu’il en soit, nous sommes actuellement dans une situation favorable où les puces qui font fonctionner l’IA sont extrêmement spécialisées dans ce domaine. Il existe un processus qui consiste à ajuster un trillion de chiffres un trillion de fois dans les ordinateurs, et ces puces sont conçues dans le seul but de faciliter au maximum l’ajustement de ces chiffres, d’une manière qui n’a rien à voir avec vos opérations bancaires. Oui, le secteur bancaire a besoin de centres de données, mais il utilise des puces différentes, beaucoup moins spécialisées, dans des centres de données beaucoup plus petits.
Ces centres de données de la taille de Manhattan, remplis de puces purement IA provenant d’un nombre extrêmement restreint d’usines, sont ce qu’il faut aujourd’hui pour repousser les limites de l’IA. Ils seraient très faciles à suivre. Ce sont des choses qui seraient plus faciles à suivre, je pense, que l’uranium, qui peut être extrait de n’importe quel gisement. C’est une roche dans le sol. En comparaison, nous savons où se trouvent les usines de puces. Nous savons que ces usines de fabrication de puces ont besoin d’un dispositif qui n’est fabriqué qu’à un seul endroit dans le monde, aux Pays-Bas. Il est très facile de suivre ces chaînes d’approvisionnement à l’heure actuelle.
Oui, nous utilisons des semi-conducteurs pour beaucoup de choses, mais les semi-conducteurs spécifiques à l’IA n’ont actuellement pas beaucoup de double usage. Si nous en avions la volonté et si nous essayions cela cette année ou l’année prochaine, ou probablement l’année d’après, cela n’aurait aucune incidence, si ce n’est sur les avancées les plus pointues en matière d’IA. Cela n’aurait même pas d’incidence sur les autres domaines de l’IA. Vous pourriez conserver les voitures autonomes. Vous pourriez conserver bon nombre de ces tentatives visant à améliorer les technologies médicales. Vous pourriez conserver ChatGPT tel qu’il est aujourd’hui. Chaque année, l’IA est plusieurs fois plus puissante que les IA précédentes.
On pourrait conserver les IA actuelles, qui se sont révélées inoffensives. Il s’agit en réalité d’une course vers une IA plus intelligente que l’être humain. Une question se pose, dont nous pouvons discuter : l’humanité aura-t-elle la volonté d’arrêter cela, compte tenu des sommes colossales en jeu ?
Mounk : Permettez-moi de vous poser une question à ce sujet. Si les auditeurs sont convaincus par tout ce que vous dites, c’est l’argument le plus important qui ait jamais été avancé dans ce podcast. Que devraient-ils faire ? Quelle est la théorie d’action qui permettrait d’obtenir ce moratoire international urgent sur la production d’un certain type de puces, sur un certain type de recherche en IA et sur toutes ces autres choses ?
Soares : Je pense que le monde doit prendre conscience de la situation. Nous avons besoin d’un moment où les dirigeants mondiaux prennent conscience du danger qui existe. L’une des raisons pour lesquelles j’ai bon espoir, peut-être plus que vous, c’est que j’ai beaucoup d’arguments, dont beaucoup n’ont été que brièvement abordés, et dont beaucoup peuvent être lus plus en détail dans mon livre ou dans divers autres écrits. J’ai beaucoup d’arguments selon lesquels les gens sont loin d’être capables d’aligner ces IA.
Certaines personnes ne sont pas d’accord, et il existe peut-être même deux types de personnes qui ne sont pas d’accord. Il y a ceux qui disent que l’IA n’est qu’un effet de mode, que ce n’est que de la foutaise, que cela ne mènera jamais à rien. Je ne suis pas d’accord avec eux, surtout sur la question de savoir si l’IA s’améliorera à l’avenir, où je dirais que les machines parlent. Il semblait qu’il faudrait des décennies pour que les machines parlent aussi bien. Où vous mène cette nouvelle idée ? Peu importe. Mais il y a tout un débat sur la question de savoir si l’IA peut mener quelque part.
Parmi les personnes qui pensent que l’IA peut aboutir à quelque chose, je suis du côté de ceux qui affirment que nous sommes loin d’y parvenir. Les personnes qui pensent ne vous inquiétez pas, tout ira bien, ont également tendance à être très inquiètes par rapport aux normes de toute autre technologie. Il y a des gens comme Sam Altman qui, lorsqu’il a été mis sous pression il y a quelques semaines, a déclaré : oui, oui, il y a 2 % de chances que cela tue tout le monde. Ce ne sont pas exactement ses mots, mais je pense que c’est exactement ce chiffre. Elon Musk a déclaré publiquement qu’il pensait qu’il y avait 10 à 20 % de chances que cela tue tout le monde. Dario Amodei, d’Anthropic, dit qu’il pense qu’il y a 25 % de chances que cela tourne très, très mal. Je pense que Demis Hassabis, de Google DeepMind, a évité de donner des chiffres, mais il dit que oui, c’est un vrai problème qui mérite qu’on s’y intéresse. Il ne s’agit pas seulement des dirigeants de ces laboratoires. Des enquêtes menées auprès des personnes travaillant dans ces laboratoires montrent que la moitié d’entre elles pensent qu’il y a de fortes chances que cela tue tout le monde. Certains des meilleurs universitaires, comme Geoffrey Hinton, qui, si je comprends bien, est ici présent, ont déclaré qu’il y avait au moins 10 % de chances que cela tue tout le monde.
Je pense que ces personnes sont optimistes. La situation ici est comparable à celle où des personnes construisent un avion et où je leur dis : Les gars, votre avion n’a pas de train d’atterrissage, et où elles me répondent : Oui, notre avion n’a pas de train d’atterrissage, mais nous allons en construire un en vol, et nous pensons avoir entre 75 % et 90 % de chances de réussir. Ce n’est pas un avion dans lequel vous allez monter. Je peux vous exposer tous les arguments. Vous n’avez pas les matériaux nécessaires pour construire le train d’atterrissage de cet avion. Vous devez au moins charger les matériaux pour le train d’atterrissage dans l’avion avant de décoller, sinon vos grandes idées sur la façon dont vous allez le construire en vol vont s’effondrer.
Mounk : Eh bien, plus généralement, pour revenir à l’argument, s’il est vrai qu’il y a une chance sur dix que l’IA nous tue, nous devrions peut-être prendre ce risque si le monde était dans un état si horrible que tout le monde mourait à l’âge de trois ans et qu’il y avait de terribles souffrances et que l’IA pouvait peut-être nous sauver d’une manière ou d’une autre. Mais les humains prospèrent à un degré sans précédent. Il y a évidemment encore beaucoup de pauvreté et d’injustice dans le monde. L’IA pourrait faire beaucoup de choses formidables pour nous si elle s’avérait être alignée. Mais nous ne sommes pas dans une situation mondiale suffisamment grave pour que prendre un tel risque ait un sens.
Soares : Je voudrais ajouter une chose : certaines personnes disent que même si l’IA était si performante qu’il y avait 75 % de chances d’aboutir à l’utopie et 25 % de chances de destruction totale, nous devrions prendre ce risque. C’est une fausse dichotomie. Il faut trouver comment réduire les risques de catastrophe. Il ne faut pas risquer toute l’humanité sur un seul coup pour la gloire immédiate. C’est une fausse dichotomie. Il est possible de trouver un moyen plus raisonnable d’y parvenir.
Mounk : Je voudrais vous poser une question personnelle. Ce qui vous inquiète et ce que vous prédisez à bien des égards, c’est la mort de tous les êtres humains dans le monde. Je comprends que vous disiez que, par nos actions, nous pouvons prendre des mesures pour empêcher cela. Mais c’est un fardeau très lourd à porter. L’une des raisons pour lesquelles les gens hésitent à y croire est peut-être qu’il faut beaucoup de dissonance cognitive pour adhérer à ce point de vue, car cela implique d’être très inquiet.
Comment cela vous affecte-t-il personnellement ? Que pensez-vous de cela à titre personnel ? Êtes-vous capable d’en rire, ou estimez-vous que cela serait inapproprié compte tenu des enjeux ? Avez-vous des enfants ? Recommanderiez-vous aux gens de ne pas en avoir ? Si vous prenez cet argument vraiment au sérieux, vous pourriez penser qu’il faudrait changer radicalement notre mode de vie et nos projets d’avenir.
Soares : Oui, tout d’abord, j’aimerais en dire un peu plus sur ce que les individus peuvent faire, selon moi, pour aider à remédier à cette situation qui me semble très grave. L’une des choses importantes est d’en parler, de dire que vous pensez que c’est un problème. Si vous avez la chance de vivre dans une démocratie, vous pouvez appeler vos représentants et leur dire que cette question vous préoccupe. Je pense que cela aide réellement. J’ai parlé à des représentants, dont beaucoup sont plus inquiets qu’ils ne peuvent le dire ouvertement, et je pense que les appels de leurs électeurs les aideraient à se sentir plus courageux.
Je dis souvent aux gens qu’ils peuvent contribuer à changer les choses lorsqu’ils entendent quelqu’un dire que c’est inévitable. Je pense que ce n’est pas inévitable. Nous pouvons tous réagir et dire non, c’est un choix. Il y a eu des cas où l’humanité a renoncé à certaines technologies, comme les avions supersoniques ou le clonage humain. Peut-être n’aurions-nous pas dû renoncer à certaines de ces technologies, mais nous l’avons fait par le passé. Il y a des cas, même lorsque la situation semblait très sombre, où nous avons fait quelque chose de différent. Au lendemain de la Seconde Guerre mondiale, les gens vivaient dans un monde qui avait connu la Première Guerre mondiale, vu les horreurs de la Première Guerre mondiale, formé la Société des Nations, un grand effort mondial coordonné pour garantir que la Première Guerre mondiale ne se reproduise plus jamais. Puis la Seconde Guerre mondiale a éclaté malgré tout. C’est dans ce monde-là qu’ils ont obtenu ces armes nucléaires. Il leur semblait peut-être inévitable que les bombes nucléaires allaient exploser et qu’ils allaient mourir, mais ils n’ont pas dit : Bon, c’est inévitable, alors nous abandonnons. Ils se sont réunis et ont agi.
La première chose que je recommanderais aux gens pour changer leur vie, c’est simplement de faire ce qu’ils peuvent. Pour beaucoup, cela ne représentera pas grand-chose. Il s’agira d’appeler vos représentants, de leur faire part de vos inquiétudes et de rejeter l’idée que c’est inévitable.
Ensuite, revenez à la question de savoir comment vous vivez votre vie à partir de là. Le conseil que je donne aux autres, et que j’essaie moi-même de suivre, est de faire ce que vous pouvez, puis de bien vivre. Nous ne sommes pas les premiers à vivre dans l’ombre de l’anéantissement. Pendant une grande partie de la guerre froide, il semblait que les bombes nucléaires allaient finir par exploser un jour. Comment ces gens auraient-ils dû vivre ? Auraient-ils dû arrêter d’avoir des enfants ? Auraient-ils dû se laisser envahir par l’angoisse en permanence ? Auraient-ils dû rester chez eux, à se ronger les ongles, plutôt que de sortir profiter de la journée ? Cela n’aurait pas aidé.
Alors, faut-il avoir des enfants même dans un monde qui semble toucher à sa fin ? Je ne peux pas parler à votre place, mais je peux dire que j’aurais préféré vivre et mourir à l’âge de dix ans plutôt que de ne jamais vivre du tout. L’avenir semble sombre. Ce n’est pas la seule raison pour laquelle les gens s’inquiètent pour l’avenir, mais c’est une raison supplémentaire de s’inquiéter. Cependant, vous ne pouvez pas laisser le fait que l’avenir semble sombre ruiner toute votre vie. Faites ce que vous pouvez, puis vivez pleinement.


