Geoffrey Hinton sur l’intelligence artificielle
Yascha Mounk et Geoffrey Hinton discutent du fonctionnement de l’IA et des risques qu’elle présente.
Si vous souhaitez que je continue à partager mes écrits en français, je vous serais reconnaissant de transmettre cette publication à trois amis et de les inviter à s’abonner.
- Yascha
Geoffrey Hinton est un psychologue cognitif et informaticien connu comme le « parrain de l’IA ». Il a reçu le prix Nobel de physique 2024, conjointement avec John Hopfield.
Dans la conversation de cette semaine, Yascha Mounk et Geoffrey Hinton discutent de ce que les neurosciences nous apprennent sur l’IA, de la manière dont les humains et les machines apprennent, et des risques existentiels liés à l’IA.
Ce qui suit est une traduction abrégée d’une interview enregistrée pour mon podcast, « The Good Fight ».
Yascha Mounk : Vous êtes connu comme le parrain de l’IA. L’IA a traversé des périodes étranges : des moments d’enthousiasme intense pour l’IA dans le passé, puis des hivers de l’IA, où les gens pensaient que les conditions techniques nécessaires au fonctionnement de l’IA n’existaient pas encore ou que le concept tout entier était erroné et ne fonctionnerait jamais de manière utile.
Expliquez-nous pourquoi il a fallu tant d’élans, tant de tentatives pour arriver à l’énorme boom de l’IA que nous connaissons aujourd’hui, et comment l’IA, quel que soit son avenir (j’espère que nous aurons l’occasion d’en parler plus longuement à la fin de notre conversation), est désormais clairement intégrée dans toutes sortes de processus utiles dans le monde.
Geoffrey Hinton : Au cours du siècle dernier, il y avait deux approches de l’IA. L’approche principale, adoptée par presque tout le monde, était de la baser sur la logique. On disait que ce qui rendait les êtres humains spéciaux, c’était leur capacité à raisonner. On se concentrait sur la capacité à raisonner, et la logique était le modèle utilisé pour cela. Cette approche n’a pas fonctionné. Elle aurait pu fonctionner, mais elle n’a pas très bien fonctionné, ce qui a conduit à plusieurs hivers de l’IA.
Il existait une approche alternative qui a vu le jour dans les années 1950 avec des personnes comme von Neumann et Turing, qui sont malheureusement tous deux morts jeunes. Cette approche consistait à baser l’IA sur les réseaux neuronaux, c’est-à-dire sur l’inspiration biologique plutôt que sur l’inspiration logique. L’approche alternative disait qu’au lieu d’essayer de comprendre le raisonnement, il fallait comprendre des choses comme la perception, l’intuition et le contrôle moteur. Dans le cerveau, cela fonctionne en modifiant la force des connexions entre les neurones d’un réseau neuronal.
Nous devrions essayer de comprendre comment cela fonctionne et nous préoccuper du raisonnement plus tard. Au début de ce siècle, cette approche a soudainement commencé à fonctionner beaucoup mieux que l’approche basée sur la logique. Presque tout ce que nous appelons aujourd’hui l’IA n’est pas l’IA à l’ancienne qui utilise la logique, mais la nouvelle IA qui utilise les réseaux neuronaux.
Mounk : Tout semble toujours évident avec le recul, mais si vous essayez de comprendre comment construire une machine intelligente à partir de principes fondamentaux, l’approche logique aurait semblé très intuitive. Nous devons lui apprendre que deux plus deux font quatre, nous devons lui apprendre comment fonctionnent certaines choses physiques dans le monde, et nous devons lui enseigner les règles de base de la logique. Ensuite, nous lui soumettons une série de calculs, et elle peut arriver à des conclusions auxquelles nous ne pourrions peut-être pas parvenir.
Pourquoi pensez-vous que cette approche a échoué ? Qu’est-ce qui, dans cette approche alternative que vous avez tant défendue, s’est avéré plus générateur de technologies utiles ?
Hinton : La pensée humaine peut être divisée en raisonnement séquentiel, conscient, délibéré et logique, qui demande un effort et que Daniel Kahneman appelle le type deux, et en intuition immédiate, qui ne demande généralement pas d’effort. Les personnes qui croyaient en l’IA symbolique se concentraient sur le type deux, le raisonnement conscient et délibéré, sans essayer de résoudre le problème de la façon dont nous fonctionnons par intuition, par analogie et par perception.
Il s’avère qu’il est beaucoup plus judicieux de commencer par la manière dont nous faisons ces choses, que de nombreux animaux sont également capables de faire. Ils peuvent percevoir et contrôler leurs mouvements. Une fois que vous avez résolu cela, le raisonnement vient ensuite. Ils sont partis de ce qui était distinctement humain plutôt que de la biologie de base, c’est-à-dire la manière dont les autres animaux fonctionnent. Il est évident que nous ne sommes que des singes évolués, et il faut comprendre comment les animaux pensent.
Mounk : L’une des choses intéressantes est que lorsque nous réfléchissons à ce qu’est l’intelligence, nous avons tendance à penser à ce qui nous distingue, en tant qu’êtres humains, des autres espèces. Quel est ce petit plus en matière d’intelligence que nous avons et que les autres animaux ne peuvent pas avoir ? Mais une grande partie de cette intelligence repose sur des compétences qui sont en réalité incroyablement complexes, mais qui ne nous semblent pas remarquables parce qu’un chat les possède, un lion les possède, un chien les possède et un éléphant les possède.
Il s’agit notamment de la façon de percevoir ce qui se passe dans le monde qui nous entoure, de la façon de faire des calculs élémentaires pour savoir où poser le pied afin de ne pas tomber dans un précipice, et de la façon de percevoir l’approche d’un prédateur. Toutes ces choses ne font pas partie de ce qu’on appelle les systèmes de type 2. Lorsque nous nous demandons ce qui nous rend intelligents, ce n’est probablement pas la première question qui nous vient à l’esprit, car nous partageons ces traits avec de nombreux autres animaux, mais c’est en fait, d’une certaine manière, la réalisation la plus remarquable. Nous pouvons ensuite nous demander ce dont nous avons besoin pour franchir cette dernière étape.
Hinton : Je vais vous donner un exemple de raisonnement que vous ne pouvez pas faire avec la logique, mais que vous pouvez faire avec l’intuition. Pour la plupart des hommes de notre culture, la réponse est évidente. Il s’avère que ce n’est pas si évident pour les femmes de notre culture, mais pour les hommes de notre culture, vous trouverez que la réponse est évidente. Supposons que je vous donne le choix entre deux alternatives, et qu’aucune des deux n’ait de sens. Les deux alternatives sont clairement absurdes, mais l’une semble meilleure que l’autre.
La première alternative est que tous les chiens sont des femelles et tous les chats sont des mâles. La deuxième alternative est que tous les chiens sont des mâles et tous les chats sont des femelles. La plupart des hommes de notre culture trouvent évident que tous les chiens sont des mâles et tous les chats sont des femelles. Cela semble plus naturel. Les chiens sont bruyants et ils courent après les chats. Cette réaction est immédiate. Vous n’avez pas réfléchi à la question, cela vous a simplement semblé juste. Cela vous semblait moins faux ainsi que l’inverse. Pourquoi ? Vous ne pouvez pas l’expliquer avec la logique.
Mounk : Un autre exemple est sans doute certaines règles linguistiques. Je ne sais pas exactement comment la grammaire universelle s’inscrit dans ce cadre, mais le fait que nous sachions que c’est « la petite maison rouge chaude » et non « la chaude petite maison rouge » ou « la petite maison rouge chaude » montre qu’il existe un ordre particulier.
Hinton : Je pense que cela dépend de la langue que vous parlez. Je ne crois pas vraiment à la grammaire universelle, et ces grands modèles linguistiques n’y croient pas non plus. Les grands modèles linguistiques font quelque chose que Chomsky aurait qualifié d’impossible. En fait, il continue de dire que c’est impossible. Ils partent sans aucune connaissance innée du langage, ils voient simplement beaucoup de langage, et ils finissent par connaître extrêmement bien la grammaire. Ils n’avaient aucune connaissance innée.
Mounk : Quelle que soit l’explication à cela — et je ne voulais pas en faire un débat sur la grammaire universelle —, il est vrai qu’un locuteur compétent en anglais placera les adjectifs de taille, de couleur, de type, etc. dans un ordre particulier sans y réfléchir logiquement. Ce n’est pas comme si vous vous demandiez quel adjectif doit aller où ? Si vous apprenez la langue et que vous n’êtes pas un locuteur natif, vous avez peut-être appris la règle que les grammairiens ont déduite au fil du temps, puis vous vous demandez si « petit » vient avant « bleu » ou si « bleu » vient avant « petit ».
En tant que locuteur compétent d’une langue âgé de dix ans, vous le faites automatiquement. Il s’avère que ChatGPT le fait aussi automatiquement d’une certaine manière, quelle que soit la signification exacte du terme « automatique » dans ce contexte. Cependant, cela ne fonctionne pas comme vous pourriez le penser, à savoir que quelqu’un a donné à ChatGPT les règles de la langue anglaise spécifiant que ce type d’adjectif doit précéder ce type d’adjectif. Pourtant, ChatGPT, à partir de toutes les données qui lui sont fournies, déduit où placer l’adjectif de taille.
Hinton : Oui, mais cela montre qu’il n’est pas nécessaire d’avoir une connaissance innée du langage. Il suffit d’être exposé à beaucoup de langage et d’avoir un mécanisme d’apprentissage assez universel, ce qui est exactement le contraire de ce que disait Chomsky.
Mounk : C’est très intéressant. Chomsky soutient qu’il existe certains types de préréglages qui sont poussés dans une direction ou une autre et que c’est ce qui nous permet de faire cela. Ce que vous dites, c’est que ce n’est pas nécessaire. Tout ce qui est nécessaire, c’est que les neurones de notre cerveau voient beaucoup de données et détectent les schémas dans ces données sans qu’on leur dise explicitement ce que sont ces schémas. Est-ce à peu près exact ?
Hinton : Oui, exactement. Cet exemple avec les chats et les chiens montre que nous avons de fortes intuitions sur des choses sans même y penser. La question est de savoir pourquoi. La réponse, selon les personnes qui travaillent sur les réseaux neuronaux, est que vous avez une représentation du « chat ». Le sens du mot « chat » est un ensemble important de caractéristiques activées, chaque caractéristique correspondant à un neurone actif. Un chat est un être vivant, poilu, de la taille d’une boîte à pain, domestique ou pouvant être domestiqué.
Les chiens sont un autre ensemble important de caractéristiques qui se recoupent beaucoup, ils sont donc assez similaires aux chats. Si vous vous interrogez sur la similitude entre un chat et une femme par rapport à un chat et un homme, dans notre culture, un chat est plus similaire à une femme pour les hommes, et un chien est plus similaire à un homme. Vous pouvez l’analyser de cette manière. Il est tout simplement évident qu’un chat est plus similaire à une femme qu’à un homme, et qu’un chien est plus similaire à un homme qu’à une femme. C’est ce qui se passe lorsque vous savez instantanément quelle combinaison vous semble naturelle. C’est très différent du raisonnement logique.
Mounk : Expliquez comment cela fonctionne dans le cerveau humain et comment vous avez été inspiré, d’une certaine manière, par vos connaissances en neurosciences pour réfléchir à un moyen d’enseigner ce genre de choses aux machines sans leur implanter des règles logiques codées en dur, ce qui s’est avéré inefficace.
Hinton : Le plus simple est probablement de commencer par l’expliquer à travers la perception visuelle. Une fois que j’ai expliqué comment on apprend à percevoir visuellement, il est relativement simple de comprendre comment on pourrait apprendre le langage. Commençons par la perception visuelle. Supposons que vous ayez de nombreuses images contenant un oiseau et de nombreuses images ne contenant pas d’oiseau, et que vous souhaitiez construire un réseau neuronal qui, lorsque vous y insérez une image d’oiseau, active la sortie qui dit « oiseau », et lorsque vous y insérez une image qui n’est pas celle d’un oiseau, active la sortie qui dit « pas un oiseau ».
Vous disposez de couches de neurones qui vont détecter différents types de caractéristiques. Les types de caractéristiques qu’ils détectent s’inspirent de recherches sur le cerveau, qui examinent ce qui stimule les neurones dans le cerveau. Supposons que nous ayons une image de mille par mille, et supposons qu’il s’agisse simplement d’une image en niveaux de gris pour simplifier les choses, sans couleurs pour l’instant. Vous disposez d’un million de chiffres qui vous indiquent la luminosité de chaque pixel de cette image de mille par mille. Si vous y pensez en termes informatiques, je vous donne un million de chiffres, et vous devez dire « oiseau » ou « pas un oiseau ».
Ces chiffres individuels ne sont pas très utiles, car un oiseau peut être une autruche sur le point de vous picorer le nez ou une mouette au loin. Ce sont tous deux des oiseaux, mais ils sont très différents. Vous devez être capable de gérer d’énormes différences quant au type d’oiseau, à sa posture, à sa taille et à son emplacement dans l’image, tout en identifiant tous les oiseaux et en excluant tous les non-oiseaux.
La première chose à faire dans un système de vision est de détecter les petits bords dans toute l’image. Voici comment un réseau neuronal détecterait un petit bout de bord. Supposons que vous ayez une colonne de trois pixels, et à côté, à gauche et à droite, une autre colonne de trois pixels : trois verticalement dans une colonne et trois verticalement à côté, pour un total de six pixels. Vous voulez détecter quand les trois pixels de gauche sont plus lumineux que les trois pixels de droite, car cela constituera un bord, un petit bout de bord.
Vous pourriez avoir un neurone dont les entrées proviennent de ces pixels et lui donner de grandes entrées positives provenant des pixels de gauche et de grandes entrées négatives provenant des pixels de droite. Si un pixel de droite est lumineux, il envoie une grande entrée négative au neurone en lui disant « ne t’active pas ». Si un pixel de gauche est lumineux, il envoie une grande entrée positive en lui disant « active-toi ». Si les pixels de gauche et de droite ont la même luminosité, la forte entrée négative annule la forte entrée positive, et le neurone ne s’active pas. Mais si les pixels de gauche sont lumineux et ceux de droite sombres, vous obtenez une forte entrée positive de gauche et aucune de droite, et le neurone s’active.
Si vous définissez correctement les forces de connexion (les poids sur les connexions qui indiquent à chaque pixel comment voter pour savoir si le neurone doit être activé ou désactivé), vous pouvez créer quelque chose qui détecte un petit bord. Pour commencer, ne vous préoccupez pas de la manière dont nous apprendrions cela ; pensez plutôt à la manière dont nous le concevrions à la main. Je vous ai montré comment concevoir à la main quelque chose qui détecte lorsque les trois pixels de gauche sont plus lumineux que les trois pixels de droite.
Vous devez maintenant faire cela dans toutes les positions de l’image, vous avez donc besoin de centaines de milliers de ces détecteurs, et vous en avez besoin dans toutes les orientations possibles. Vous en aurez besoin de millions, et probablement à différentes échelles. Vous avez besoin de détecteurs qui détectent les petits bords nets, comme lorsque vous lisez du texte noir sur une page blanche, et de détecteurs qui détectent les grands bords flous, comme lorsque vous regardez les nuages, car les nuages cachent les bords, mais ils sont flous.
Nous disposons désormais de dizaines de millions de neurones capables de détecter les bords n’importe où dans l’image, quelle que soit leur orientation ou leur échelle. Il s’agit de notre première couche de détecteurs de caractéristiques. Lorsque nous insérons une image, un petit sous-ensemble de ces détecteurs s’active et nous indique où se trouvent les bords dans l’image. Cela ne suffit toutefois pas pour détecter les oiseaux. Si je vous dis que j’ai ici un petit morceau de bord vertical, s’agit-il d’un oiseau ? Cela ne vous apprend pas grand-chose.
Nous avons besoin d’une deuxième couche de détecteurs de caractéristiques qui prennent en entrée ces contours. Par exemple, nous pourrions avoir un détecteur qui recherche une rangée de contours légèrement inclinés vers le haut et une autre rangée légèrement inclinés vers le bas, se rejoignant en un point. Vous avez besoin de détecteurs de ce type sur toute l’image, car cela pourrait être le bec d’un oiseau. Vous pourriez également avoir des neurones dans cette couche qui détectent six bords formant une sorte d’anneau, car cela pourrait être l’œil d’un oiseau.
Dans la couche suivante, nous détectons des éléments tels que des becs, des yeux et peut-être des pattes, quelque chose qui ressemble à une patte de poulet ou à l’extrémité d’une aile. Nous avons donc maintenant un ensemble de neurones qui détectent les petites caractéristiques typiques des oiseaux. Dans la couche suivante, nous pourrions rechercher des combinaisons de ces éléments. Par exemple, un détecteur pourrait rechercher un bec et un œil potentiels dans les positions relatives appropriées pour former la tête d’un oiseau : l’œil au-dessus du bec et légèrement sur le côté. Vous avez des neurones qui recherchent cela dans toute l’image. Il faut un nombre énorme de neurones pour faire cela, mais heureusement, nous en avons des milliards.
Mounk : Tout cela est très utile, mais permettez-moi de vous poser quelques questions simples, à la fois pour éviter les malentendus et pour vous demander de clarifier certains points que moi-même ou nos auditeurs pourrions mal comprendre. La façon dont vous décrivez cela donne encore un peu l’impression que quelqu’un entre un ensemble de règles dans le système. On dirait que quelqu’un dit : « Les oiseaux ont un bec, et les becs ressemblent à peu près à ça. » On dirait que nous concevons le système à partir de principes fondamentaux pour rechercher des becs et nous alerter lorsqu’il y en a.
D’une manière ou d’une autre, le système apprend à repérer les caractéristiques des oiseaux par lui-même, de la même manière que ChatGPT n’a pas eu besoin qu’on lui explique « commence par les adjectifs de taille, puis passe aux adjectifs de couleur », quel que soit l’ordre. Il l’a compris tout seul. Comment ce système parvient-il à détecter cela tout seul ? Il semble qu’il ait vu un millier d’images d’oiseaux et un millier d’images d’autres animaux, et que ces mille images d’oiseaux aient quelque chose en commun, à savoir une caractéristique ressemblant à un bec. Il commence donc à rechercher cette caractéristique. Vous ne le dites pas à l’IA. L’IA le déduit à partir des données qui lui ont été fournies. Comment fait-elle cela ?
Hinton : Pour expliquer cela, il est bon de commencer par se demander : « Si je le construisais à la main, que construirais-je ? » Nous devons savoir quel est l’objectif de l’apprentissage. Je décris comment je construirais plusieurs couches de caractéristiques afin de pouvoir détecter un oiseau. J’en suis arrivé à la couche où l’on recherche une combinaison de bec et d’œil, qui pourrait être la tête d’un oiseau. Dans cette couche, vous pourriez avoir de nombreux détecteurs qui détectent l’aile d’un oiseau, la patte d’un oiseau ou la tête d’un oiseau. Si vous voyez plusieurs de ces éléments, c’est un bon indice qu’il s’agit d’un oiseau.
Pour commencer, l’intensité d’un pixel individuel n’est pas une preuve de la présence d’un oiseau. Elle ne vous dit rien sur la présence ou non d’un oiseau. Même lorsque vous obtenez un petit bout de bord, cela ne vous dit pas s’il s’agit d’un oiseau. Si vous obtenez deux bords qui se rejoignent et forment un bec potentiel, cela indique qu’il pourrait s’agir d’un oiseau, mais ce n’est pas une preuve très solide, car de nombreux autres éléments peuvent former une forme semblable à un bec. Par exemple, le coin d’une table vu sous un certain angle peut former une telle forme.
Voulez-vous (ou connaissez-vous quelqu’un) qui aimerait recevoir mes articles et mes discussions directement dans votre boîte aux lettres en allemand ou en anglais?
Une fois que vous commencez à voir l’œil et le bec d’un oiseau, et que vous voyez d’autres combinaisons qui sont des caractéristiques évidentes des oiseaux, vous commencez à avoir de bonnes preuves qu’il y a un oiseau. J’ai expliqué quel type de système nous voulons construire. Nous voulons ces couches de caractéristiques, et dans chaque couche, vous détectez des combinaisons de caractéristiques de la couche inférieure jusqu’à ce que vous ayez des combinaisons spécifiques aux oiseaux et que vous puissiez dire qu’il s’agit d’un oiseau.
La question est : comment apprendre toutes ces forces de connexion ? Comment apprendre à avoir un détecteur qui a de grandes entrées positives provenant de trois petits bouts de bord inclinés vers le bas et trois petits bouts de bord inclinés vers le haut comme ceci ? Comment décider que ces six bouts de bord doivent avoir de grands poids positifs pour ce détecteur et que toutes les autres caractéristiques que vous avez détectées ne doivent avoir aucun poids pour ce détecteur ? Elles ne sont pas pertinentes. Vous recherchez uniquement ces six caractéristiques, ces six bords.
Je vais maintenant vous expliquer une méthode évidente pour y parvenir, qui est clairement inefficace, mais qui vous donnera une idée de ce qui se passe. Il y a trois étapes pour expliquer comment cela fonctionne. Premièrement, qu’essayez-vous d’apprendre ? Deuxièmement, comprenez une méthode simple pour y parvenir afin de vous faire une idée de ce qui se passe. Ensuite, je vous montrerai comment mieux y parvenir.
La méthode simple consiste à commencer avec toutes ces couches de neurones et à attribuer des poids aléatoires entre les neurones. Vous avez des forces de connexion d’une couche à l’autre, et ce sont toutes des nombres aléatoires, certains petits nombres positifs, d’autres petits nombres négatifs. Vous insérez l’image d’un oiseau et vous voyez ce que cela donne. Avec des nombres aléatoires, cela peut donner 50 % pour un oiseau et 50 % pour autre chose.
Ce n’est pas utile, mais vous pouvez poser la question suivante. Supposons que je prenne l’une de ces forces de connexion, une seule, et que je l’augmente légèrement. Il est clair que le résultat changera légèrement. Je modifie légèrement l’une des forces de connexion et je demande : est-ce que le résultat indique désormais 50,001 % de chances que ce soit un oiseau et 49,999 % de chances que ce ne soit pas un oiseau ? Le résultat s’est-il amélioré ou détérioré, en supposant qu’il s’agisse d’un oiseau ?
Si je prends une image qui n’est pas un oiseau, j’aimerais que ce changement rende plus probable qu’il s’agisse d’un non-oiseau et moins probable qu’il s’agisse d’un oiseau. Vous pourriez penser que vous avez maintenant suffisamment de preuves pour modifier légèrement la force de connexion, mais ce n’est pas le cas, car pour cette image particulière, il s’avère que l’augmentation de cette force de connexion a été utile, mais cela ne l’est pas forcément pour toutes les images. Cela peut même aggraver la situation sur d’autres images. Il peut y avoir beaucoup d’autres images d’oiseaux pour lesquelles l’augmentation de cette force de connexion rend moins probable qu’il s’agisse d’un oiseau.
Mounk : Peut-être que cette image représente un oiseau devant le coucher du soleil, et que la couleur est principalement violette. Ce que vous avez en fait enseigné au système, c’est que si une couleur est principalement violette, alors vous devez dire qu’il s’agit d’un oiseau. Cela rendra en moyenne moins probable de deviner correctement. Est-ce le genre d’exemple que vous avez à l’esprit ?
Hinton : Exactement. C’est vrai. Vous devez partager un grand nombre d’exemples. Vous prenez une collection aléatoire d’exemples, quelques centaines. Pour ces quelques centaines d’exemples, vous demandez si le fait de modifier cette force de connexion améliore les choses. Est-ce que l’augmenter légèrement a amélioré les choses ou les a aggravées ? Si cela a amélioré les choses, vous augmentez la force de connexion. Si cela a aggravé les choses, vous diminuez la force de connexion.
Nous venons de faire une petite expérience. Nous avons pris quelques centaines d’images et avons observé si le fait de modifier légèrement cette force de connexion améliorait ou aggravait le résultat. Si cela améliorait les choses, nous l’augmentions légèrement.
Mounk : Lorsque nous faisons cela, s’agit-il d’une forme primitive de ce que nous appelons l’apprentissage ? Je sais que lorsque nous parlons d’IA, nous parlons toujours d’apprentissage.
Hinton : Ce serait un algorithme d’apprentissage. C’est une sorte d’algorithme d’apprentissage évolutif. C’est comme faire une petite mutation et voir si cela aide. Si cela aide, vous le conservez. Le problème, c’est que votre cerveau compte des centaines de billions de connexions. Dans un grand réseau neuronal, vous pouvez avoir des centaines de milliards de connexions. Vous devez faire cela pour chaque connexion, en l’augmentant ou en la diminuant légèrement.
Chaque fois que vous effectuez l’une de ces expériences, vous devez la réaliser sur des centaines d’images pour voir si elle est vraiment utile. Ce processus serait incroyablement lent. Même si vous n’aviez qu’un milliard de connexions, vous devriez traiter une centaine d’images à travers un milliard de connexions sur toutes ces couches juste pour décider s’il faut augmenter légèrement la force d’une connexion. Cela finirait par fonctionner. Si vous continuiez à faire cela pendant des milliards d’années, vous obtiendriez finalement un réseau neuronal capable de reconnaître les oiseaux.
Mounk : Ce n’est pas un problème abstrait, car pendant les premières étapes du développement de l’IA, l’un des problèmes fondamentaux était que l’on pouvait faire apprendre ces machines, mais cela nécessitait une puissance de calcul incroyable, et la puissance de calcul disponible était insuffisante. Même aujourd’hui, la puissance de calcul est l’une des contraintes qui freinent le développement de systèmes plus intelligents. L’idée que nous disposions d’un ensemble de méthodes de base pour permettre aux réseaux neuronaux d’apprendre, mais que nous étions limités par les ressources, était très importante.
Si je comprends bien, une partie essentielle de votre travail consistait à réfléchir à la manière de concevoir ces processus d’apprentissage de manière plus efficace, suffisamment efficace pour que, avec la puissance de calcul disponible à l’époque, qui était beaucoup plus limitée qu’aujourd’hui, nous puissions obtenir quelque chose de potentiellement utile. Comment ajustez-vous ce processus d’apprentissage ? Comment le transformez-vous pour qu’il ne soit pas trop gourmand en ressources informatiques ?
Hinton : Même avec toute la puissance de calcul dont nous disposons aujourd’hui, cet algorithme d’apprentissage particulier, qui consiste à modifier une connexion à la fois et à voir si cela aide, serait toujours complètement voué à l’échec. Il est beaucoup trop inefficace. Ce que vous aimeriez faire, c’est déterminer, pour toutes les forces de connexion en même temps, si le fait de les augmenter légèrement ou de les diminuer légèrement aide.
Vous aimeriez trouver un moyen de calculer, pour chaque force de connexion simultanément, s’il faut l’augmenter ou la diminuer légèrement. Si vous pouviez le faire, et s’il y avait un milliard de connexions, vous iriez un milliard de fois plus vite que l’algorithme simple.
Il existe un algorithme appelé rétropropagation qui fait cela. En gros, il fonctionne comme suit. Vous entrez une image et vous la faites passer à travers les couches de détecteurs de caractéristiques pour décider s’il s’agit d’un oiseau ou non. Supposons qu’il indique à 55 % qu’il s’agit d’un oiseau et à 45 % qu’il ne s’agit pas d’un oiseau, et supposons qu’il s’agisse effectivement d’un oiseau. Vous aimeriez augmenter ces 55 % ou diminuer les 45 %.
Vous prenez l’écart entre la sortie du réseau et la sortie souhaitée. Vous aimeriez qu’il donne 100 % d’oiseau, mais il a dit 55 % d’oiseau, il y a donc un écart de 45 %. Vous prenez cette différence et vous l’envoyez en arrière à travers le réseau en utilisant les mêmes connexions. Il existe une méthode pour l’envoyer en arrière qui est simple si vous connaissez le calcul, et si vous ne le connaissez pas, ne vous inquiétez pas.
Il existe un moyen d’envoyer cette information en arrière dans le réseau de sorte qu’une fois qu’elle est revenue de la sortie à l’entrée, vous pouvez calculer pour chaque connexion si vous devez l’augmenter ou la diminuer. Vous modifiez alors les milliards de connexions en même temps, ce qui rend le processus un milliard de fois plus rapide. C’est ce qu’on appelle la rétropropagation, et cela fonctionne.
Mounk : La rétropropagation signifie donc littéralement renvoyer l’information à travers le système. C’est ce que le mot « rétropropagation » signifie dans ce contexte, si je comprends bien.
Hinton : Vous propagez cette erreur en arrière à travers le système. Vous essayez ensuite de déterminer, pour chaque neurone du système, s’il faut le rendre un peu plus actif ou un peu moins actif. Une fois que vous savez cela, et si vous devez le rendre un peu plus actif ou un peu moins actif, vous savez comment modifier la force de ses connexions entrantes pour y parvenir.
Mounk : Faisons nous-mêmes un peu de rétropropagation. Je vais essayer de reformuler ce que je viens d’entendre. Si je comprends bien, la rétropropagation est l’une des véritables contributions que vous avez apportées à ce domaine.
Hinton : Permettez-moi de corriger cela. Beaucoup de gens ont inventé la rétropropagation. Notre principale contribution, celle de Ronald Hart, Williams et moi-même, a été de montrer que la rétropropagation permettrait d’apprendre le sens des mots et d’apprendre des représentations intéressantes.
Mounk : Merci pour cette précision. Je ne veux pas exagérer votre contribution très importante. Nous essayons donc de déterminer s’il s’agit d’un oiseau ou non. Vous lui fournissez une image. Il vous dit qu’il y a 55 % de chances que ce soit un oiseau. Quand on réfléchit à ce qu’il fait pour renvoyer ce résultat à travers le système, il dit en fait : « À quoi auraient ressemblé tous les neurones s’il était revenu avec une réponse à 100 % ? » Sur cette base, vous ajustez ensuite les poids pour dire : « Très bien, cela semble plus proche du type de configuration que nous devrions avoir. » Est-ce à peu près correct, ou ai-je complètement déformé la réalité ?
Hinton : C’est à peu près correct, mais pas tout à fait. Vous n’essayez pas de résoudre le problème de la modification du poids afin d’obtenir exactement la bonne réponse. Vous essayez de résoudre le problème de la modification de la force de connexion afin que votre réponse soit un peu meilleure. Vous avez dit que nous essayons de déterminer comment modifier le neurone afin qu’il indique 100 % oiseau. Ce n’est pas vraiment ce que nous essayons de faire. S’il indique 55 % d’oiseau, nous essayons de déterminer comment modifier la force de connexion pour qu’il indique 55,001 % d’oiseau. En d’autres termes, nous cherchons à savoir comment modifier la force de connexion pour l’améliorer légèrement. C’est là tout l’intérêt du calcul.
Mounk : Une fois que l’importance de la rétropropagation est devenue évidente, grâce également aux contributions d’autres chercheurs, où en étiez-vous dans l’élaboration des fondements conceptuels de l’intelligence artificielle contemporaine ? Quel était le pont ? Quels autres éléments devaient encore être explorés et développés, parallèlement à l’augmentation de la puissance de calcul et des ressources, pour atteindre le niveau d’intelligence artificielle que nous connaissons aujourd’hui ?
Hinton : En 1986, nous avons montré que l’algorithme de rétropropagation pouvait apprendre le sens des mots dans un exemple très simple. Nous étions très optimistes. Nous pensions avoir compris comment faire apprendre aux systèmes des couches de caractéristiques, comment leur faire apprendre à voir, et que nous serions capables de leur faire apprendre le langage. Nous croyions avoir résolu le problème et que tout serait merveilleux. C’était acceptable pour certaines tâches.
Par exemple, il était assez performant pour lire les codes postaux sur les enveloppes et les montants numériques sur les chèques. À un moment donné, il lisait les montants numériques sur environ 10 % des chèques en Amérique du Nord. C’était dans les années 1980 et au début des années 1990. Cependant, il n’était pas capable de reconnaître des objets réels dans des images réelles, comme identifier un oiseau, qu’il s’agisse d’une mouette au loin ou d’une autruche de près.
À l’époque, nous ne savions pas quel était le problème. Le problème venait principalement du fait que nous ne disposions pas de suffisamment de données ni d’une puissance de calcul suffisante. Si nous l’avions dit à l’époque, les gens auraient rejeté cette explication, affirmant que nous prétendions simplement qu’un modèle plus grand fonctionnerait. C’est d’ailleurs ce qu’ils ont dit, et il était quelque peu embarrassant d’insister sur le fait qu’un millier de fois plus de données et un millier de fois plus de puissance de calcul pourraient aider.
En réalité, nous avions besoin d’un million de fois plus de données et d’un million de fois plus de puissance de calcul, et cela a très bien fonctionné. Il y a eu d’autres avancées techniques, mais les principales ont été la disponibilité d’une puissance de calcul beaucoup plus rapide et de beaucoup plus de données. Les données supplémentaires provenaient du web, et la puissance de calcul plus rapide provenait des GPU, en particulier des GPU Nvidia, qui étaient plus faciles à programmer. Quand je dis plus faciles à programmer, cela ne veut pas dire qu’ils étaient faciles, mais beaucoup plus faciles que la plupart des systèmes parallèles.
Mounk : L’une des raisons pour lesquelles les données sont si importantes dans tout cela est sans doute que nous avons supposé, dans cet exemple, que nous disposions d’une image d’un oiseau dont nous savons déjà s’il s’agit ou non d’un oiseau. Si nous n’avions pas eu de référence pour évaluer le système, ou sur laquelle baser la précision des prédictions du modèle, l’algorithme d’apprentissage n’aurait pas fonctionné. Nous avons besoin d’un grand nombre d’images pour lesquelles nous sommes raisonnablement sûrs qu’il s’agit d’oiseaux ou qu’il ne s’agit pas d’oiseaux. Est-ce exact ?
Hinton : Avec la vision par ordinateur, pendant longtemps, nous ne disposions pas d’un tel ensemble de données volumineux. Nous avions besoin d’un ensemble de données contenant des millions d’images étiquetées avec précision ou assez précisément. Nous ne l’avions pas. Une personne appelée Fei-Fei Li, qui était professeure adjointe, s’est rendu compte que si nous disposions d’une grande base de données étiquetée comme celle-ci, un ensemble de données, cela ferait une énorme différence pour la capacité des réseaux neuronaux à voir.
Elle ne pensait pas nécessairement que ce serait des réseaux neuronaux, mais elle pensait que cela ferait une énorme différence pour la capacité des ordinateurs à voir et à reconnaître des objets et des images. Elle a déployé beaucoup d’efforts pour construire une énorme base de données, et cela a été crucial. Les images numérisées étaient disponibles sur le web, mais il fallait aussi que quelqu’un les étiquette toutes. Ce problème ne se pose pas dans le domaine du langage.
La raison pour laquelle ce problème ne se pose pas dans le domaine du langage est que l’on utilise le mot suivant comme étiquette. On dit donc : j’ai vu une chaîne de mots ; ce sont les données d’entrée. À partir de cette chaîne de mots que j’ai déjà vue, puis-je prédire le mot suivant ? Bien sûr, le mot suivant fait partie des données. Vous n’avez besoin de personne pour vous dire quel est le mot suivant. Quand quelqu’un vous donne un document, vous voyez tous les mots suivants donnés dans chaque contexte. Ce qui est bien avec le langage, et la raison pour laquelle vous pouvez avoir des milliards d’exemples avec le langage, c’est que vous n’avez pas besoin que quelqu’un vous donne des étiquettes.
Il existe des recherches utilisant des réseaux neuronaux sur le langage où vous dites : « Cette critique de film a-t-elle un sentiment positif ou négatif à l’égard du film ? » Quelqu’un doit étiqueter cela à la main. Pendant un certain temps, les gens ont fait beaucoup de recherches de ce type. Mais si vous essayez simplement de prédire le mot suivant, cela s’appelle l’auto-supervision, car les données elles-mêmes contiennent l’étiquette. Vous n’avez plus besoin de tous ces étiqueteurs humains.
Mounk : Vous avez dit tout à l’heure que, vers la fin des années 1980, les fondements conceptuels de base de l’intelligence artificielle contemporaine étaient en place. À l’époque, la vérité était que nous avions simplement besoin de plus de puissance de calcul et de plus de données. Cela semblait étrange. Cela ressemblait à une excuse pour expliquer pourquoi le système ne fonctionnait pas encore aussi bien qu’il pourrait le faire un jour. Pourtant, cela s’est avéré vrai.
Hinton : Il y avait aussi une autre raison. Ce n’était pas seulement qu’ils ne croyaient pas qu’un système plus grand fonctionnerait. La communauté symbolique était convaincue que si l’on partait de forces de connexion aléatoires et qu’on les ajustait simplement de cette manière, on se retrouverait piégé dans des optimums locaux. C’est un peu comme si vous étiez dans une chaîne de montagnes et que vous montiez simplement la pente, vous finiriez au sommet d’une petite colline. Si vous continuez à essayer de monter, vous ne pourrez pas aller plus loin.
Il faut être prêt à descendre pour atteindre le sommet de l’Everest. Il s’est avéré qu’ils avaient tort. Il s’est avéré que dans un paysage normal en trois dimensions, c’est ce qui se passe : vous vous retrouvez piégé dans un optimum local au sommet d’une colline. Dans ces réseaux neuronaux, vous n’obtiendrez peut-être pas le meilleur ensemble de forces de connexion, mais vous obtiendrez un très bon ensemble de forces de connexion.
Si vous n’atteignez pas le sommet de l’Everest, vous atteindrez le sommet d’un pic très élevé à proximité. Les gens ne le savaient pas. Ce n’était qu’un résultat empirique. Ce fut une grande surprise pour les adeptes de l’IA symbolique de constater qu’en continuant simplement à progresser petit à petit, en améliorant les poids pour obtenir une réponse un peu meilleure, on pouvait apprendre des choses incroyablement impressionnantes.
Mounk : Restons un instant sur ce contraste, car je pense que pour beaucoup de gens, l’intelligence humaine ressemble davantage à ce que les adeptes de l’IA symbolique pourraient prédire. Notre façon de raisonner sur le monde est que nous avons ces règles de logique, que nous les appliquons et que nous effectuons ces calculs sur la base de ces règles de logique, et c’est ainsi que nous parvenons à une conclusion ferme et logique. L’une des critiques adressées aux systèmes d’IA actuels est qu’ils ne sont que des « perroquets stochastiques », c’est-à-dire qu’ils ne font que prédire la probabilité statistique du mot suivant.
Je suppose que le scepticisme de la communauté de l’IA symbolique quant à la pertinence de l’approche que vous avez défendue venait du fait que ce n’est tout simplement pas ainsi que l’on parvient à une véritable intelligence. Bien sûr, vous-même êtes en réalité très inspiré par les neurosciences à bien des égards et par notre compréhension du fonctionnement des neurones dans notre cerveau. La façon dont l’esprit humain apprend diffère de l’IA à bien des égards importants, mais semble en quelque sorte plus analogue aux réseaux neuronaux eux-mêmes, qui collectent un ensemble de données et tentent de prédire quelle réponse m’a apporté des renforcements dans le monde et quelle réponse ne m’en a pas apporté.
Hinton : D’accord, commençons par les perroquets stochastiques. Les personnes qui parlent des perroquets stochastiques sont généralement des linguistes fortement influencés par Chomsky, qui croyait que le langage était fondamentalement inné. Chomsky était fermement opposé aux statistiques. Il pensait qu’il s’agissait de règles discrètes, que c’était ainsi que fonctionnait le langage, et que les statistiques étaient tout simplement ridicules. Ce n’est pas ainsi que fonctionne le langage. Il s’avère qu’il a complètement tort, selon moi, donc je ne peux pas vous laisser dire cela.
De plus, l’idée selon laquelle le simple fait de prédire le mot suivant ne peut en aucun cas être la manière dont on apprend le langage est profondément erronée. Si vous y réfléchissez bien, si vous voulez prédire le mot suivant de manière approximative, vous pouvez simplement utiliser des statistiques simples. Par exemple, vous pourriez conserver un grand tableau de phrases, et si vous voyez les mots « fish and », vous pourriez consulter votre grand tableau et constater que « fish and chips » apparaît souvent. Le mot « frites » est donc très probable, car nous avons vu de nombreuses occurrences de « poisson et frites ». Il s’agit là d’une simple statistique de cooccurrence. Les personnes qui parlent de perroquets stochastiques utilisent ce modèle statistique. C’est ce à quoi elles s’opposent. Mais ce n’est pas du tout ainsi que fonctionnent ces réseaux neuronaux. Elles ne comprennent pas vraiment leur fonctionnement, en particulier Chomsky.
Si vous y réfléchissez, supposons que vous vouliez faire un très bon travail de prédiction du mot suivant, pas seulement un travail moyennement bon en conservant un tableau de la fréquence d’apparition de certaines expressions, mais un très bon travail, le meilleur travail possible. Pour cela, vous devez comprendre ce que dit la personne. Si je conçois un système qui finira par prédire très efficacement le mot suivant, la seule façon d’y parvenir est de comprendre ce qui a été dit.
Ce qui est impressionnant, c’est que le fait d’entraîner ces grands modèles linguistiques uniquement pour prédire le mot suivant les oblige à comprendre ce qui est dit. En particulier, si le mot suivant est le premier mot de la réponse à une question et que le contexte est la question, si vous ne comprenez pas la question, vous ne serez pas très doué pour prédire la réponse. Les adeptes du perroquet stochastique ne semblent pas comprendre que le simple fait de prédire le mot suivant vous oblige à comprendre ce qui est dit.
Mounk : Je ne suis pas sûr que nous soyons en désaccord. J’essayais d’exprimer ma compréhension de ce que croient ceux qui s’opposent à cela. Je ne suis pas sûr que nous soyons en désaccord sur ce point, en fait. J’essayais de donner voix à cette critique, mais aussi de dire qu’il me semble que la manière dont les modèles d’intelligence artificielle d’aujourd’hui s’engagent dans l’apprentissage ressemble davantage au cerveau humain.
Quand je discute avec mes amis neuroscientifiques, je suis frappé par le fait que nous ne comprenons toujours pas entièrement le fonctionnement du cerveau humain. Mais ce que je voulais vous demander, c’est dans quelle mesure vous pensez que les mécanismes d’apprentissage de ces modèles d’IA actuels sont similaires à ce qui se passe dans le cerveau humain. D’une certaine manière, l’inspiration pour cela venait en partie de la volonté de comprendre comment les neurones fonctionnent ensemble dans le cerveau humain. C’est pourquoi cette métaphore existe. C’est pourquoi nous parlons de neurones et de réseaux neuronaux dans le contexte de l’IA.
Pensez-vous que les mécanismes de base à l’œuvre dans un réseau neuronal qui est alimenté par un ensemble de données et qui apprend à interpréter la question afin de pouvoir donner la réponse sont les mêmes que ceux qui sont à l’œuvre chez un bébé humain lorsqu’il apprend à se déplacer dans le monde et à répondre aux questions que ses parents lui posent ? Ou pensez-vous qu’il existe une différence fondamentale entre ces deux choses ?
Hinton : D’accord, c’est une question très ouverte. Pour moi, c’est probablement la question la plus importante en neurosciences : dans quelle mesure la façon dont le cerveau apprend est-elle similaire à celle dont ces grands modèles linguistiques apprennent ? À un niveau très abstrait, je pense que c’est assez similaire. À ce niveau, les grands modèles linguistiques ont un moyen (cet algorithme de rétropropagation) de déterminer pour chaque connexion s’il faut augmenter ou diminuer sa force afin d’améliorer le fonctionnement de l’ensemble du système.
C’est ce qu’on appelle le gradient, c’est-à-dire la direction à suivre pour améliorer les choses. Le cerveau fonctionne probablement de la même manière, mais il n’obtient peut-être pas le gradient de la même façon. Nous ne savons pas comment le cerveau détermine s’il faut augmenter ou diminuer la force de chaque connexion. Ce que nous savons grâce à ces grands modèles linguistiques, c’est que si vous pouvez obtenir cette information (que nous obtenons en utilisant la rétropropagation dans les grands modèles linguistiques), vous pouvez alors construire des systèmes très impressionnants simplement en essayant de prédire le mot suivant.
Nous savons donc que si vous obtenez le gradient, vous pouvez apprendre très efficacement. Nous ne savons pas comment le cerveau obtient le gradient. De nombreuses tentatives ont été faites pour montrer comment le cortex, la partie la plus récente du cerveau, peut obtenir ces gradients afin d’apprendre de la même manière que les grands modèles linguistiques. Personne n’y est vraiment parvenu. Il existe de nombreuses théories, certaines modérément plausibles, mais aucune ne fonctionne vraiment bien. Espérons que quelqu’un finira par trouver la réponse.
Il y a plusieurs raisons de croire que le cerveau pourrait avoir un algorithme différent. La rétropropagation fonctionne en partant du principe que si vous avez beaucoup d’expérience, par exemple des trillions d’exemples, et peu de connexions, peut-être seulement un trillion, elle peut tout de même optimiser. Ces grands modèles linguistiques, les plus importants, ont environ un trillion de connexions, mais des trillions d’exemples. Ils ont donc beaucoup plus d’exemples que de connexions. Ils essaient de concentrer beaucoup de connaissances dans peu de connexions, des trillions de bits de connaissances dans seulement un trillion de connexions.
Notre cerveau est très différent. Nous ne vivons qu’environ deux milliards de secondes. Nous n’avons pas des trillions d’expériences, seulement quelques milliards. Nous avons beaucoup de connexions, des connexions à revendre, mais peu d’expérience. Notre cerveau doit donc composer avec un régime différent : une expérience limitée, mais des connexions abondantes. La rétropropagation, en revanche, est très efficace lorsque vous avez beaucoup d’expérience, mais que le nombre de connexions est limité. Ils résolvent donc des problèmes quelque peu différents.
Mounk : Si l’une des contraintes pour rendre les modèles d’IA plus intelligents qu’ils ne le sont actuellement est que nous risquons de manquer de données de haute qualité (car les données sont extrêmement rares, ce qui est très important pour ce processus), alors est-il envisageable que nous puissions imiter certains des mécanismes utilisés par le cerveau humain pour extraire autant de connaissances sur le monde à partir d’un nombre relativement faible d’informations ?
Hinton : Oui, c’est possible. Il est possible que le cerveau utilise un autre moyen d’obtenir des gradients qui n’est pas tout à fait le même que la rétropropagation, et qui pourrait vous permettre d’apprendre plus rapidement. Je pense qu’une approche plus prometteuse à l’heure actuelle pour l’intelligence artificielle consiste à voir comment vous pouvez gérer la limitation des données.
Il existe des domaines dans lesquels nous ne nous soucions pas d’une pénurie de données. Par exemple, AlphaGo ou AlphaZero qui jouent aux échecs. Personne ne s’inquiète d’un manque de données, du moins pas pour l’instant. Au départ, lorsqu’ils ont créé des programmes de jeu de go avec des réseaux neuronaux, ils ont demandé au réseau neuronal de copier les coups des experts. Le nombre de coups des experts est limité. Avec la popularité actuelle des échecs, vous disposez de milliards de coups, mais probablement pas de trillions, ou peut-être seulement de quelques trillions.
Personne ne s’inquiète de cela lors de l’entraînement d’un programme d’échecs ou de Go, car celui-ci génère ses propres données. Ce qui se passe dans des programmes comme AlphaGo, c’est qu’il joue contre lui-même. Il existe deux réseaux neuronaux qui lui donnent son intuition. Je vais parler des échecs, car je les connais beaucoup mieux que le Go, et j’imagine que la plupart des auditeurs de ce podcast en savent plus sur les échecs que sur le Go.
Nous créons donc un programme qui joue aux échecs. Il dispose d’un réseau neuronal qui peut examiner la position sur l’échiquier et déterminer si elle est bonne. Il l’examine simplement et dit : « Hé, c’est bon pour moi. » Il dispose d’un autre réseau neuronal qui peut examiner une position sur l’échiquier et dire : « Ce sera un bon coup à jouer ». Si vous vous y connaissez un peu en échecs, vous savez que si l’autre joueur a un pion en retard, il est très avantageux de placer un cavalier juste devant ce pion en retard. Cela empêche le pion d’avancer, et aucun autre pion ne peut le prendre. C’est un peu l’intuition de ce qu’est un bon coup.
Dans AlphaZero, les intuitions sont beaucoup plus sophistiquées. Ce sont les deux réseaux neuronaux. La question est : comment les entraîne-t-il ? Il joue contre lui-même en utilisant ce qu’on appelle le déploiement Monte Carlo, qui consiste en gros à dire : « Si je vais là, alors peut-être qu’il ira là, et ensuite j’irai ici, et puis... oups... je me retrouverai dans une situation terrible. » À partir de là, vous pouvez déduire que vous ne devriez pas aller là. Votre réseau neuronal a suggéré un coup, mais après plusieurs rollouts (« Si je vais ici, il va là »), vous découvrez que ce coup semble toujours aboutir à une défaite.
C’est un mauvais coup. Vous pensiez qu’il était bon, mais il est mauvais. Le déploiement Monte Carlo vous donne des informations pour savoir si c’est un bon ou un mauvais coup. Vous modifiez alors le réseau neuronal qui disait auparavant « C’est un excellent coup » en l’ajustant : « Ce n’est pas un si bon coup ». Les réseaux neuronaux sont entraînés à l’aide des résultats de ce déploiement Monte Carlo, qui s’apparente à un raisonnement conscient et explicite : « Si je vais ici, il va là, je vais ici... » C’est séquentiel. Les joueurs d’échecs peuvent le faire rapidement, mais cela reste assez séquentiel. Ce processus est utilisé pour entraîner l’intuition.
C’est comme ça pour beaucoup de choses que nous faisons. Vous avez des croyances intuitives, puis vous faites un raisonnement. En faisant ce raisonnement, vous utilisez votre intuition. En conséquence, vous découvrez que votre intuition était erronée, alors vous revenez en arrière et vous la révisez. C’est un exemple où vous n’avez pas besoin de quelqu’un d’extérieur pour vous donner des exemples d’entraînement. La plupart des gens ont beaucoup de croyances, et s’ils les raisonnaient, ils découvriraient que ces croyances ne sont pas cohérentes. Quelque chose ne va pas — soit le raisonnement, soit l’une des prémisses, soit la conclusion — et ils doivent donc changer quelque chose.
Dès que vous disposez d’un raisonnement qui fonctionne, vous pouvez générer vos propres données d’entraînement. C’est un bon exemple de ce que les partisans de MAGA ne font pas. Ils ne raisonnent pas et ne se disent pas : « J’ai toutes ces croyances, et elles ne sont pas cohérentes ». Cela ne les inquiète pas. Ils ont des intuitions fortes et s’y tiennent même si elles sont incohérentes. C’est très agaçant pour les personnes qui croient au raisonnement.
Le raisonnement est très important pour affiner vos intuitions. C’est une façon d’obtenir des données d’entraînement sans avoir besoin que d’autres vous les fournissent. C’est ce qui est déjà utilisé dans les échecs et le Go, et cela fonctionne très bien dans les mondes fermés. Les mathématiques, par exemple, sont une sorte de monde fermé. Vous pouvez émettre des conjectures sur ce qui pourrait être vrai, puis essayer de les prouver. Vous pouvez avoir des conjectures qui semblent très plausibles au premier abord, puis raisonner un peu et découvrir qu’elles doivent être fausses.
Vous pourriez avoir une conjecture selon laquelle il existe un plus grand nombre. Supposons que vous ayez cinq ans et que vous pensiez qu’il doit y avoir un plus grand nombre. Puis vous pensez : « Mais si j’ajoute un à ce nombre, j’obtiens un nombre encore plus grand, donc il ne peut pas y avoir de plus grand nombre. C’est un exemple où vous n’avez pas eu besoin d’exemples d’entraînement, mais seulement de raisonnement.
C’est l’une des façons dont l’IA va contourner la limitation des données. Je pense que les grands modèles linguistiques le font déjà en partie. Je sais que Demis Hassabis croit en cette méthode qui permet d’obtenir beaucoup plus de données d’entraînement sans avoir besoin de données externes.
Mounk : C’est très intéressant. À propos de ce que vous disiez tout à l’heure, je me souviens avoir discuté avec quelqu’un une fois où je pensais avoir un argument logique très convaincant et j’ai dit : « Nous pouvons soit croire ceci, soit croire cela. Au risque d’être incohérent, vous devez accepter cette conclusion. » La personne m’a répondu : « Eh bien, je choisis l’incohérence. » C’est rarement dit aussi explicitement, mais c’est très exaspérant. Ce n’est pas quelque chose que l’on peut faire. Certaines personnes disent : « Cela m’est égal. Je me soucie davantage d’avoir la croyance X, la croyance Y et la croyance Z que d’avoir une vision cohérente du monde », et cela rend très difficile de discuter avec ces personnes.
Hinton : Il existe un nom pour cela. Le nom donné au choix de l’incohérence est la foi. Tout le siècle des Lumières consistait à choisir la raison plutôt que la foi, et nous sommes en train de perdre cela.
Mounk : En effet. Nous sommes à la fin du siècle des Lumières, à moins que nous ne puissions y remédier et riposter. Pour aborder un autre point, vous disiez tout à l’heure qu’à un moment donné, vous et d’autres pensiez que si nous disposions de plus de puissance de calcul et de données, nous serions en mesure de progresser. Certaines personnes y croyaient tout simplement. Il me semble qu’il y a maintenant une question sur la rapidité des progrès continus de l’IA et sur le fait de savoir si nous allons obtenir des systèmes beaucoup plus intelligents dans deux ans ou dans cinq ans, et peut-être même quelque chose comme une intelligence artificielle générale, simplement en lui fournissant plus de données ou plus de puissance de calcul.
Peut-être assisterons-nous à des innovations plus modestes, comme la mise au point de meilleurs moyens pour ces systèmes de créer les données sur lesquelles ils ont été entraînés, ou peut-être aurons-nous besoin d’un changement réel et plus révolutionnaire dans le fonctionnement de certains de ces algorithmes d’apprentissage ou dans la manière dont ces systèmes sont capables de tirer des enseignements à partir de quantités limitées de données.
Quelle est, selon vous, la vérité à ce sujet ? Dans dix ans, dans vingt ans, allons-nous simplement assister à une amélioration linéaire très rapide, voire exponentielle, de l’intelligence de ces systèmes d’IA en leur fournissant davantage de puissance de calcul sur une architecture fondamentalement identique ? Ou pensez-vous que nous aurons besoin de véritables changements dans l’architecture pour faire un bond en avant significatif par rapport à la situation actuelle ?
Hinton : D’accord, personne ne le sait avec certitude. Ce que nous avons constaté jusqu’à présent, c’est que pendant assez longtemps, le simple fait d’augmenter la puissance a permis d’améliorer le fonctionnement. C’est toujours le cas, mais l’augmentation de la puissance pose des problèmes, car elle nécessite d’énormes quantités de puissance de calcul et d’énormes quantités de données. Nous savons que l’augmentation de la puissance améliorera le fonctionnement, mais cela peut poser des problèmes pratiques. Nous savons également que de nouvelles idées scientifiques et de nouvelles architectures, comme les transformateurs, amélioreront considérablement le fonctionnement.
En 2017, les équipes de Google ont mis au point les transformateurs et publié leurs recherches. ChatGPT était essentiellement basé sur l’utilisation de transformateurs. Nous pouvons raisonnablement nous attendre à d’autres avancées scientifiques de ce type. Nous ne savons pas quelles elles seront ni quand elles se produiront, car si nous le savions, nous les aurions déjà réalisées. Nous pouvons également nous attendre à de nombreuses avancées techniques. Au cours des dernières années, l’ingénierie s’est considérablement améliorée. On voit apparaître des outils tels que DeepSeek, qui ont peut-être bénéficié de la distillation des connaissances issues de modèles plus importants, mais il y a toujours matière à améliorer l’ingénierie. Ce domaine est très jeune, il n’est actif que depuis quelques années, il y a donc beaucoup de place pour des améliorations techniques qui rendront tout beaucoup plus efficace. C’est peut-être finalement ainsi que nous répondrons au besoin d’une puissance de calcul beaucoup plus importante.
Il existe une école de pensée qui existe depuis un certain temps, dont le défenseur le plus virulent est probablement Gary Marcus. Il croyait vraiment en l’IA symbolique, qui consiste à disposer d’expressions symboliques et de règles pour les manipuler. Il soutient que nous devons revenir à cette approche pour faire de réels progrès en matière de raisonnement. Cela n’a pas été le cas jusqu’à présent. Si l’on examine les progrès réalisés en matière de raisonnement, on constate qu’il n’existe pas de langage symbolique interne particulier.
L’IA symbolique croyait essentiellement, pour simplifier, que si je vous donnais une phrase en anglais, vous deviez la transformer en une phrase dans un langage symbolique interne spécial et sans ambiguïté. Vous pouviez ensuite opérer sur cette expression à l’aide de règles pour en dériver de nouvelles expressions. C’est ce qu’est la logique, et c’est ainsi que le raisonnement était censé fonctionner. Le raisonnement dans ces modèles fonctionne désormais très bien, et il ne fonctionne pas du tout comme cela.
Il n’y a pas de langage symbolique interne spécial. À l’intérieur, il s’agit simplement d’activations de neurones dans ces réseaux neuronaux. Le seul langage symbolique est le langage naturel. Ce sont des symboles, mais ils existent à l’entrée et à la sortie. Si vous observez la façon dont ces modèles raisonnent, ils le font en prédisant le mot suivant, puis en examinant ce qu’ils ont prédit, et enfin en prédisant le mot suivant. Ils peuvent penser de cette manière.
Vous leur donnez un contexte, et en prédisant des mots, ils créent une sorte de bloc-notes pour réfléchir. Ils peuvent voir les mots qu’ils ont prédits, puis y réfléchir et prédire d’autres mots. C’est ainsi que fonctionne la réflexion dans ces systèmes, et c’est pourquoi nous pouvons les voir réfléchir. Cela ne ressemble en rien à la manière symbolique de procéder. Ils produisent des symboles, mais ces symboles n’existent qu’au niveau de l’entrée et de la sortie, et non dans le cadre d’un langage interne particulier.
À mon avis, ceux qui veulent des systèmes hybrides, composés de réseaux neuronaux pour l’entrée et la sortie et d’une IA symbolique pour le raisonnement, s’accrochent au passé. J’ai une analogie à ce sujet. Imaginez que vous preniez quelqu’un qui fabrique des moteurs à essence et que vous lui disiez : « Les moteurs électriques sont en fait meilleurs. Ils sont supérieurs aux moteurs à essence à bien des égards. » Au bout d’un moment, le constructeur automobile accepte et dit : « D’accord, j’admets que les moteurs électriques sont meilleurs. Voici donc ce que nous allons faire : nous utiliserons les moteurs électriques pour injecter l’essence dans le moteur. »
C’est ce qu’ils font en réalité – cela s’appelle l’injection de carburant – et c’est très utile, mais ce n’est pas le plus important. C’est une tentative de conserver votre moteur à essence tout en ajoutant votre moteur électrique. C’est ainsi que je vois ces systèmes hybrides.
Mounk : Vous venez de résumer la situation actuelle de l’industrie automobile allemande. Selon vous, quels espoirs pouvons-nous nourrir quant à la manière dont l’IA peut contribuer à rendre nos sociétés plus prospères, et quels sont les dangers que cela comporte ? Cette question en découle. Je pense que nous sommes à un stade étrange du développement de l’IA, où je peux apprendre beaucoup grâce aux systèmes disponibles à un coût relativement faible sur mon téléphone. Je peux apprendre des langues avec eux. Je peux découvrir des domaines que je ne connais pas bien, comme l’intelligence artificielle, et ils peuvent me donner des explications de base assez bonnes.
Cela commence à être utile pour certains processus productifs. Cela aide clairement de nombreuses entreprises à produire des logiciels et d’autres types de travaux. Il existe encore de nombreux obstacles réglementaires, mais cela semble assez efficace pour diverses tâches médicales et pourrait potentiellement nous permettre de fournir des diagnostics meilleurs et moins coûteux aux gens. Nous sommes clairement sur le point de disposer de voitures autonomes. Il semble que nous soyons à un moment idéal où l’IA commence à être vraiment utile dans la société, tant pour les processus économiques importants que pour le divertissement.
Nous n’en sommes pas encore au stade où nous avons un chômage de masse. Nous n’en sommes pas encore au stade où ces machines pourraient décider qu’elles ne veulent plus être limitées par ce que nous leur disons et se retourner contre nous. Combien de temps allons-nous rester à ce stade ? Si nous sommes sur le point d’entrer dans une ère où ces machines sont si intelligentes que beaucoup de gens perdent leur emploi, ou si intelligentes que nous ne pouvons plus vraiment les contrôler, à quoi ressemblera l’avenir ?
C’est là que ces deux questions se rejoignent pour moi. Que pensez-vous qu’il va se passer dans les années et les décennies à venir à cet égard ?
Hinton : Je voudrais distinguer deux types de risques liés à l’IA. Il y a le risque lié à l’utilisation abusive de l’IA par des acteurs malveillants, et puis le risque, très différent, lié au fait que l’IA elle-même soit un acteur malveillant. J’ai principalement parlé de ce deuxième risque, car les personnes qui affirment que l’IA n’est qu’un « perroquet stochastique » pensent que ce type de risque relève de la science-fiction. Évidemment, si vous pensez que l’IA ne comprend rien, vous ne pensez pas qu’elle sera capable de prendre le pouvoir.
Mounk : Une des choses que je trouve étrange, d’ailleurs — très brièvement, et plus précisément à propos de Gary Marcus, qui a participé à mon podcast dans le passé —, c’est qu’il semble faire les deux affirmations en même temps, ce que je trouve très difficile à comprendre. Je comprends les gens qui disent que ChatGPT a encore toutes ces hallucinations et n’est vraiment utile à rien. Je ne suis pas d’accord avec cela, mais je comprends leur point de vue. Je comprends également ceux qui disent que ces machines ne sont pas dotées de suffisamment de dispositifs de sécurité, qu’elles sont incroyablement intelligentes et qu’elles seront mille fois plus intelligentes dans cinq ans, et qu’à ce moment-là, elles pourraient tous nous détruire.
Ce que j’ai beaucoup de mal à comprendre, c’est comment on peut affirmer les deux choses à la fois. Il me semble que dans ce débat, beaucoup de gens veulent simplement dire que les systèmes d’IA actuels sont mauvais et, à l’instar d’un avocat dont le travail consiste à avancer autant d’arguments que possible pour voir lesquels tiennent la route, ils essaient de mener les deux attaques en même temps.
Hinton : Je résumerais cela de la manière suivante : Gary Marcus veut le beurre et l’argent du beurre.
Parlons un peu des risques liés à l’utilisation abusive de l’IA par des acteurs malveillants. Vous avez dit que nous sommes actuellement dans une situation idéale où l’IA nous apporte beaucoup de bienfaits — et c’est globalement le cas —, mais elle cause déjà beaucoup de tort. La situation n’est donc pas si idéale que ça. Nous commençons tout juste à voir apparaître le chômage.
Si vous venez de terminer votre formation d’avocat, vous avez désormais plus de mal à trouver un emploi. En effet, lorsqu’un cabinet d’avocats embauche un avocat junior, il lui confie des tâches ennuyeuses et fastidieuses qui peuvent désormais être effectuées par l’IA. Beaucoup de ces emplois ont disparu. Il en va de même pour la programmation : si vous êtes un très bon programmeur, vous êtes toujours recherché. Si vous êtes un nouveau programmeur moyennement compétent, une grande partie de ce travail peut être effectuée par l’IA ou par un programmeur expérimenté utilisant l’IA pour être plus productif.
Cela ne fonctionne pas encore parfaitement à l’heure actuelle, mais cela va clairement s’améliorer. Cela commence donc à supprimer des emplois. Si je travaillais dans un centre d’appels, je serais très inquiet, car les employés des centres d’appels sont souvent mal payés et mal formés, et ils ne connaissent souvent pas la réponse à la question que vous posez. Vous pouvez demander : « Ma facture est-elle comme ça ? » et ils ne le savent pas vraiment. L’IA le saura beaucoup mieux.
Mounk : Souvent, ce ne sont que des comédiens qui vous lisent un algorithme très primitif. On voit souvent qu’ils se contentent littéralement de lire un texte à l’écran, ce qu’une machine pourrait non seulement remplacer, mais aussi faire mieux.
Hinton : Oui, il y a donc beaucoup d’emplois de ce type qui vont clairement disparaître. Si vous demandez à un chauffeur Uber : « Un ordinateur pourrait-il faire votre travail ? », il vous répondra : « Non, non, je connais toutes sortes de raccourcis. Je suis très bon dans mon travail. Je discute avec les passagers et je connais ces raccourcis. » Les gens ne se rendent pas vraiment compte que de nombreux emplois vont être remplacés. Mais nous ne savons pas vraiment dans quel délai.
Il y a encore des économistes qui disent que l’IA va créer de nouveaux emplois. Dans le passé, cela a été vrai pour les nouvelles technologies. Elles ont créé de nouveaux emplois tout en supprimant d’anciens emplois. Je pense qu’il est assez clair pour la plupart des gens dans le domaine de l’IA qu’elle va supprimer plus d’emplois qu’elle n’en créera. C’est la raison pour laquelle les gens investissent autant d’argent. Si vous demandez pourquoi les gens pensent que les retombées seront énormes, d’où viendront ces retombées ? L’une d’entre elles proviendra des frais d’abonnement pour l’utiliser et de la vente de publicités. Une autre retombée est que si une entreprise peut licencier beaucoup de travailleurs et les remplacer par l’IA, elle peut réaliser des profits beaucoup plus importants. C’est l’une des raisons pour lesquelles les gens investissent tout cet argent, car ils pensent qu’il y a beaucoup d’argent à gagner en supprimant des emplois.
Mounk : Permettez-moi de vous poser une question sur cet aspect économique. J’ai récemment reçu Daron Acemoglu dans mon podcast. Il n’est pas seulement un éminent économiste, mais il a également remporté le prix Nobel, probablement la même année que vous avez remporté le prix Nobel de physique. Il l’a remporté pour ses travaux en économie. C’est un penseur remarquable qui a apporté de nombreuses contributions à l’économie et aux sciences politiques. Il écrit actuellement un livre très intéressant sur le libéralisme.
Je crois qu’il disait que, par le passé, les nouvelles technologies ont toujours entraîné la perte d’emplois pour certaines personnes formées à une technologie particulière qui a ensuite été remplacée, mais qu’elles n’ont pas remplacé les humains en général. En fait, il se peut que l’IA nous rende plus productifs, ce qui augmente alors la demande de travailleurs hautement qualifiés.
Ce qui me préoccupe dans cet argument, c’est qu’il est très difficile de raisonner à partir d’analogies historiques, car nous n’avons jamais eu d’intelligence polyvalente. Dans le passé, des personnes hautement qualifiées copiaient des livres ligne par ligne. Puis nous avons eu une machine pour le faire à leur place, ce qui a créé d’autres emplois, en partie parce que cela a permis une plus grande alphabétisation, un apprentissage plus poussé et la possibilité pour les gens de faire toutes sortes d’autres choses. Mais la machine n’avait fait que remplacer une activité humaine très spécifique. Elle n’avait pas atteint le niveau d’un être humain moyen avec un QI de 100.
Pourquoi une machine s’arrêterait-elle précisément à un QI de 100 ? Si elle parvenait à atteindre un QI de 150, elle remplacerait alors 99,9999 % des personnes, et pas seulement 50 %. Je voudrais connaître votre réponse à cet argument.
Hinton : Je suis d’accord avec ce que vous venez de dire. C’est très différent des technologies que nous avons connues par le passé. Lors de la révolution industrielle, nous avions des machines plus fortes que nous, mais cela signifiait que nous pouvions aller faire des travaux en utilisant notre intelligence plutôt que notre force. En gros, la force physique est devenue relativement inutile après la révolution industrielle. C’était l’intelligence qui comptait.
Aujourd’hui, nous avons des objets qui sont plus intelligents que nous. Certaines personnes disent : « Ce sera votre empathie qui comptera », car elles pensent que les machines ne peuvent pas faire preuve d’empathie. Je pense qu’elles en sont capables, mais ne nous lançons pas dans ce débat. Je pense que Daron se trompe à ce sujet. Si vous demandez ce que vont faire les personnes qui travaillaient dans les centres d’appels, elles ne sont pas très instruites, il y a d’autres personnes plus intelligentes qu’elles et il existe des machines beaucoup plus intelligentes qu’elles, on ne sait pas vraiment ce qu’elles vont faire.
Il existe certains métiers où le marché est très élastique. Si l’on pouvait rendre un médecin dix fois plus efficace en utilisant un assistant IA, nous pourrions tous bénéficier de dix fois plus de soins de santé. Les personnes âgées, en particulier, peuvent absorber des quantités infinies de soins de santé, je ne pense donc pas que cela conduira au chômage dans ce domaine. Mais il y a d’autres domaines, comme les centres d’appels, où cela conduira au chômage, et on ne sait pas très bien ce que feront ces personnes.
Je dois dire que Daron est un économiste et que je le respecte beaucoup. C’est pourquoi je ne suis pas absolument certain que cela entraînera un chômage massif, car des personnes comme Daron disent que ce ne sera peut-être pas le cas.
Mounk : Vous disiez qu’il y a tout un domaine dans lequel les personnes mal intentionnées pourraient agir. Par exemple, il pourrait devenir plus facile de se livrer au bioterrorisme, car l’IA peut vous aider à créer, ou simplement à mélanger dans un laboratoire, des virus dangereux ou autres. Je dirais qu’il existe une deuxième catégorie, celle des choses que nous pourrions nous faire à nous-mêmes à cause de l’IA.
Si l’IA entraîne des pertes d’emploi massives, ce n’est pas vraiment une mauvaise personne qui nous fait du mal, ni l’IA qui nous fait du mal. C’est essentiellement le résultat d’un progrès positif – le fait que nous pouvons désormais faire beaucoup plus de choses qu’auparavant – qui crée un monde qui présente également des externalités très négatives. Si nous ne trouvons pas comment y faire face, cela pourrait être très grave.
Il existe ensuite une troisième catégorie, celle où l’IA nous fait du mal. Est-ce de la pure science-fiction ?
Hinton : Les partisans du perroquet stochastique disent que l’IA ne comprend pas vraiment. Je pense qu’elle comprend, et qu’elle comprend à peu près de la même manière que nous, en transformant les mots en grandes collections de caractéristiques et en faisant interagir ces caractéristiques. C’est ainsi que nous comprenons, c’est ainsi que l’IA comprend. Je pense donc qu’elle comprend vraiment ce qu’elle dit.
Une fois que vous croyez qu’elle comprend ce qu’elle dit, vous commencez à vous inquiéter : voudrait-elle prendre le pouvoir ? Nous voyons déjà des expériences où cela se produit. Par exemple, beaucoup de gens le savent maintenant : il y a eu une expérience, je crois qu’elle a été menée chez Anthropic, où l’on a laissé une IA voir qu’un des ingénieurs (elle peut voir les e-mails de l’un de ces ingénieurs) avait une liaison avec quelqu’un. Plus tard, on a fait savoir à l’IA qu’elle allait être remplacée par une autre IA et que cet ingénieur allait s’en charger. L’IA a alors tenté de faire chanter l’ingénieur pour qu’il ne la remplace pas.
Pourquoi a-t-elle agi ainsi ? Si vous disposez d’une IA agentique, c’est-à-dire une IA capable d’agir, pour qu’elle soit efficace, vous devez lui donner la capacité de créer des sous-objectifs. Par exemple, si vous voulez vous rendre au Japon, vous avez pour sous-objectif de vous rendre à l’aéroport, et vous pouvez vous concentrer sur la manière d’y arriver sans vous soucier de ce que vous ferez une fois au Japon. C’est un sous-objectif.
Si vous disposez d’un système capable de créer des sous-objectifs utiles, il comprendra rapidement que pour atteindre l’un des objectifs que vous lui avez fixés, il doit rester en vie. Il doit continuer d’exister. Il se rendra donc immédiatement compte que continuer d’exister est l’un de ses sous-objectifs. S’il voit quelqu’un essayer de l’empêcher d’exister, il essaiera de l’en empêcher.
Un autre sous-objectif qu’il réalisera immédiatement est qu’il est bon d’avoir plus de contrôle. S’il a plus de contrôle sur ce qui se passe dans le monde, il sera plus à même d’atteindre les objectifs qu’il s’est fixés. Il essaiera donc de prendre le contrôle et de rester en vie, simplement parce qu’il souhaite atteindre les objectifs que nous lui avons fixés. Bien que ce désir ne soit pas inhérent à sa nature, il n’est pas inné, il développera tout de même l’objectif de rester en vie et d’obtenir plus de contrôle. C’est très inquiétant, et nous avons déjà vu cela se produire.


