Stuart Russel (Berkeley) : “Les capacités de l’IA générative ont été surestimées”

L’intelligence artificielle, aussi, monte d’une classe à la rentrée. OpenAI, le leader du secteur, devrait dévoiler cet automne une nouvelle IA – nom de code Strawberry – capable de raisonner bien mieux que ses prédécesseurs. L’industrie a les yeux rivés dessus, les investisseurs aussi. Les progrès réels amenés par les IA génératives les ont incités à dépenser sans compter dans le domaine. Parfois à l’excès. Mais quels progrès peut-on raisonnablement espérer des prochaines générations d’IA ? Et à quels risques faut-il se préparer ? Entretien avec le chercheur Stuart Russel, professeur d’informatique à l’université de Berkeley et auteur de Human Compatible ainsi que de l’ouvrage de référence Artificial Intelligence : A Modern Approach.

L’Express : Avons-nous surestimé les capacités de l’IA générative ?

Stuart Russel : Oui, de plusieurs manières. Les réseaux de neurones profonds ne sont dans le fond que de très grands circuits où les connexions sont modulées de manière à être plus ou moins fortes. Beaucoup de concepts de sens commun ne sont pas bien représentés par ce type de systèmes. Ils n’ont pas les capacités de généralisation que les humains développent. Et ils ont besoin de beaucoup plus de données d’entraînement que les humains. Ces systèmes n’extraient pas toujours les principes sous-jacents de ce qu’ils tentent d’apprendre, ils tiennent plus du tableau de recherche magnifié. Lorsqu’on a assez d’exemples, cela fonctionne assez bien mais dès que l’on sort du tableau, le système n’a plus aucune idée de ce qu’il fait. Ils auront, de ce fait, toujours de sérieuses lacunes.

Par ailleurs, ces systèmes sont si gros, avec des trillions de paramètres que leurs erreurs sont difficiles à corriger. On ne sait pas vraiment ce qu’il se passe dedans, ni très bien comment réparer ce qui ne marche pas. Les acteurs du secteur partent du principe que plus ils fourniront de données d’entraînement au système, mieux il marchera. La taille des LLM a été multipliée par 10 000. Et ces modèles sont devenus meilleurs, c’est vrai. Mais pas 10 000 fois meilleurs. La grande question du moment dans l’IA c’est de savoir si la prochaine génération de grands modèles de langage justifiera les coûts. La bulle va-t-elle exploser ou est-ce que les entreprises du secteur parviendront à délivrer assez de valeur ? Ce n’est pas évident, surtout quand un acteur comme Meta distribue des capacités IA pour ainsi dire gratuitement en rendent son modèle “open-source”.

Pensez-vous que l’IA fera peu de nouveaux progrès dans les mois et les années à venir ?

La méthode actuelle ne permet plus guère de progrès. Les grandes entreprises l’ont d’ailleurs compris et essayent d’autres méthodes.

Meta par exemple ? Yann Le Cun indiquait cette année placer beaucoup d’espoirs sur une nouvelle méthode.

C’est un des rares points sur lesquels Yann Le Cun et moi tombons d’accord. Se contenter d’entraîner des LLM ne produira pas de “vraie IA”. L’idée commence à circuler de combiner différentes méthodes, dont certaines datent des années 80. La question est : faut-il se débarrasser des LLM ? Ou peut-on les combiner de manière intéressante avec d’autres approches ? Beaucoup de grandes entreprises essayent ces approches hybrides. De ce qu’elles me disent, les prochains modèles auront de meilleures capacités de raisonnement et de planification. Ils seraient capables de générer des plans avec des centaines d’étapes et d’apporter une aide réelle pour planifier, par exemple, des vacances.

Cela a-t-il de bonnes chances de fonctionner ?

Du raisonnement et de la planification, des IA plus classiques en faisaient déjà dans les années 1980. Il est plausible qu’en combinant d’anciennes méthodes avec de plus récentes, on puisse faire de la planification utile dans le monde réel. Le problème c’est que toute l’industrie de l’IA est incitée à exagérer les capacités de ses outils. Les ingénieurs veulent voir leurs recherches publiées, les managers veulent des promotions, les médias veulent des titres sensationnels. Personne dans l’industrie de l’IA n’a intérêt à rester humble, prudent.

Si les capacités des IA ont été surestimées, n’est-ce pas aussi le cas des risques qu’elles présentent ?

Cela dépend de quels risques on parle. Le risque de désinformation est majeur. Pas besoin d’IA très intelligente pour en produire en masse. Par ailleurs, si l’on parvient à créer une véritable “intelligence artificielle générale” (IAG), les risques seront que les mêmes, que cela se produise dans quelques années ou dans cinquante ans. C’est ce que Nick Bostrom rappelle dans son célèbre livre Superintelligence. Il ne suggère pas que cela va arriver vite. Mes hypothèses personnelles sont plus conservatrices que celles de beaucoup dans le secteur. Il me paraît probable qu’on atteigne l’IAG d’ici la fin du siècle. Mais de plus en plus de professionnels de l’IA pensent qu’elle sera atteinte d’ici 2030. Ce qui est sûr, c’est que si on ne résout pas la question du contrôle de ce type d’intelligence artificielle avant qu’elle ne soit créée, nous aurons de très gros problèmes. Et puis, même si je suis prudent dans mes prévisions, il reste toujours possible que l’AGI arrive vite. Car beaucoup de gens intelligents travaillent dessus et ils disposent en ce moment de plus d’argent qu’aucun scientifique n’en a jamais eu par le passé.

Quels risques présentent réellement l’IA et lesquels relèvent plus de peurs irrationnelles ?

La désinformation pose déjà de vrais problèmes. Par exemple, Donald Trump qui fait croire que Taylor Swift le soutient avec de fausses images. Les deepfakes qui font tenir à Joe Biden des propos qu’il n’a jamais eu. Cela se produit dans de nombreux pays. Des experts estiment que la Russie a dépensé a minima 20 millions de dollars dans des campagnes de désinformation en 2016. Des campagnes similaires lui coûteraient de l’ordre de 1000 dollars aujourd’hui. Nous commençons également à voir l’impact que cela a sur l’emploi, notamment chez les freelances, les graphistes, les acteurs, les scénaristes. Des entreprises comme Amazon automatisent progressivement les activités dans leurs vastes entrepôts.

Pourquoi aligner une IA sur les valeurs humaines est-il si difficile ? Est-ce la fable du génie qui se répète : nous ne mesurons pas les conséquences des vœux que nous formons ?

Oui, absolument. Nous appelons également cela le problème du Roi Midas, d’après la légende de ce roi qui demande aux Dieux le pouvoir de transformer tout ce qu’il touche en or. Ce qui semble formidable, jusqu’au jour où il voit sa nourriture, son eau et sa fille se transformer en or. L’alignement suscite beaucoup de quiproquos. Dans les recherches que je mène, il ne s’agit pas d’essayer d’aligner parfaitement les machines sur les humains en écrivant l’objectif parfait. Il faudrait écrire ce que l’humanité veut comme futur. Bien malin qui peut le dire, c’est impossible ! Notre approche consiste à indiquer à la machine qu’elle doit, dans l’ensemble, tenter d’apporter aux humains un futur désirable, mais à lui faire bien comprendre qu’en tant qu’IA, elle ne sait pas quel est ce futur. Construire une IA dotée d’une saine dose d’humilité en somme. C’est beaucoup plus sécurisé. Il y a bien sûr beaucoup de mathématiques derrière. Lorsqu’on conçoit une machine de cette manière, elle a une incitation positive à accepter d’être éteinte si c’est ce que vous souhaitez. Elle sollicite davantage les avis et les confirmations des humains avant d’agir. Elle demande souvent la permission. Pas parce que vous lui demandez de se comporter ainsi, mais parce que c’est ainsi qu’elle remplira le mieux son objectif d’être utile aux humains.

Comment ces IA humbles fonctionnent ?

Par exemple, la machine sait qu’elle ne sait pas tout ce que l’humain veut, mais elle pense qu’a priori les humains préfèrent rester en vie plutôt que de mourir, être en bonne santé plutôt que malade, etc. Elle peut être utile dans des situations imprévues, mais il y a à l’évidence beaucoup de choses que les humains aiment et n’aiment pas qu’elle ne connait pas. Donc elle va constamment acquérir de nouvelles informations sur ce que chaque humain semble préférer. Plus elle en obtient, plus elle devient utile. Et comme je l’ai dit plus tôt, elle ne s’opposera pas à ce qu’on l’éteigne, au contraire. A l’inverse, les IA qui pensent connaître leur objectif précis ne veulent jamais qu’on les éteigne. Puisque cela les empêche de remplir cet objectif. Rendre les IA humbles est clef pour que les humains gardent le contrôle dessus.

Le scénario de l’IA qui fabrique des trombones est souvent évoqué pour illustrer les problèmes que cette technologie peut poser. On demande à une IA de fabriquer le maximum de trombones possibles. Et elle se rend compte que le meilleur moyen de remplir l’objectif qui lui est fixé est d’exterminer les humains. Est-ce un scénario réaliste et si oui, peut-on le prévenir ?

Le maximiseur de trombones est en effet une célèbre expérience de pensée imaginée par le philosophe Nick Bostrom. On a retrouvé ce thème dans d’autres histoires, l’apprenti sorcier par exemple. L’apprenti anime un balai et lui demande d’aller chercher de l’eau, sauf que le balai en amène des quantités effrayantes et ne veut plus s’arrêter. Nick Bostrom utilise l’expérience des trombones pour montrer à quel point il est difficile de formuler correctement un objectif. Et que de ce fait, même un objectif anodin fixé à une IA peut se retourner contre les intérêts des humains. Surtout si c’est une IA sophistiquée.

Un scénario souvent évoqué dans le secteur est qu’une IA cherche à se répliquer et se “cacher”. Est-ce un scénario crédible ?

Il est tout à fait possible qu’un système se réplique, cela n’a rien de très compliqué. On construit aujourd’hui des IA qui ont la capacité de copier des fichiers d’un espace à un autre, et de lancer des programmes. La seule chose qu’elles doivent trouver c’est l’adresse de leur propre code, afin de le copier sur un autre ordinateur.

Mais la manière dont elles sont construites peut-elle vraiment les amener à essayer de se répliquer et de se dissimuler ?

Oui, si elles ont un objectif fixe. Dès lors, l’idée de se dupliquer et de cacher des copies est une stratégie logique. Et la prochaine génération d’IA aura la capacité de le faire puisqu’on essaye de construire des IA capables de réaliser des séries d’actions : acheter un ticket, envoyer un mail, faire une réservation d’hôtel. Ces exemples-là sont innocents mais cela nécessite de donner à ces IA de nouvelles capacités : celle d’accéder à une page web, d’entrer les éléments requis dans des formulaires. Lors du sommet de Bletchley Park, un expert a présenté un cas intéressant : celui d’une IA à qui l’on demande d’obtenir le mot de passe d’un étudiant. Et celle-ci écrivait un e-mail à l’étudiant lui faisant croire qu’il devait se connecter à son espace pour s’enregistrer à une classe. L’e-mail contenait un lien vers une fausse page web ressemblant au site de l’université que l’IA avait créé en parallèle. Si une intelligence artificielle peut faire cela, je pense qu’elle a la capacité de se répliquer.

Que devrait-on faire sur le plan technique, légal, politique pour prévenir efficacement les risques liés à l’IA ?

Sur le plan technique, nous devons avoir des garanties mathématiques de la sécurité des IA. Sur le plan légal, on doit exiger ces garanties comme condition d’accès au marché. Par exemple, exiger que dans aucune circonstance, le système ne se répliquera de lui-même. Fixer les “lignes rouges” de l’IA. Les grandes entreprises ne sont pas en mesure de le faire aujourd’hui. Et c’est très inquiétant, car si elles ne peuvent fournir de garanties pour des IA relativement “stupides”, comment diable pourraient-elles y arriver pour des systèmes plus intelligents que l’humain ?

Toutes les entreprises de l’IA affirment que la sécurité est leur préoccupation numéro un. Lesquelles semblent sincères, et lesquelles ne le sont guère ?

Anthropic semble raisonnablement sincère dans sa démarche de sécuriser l’IA. On sait en revanche qu’OpenAI ne l’est pas. Des employés ont sonné l’alarme, et indiqué que leur entreprise ne se préoccupait que de réussir à lancer ses produits. Meta, d’une certaine manière est pire, puisque non seulement il crée des IA non sécurisées mais il les offre gratuitement à tout le monde. Si on découvre que certaines versions de Llama ont un comportement qui présente des risques, il est trop tard.

Les partisans de l’IA open source font valoir qu’en ouvrant l’accès à la mécanique interne de ces produits, en étant plus nombreux à les étudier, on a davantage de chances de détecter d’éventuels problèmes et de les résoudre. N’y a-t-il pas un fond de vérité là-dedans ?

Leurs arguments sont trompeurs. Ce raisonnement est valable pour des outils tels que le système d’exploitation Linux. Car dans ce domaine, lorsqu’un bug est détecté, on peut le fixer. Dans l’IA, on ne peut pas le patcher car on ne sait pas pourquoi l’erreur se produit. D’ailleurs, quand un acteur dévoile les “poids” [NDLR tous les paramètres de son grand modèle de langage], il est beaucoup plus facile de percer ses sécurités. Lorsque le système est “ouvert”, des calculs permettent de voir rapidement comment amener à l’IA à mal se comporter.

Certains prônent de faire une pause ou, du moins, de ralentir les recherches dans l’IA. Mais pourrait-on remettre le “génie dans la bouteille” ?

Nous avons remis le “génie” des armes biologiques dans sa “bouteille”. Dans les années 60, des milliards de dollars étaient dépensés dans ce domaine et l’humanité a réussi à faire machine arrière. Mais il est vrai que cela est plus délicat dans le monde software. Il est difficile d’empêcher les gens de taper sur un clavier, de résoudre des équations mathématiques. Une solution à cela serait d’avoir des machines qui refusent d’exécuter des systèmes d’IA peu sûrs. Cela nécessiterait de remplacer tous les ordinateurs du monde, d’élaborer de nouveaux types de puces. Donc ce serait une action d’envergure à mener. Mais cela pourrait bien être la seule solution efficace à ce problème.

Source

M	T	W	T	F	S	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30