ChatGPT fête ses 2 ans. Et le modèle GPT derrière cet outil a déjà évolué plusieurs fois. Le dernier lancement en date, o1, n’offre pas réellement une version plus puissante. Plutôt un outil au fonctionnement différent : il décompose les tâches, étape par étape, pour réaliser des opérations de raisonnement plus complexe. Si depuis des mois, le dirigeant d’OpenAI Sam Altman répète à l’envi qu’un nouveau modèle révolutionnaire, dépassant les capacités intellectuelles des humains, va sortir, les dernières nouvelles sont moins réjouissantes.
Le modèle, connu en interne sous le nom d’Orion, n’a pas atteint les performances souhaitées, butant sur des tâches de programmation informatique ou de raisonnement. Les progrès sont réels mais d’une ampleur moindre que les sauts précédents. Les concurrents d’OpenAI font eux aussi face à des rendements décroissants. La prochaine version de Gemini de Google ne répond pas aux attentes internes. Anthropic a dû décaler le calendrier de sortie de son très attendu modèle Claude 3.5 Opus.
Ces difficultés remettent en cause la règle de l’échelle selon laquelle plus de puissance de calcul, plus de données et des modèles plus volumineux ouvriraient inévitablement la voie à de plus grands progrès dans la puissance des intelligences artificielles. Dario Amodei, le fondateur d’Anthropic, a consacré les vingt premières minutes de son intervention de cinq heures dans le podcast de Lex Fridman à ce sujet. La question est cruciale. Contenant des centaines de milliers de puces Nvidia reliées ensemble, les data centers nécessaires pour entraîner les modèles coûtent de plus en plus cher. Dario Amodei évoquait les chiffres de 1 milliard de dollars aujourd’hui, quelques milliards en 2025, une dizaine de milliards en 2026. Il faudra donc justifier de tels investissements.
Contourner le mur de l’IA
La principale limite que rencontrent ces sociétés est la disponibilité de sources inexploitées de haute qualité pour l’entraînement. Il est facile de générer des quantités de données de manière synthétique mais celles-ci ne sont pas assez diverses. Or, les contenus répétitifs ou biaisés réduisent la performance. Selon certaines estimations, la totalité des textes publics disponibles pourrait être épuisée entre 2026 et 2032. Actuellement, environ 33 % des données publiques de qualité ont déjà été utilisées pour entraîner des modèles récents. OpenAI a signé des accords avec des éditeurs de contenus pour nourrir l’entraînement des IA en amont de leur lancement, avec des sources exclusives. Ces efforts sont plus lents et plus coûteux que la simple extraction du Web.
Au-delà du pré-entraînement, l’une des voies de progrès est la “postformation”. Celle-ci se base depuis longtemps sur des commentaires humains qui aident à améliorer les réponses et affiner la façon dont le modèle doit interagir avec les utilisateurs. Mais désormais, les entreprises embauchent des spécialistes de haut niveau capables de qualifier des données liées à leur domaine d’expertise, que ce soient les mathématiques ou le codage. Les nouveaux modèles adoptent une approche baptisée “mélange d’experts” qui consiste à assembler des sous-réseaux distincts. Chacun est spécialisé dans un sous-ensemble de données d’entrée, afin d’effectuer conjointement une tâche.
La progression des leaders se faisant plus lente, des acteurs concurrents, en Chine notamment, les rattrapent. La société chinoise 01.ai, fondée par l’entrepreneur Kai-Fu Lee, revendique avoir créé un modèle équivalent à GPT-4 en utilisant 30 fois moins de puissance de calcul. La semaine dernière, Deepseek, un spin-off du hedge fund High-Flyer Capital Management, a révélé son modèle à raisonnement complexe R1 qui surpasse o1 d’OpenAI.
Il est cependant trop tôt pour déclarer que la bulle de l’intelligence artificielle générative va éclater. La vitesse de l’inférence – le traitement d’une information par le modèle pour générer une réponse – progresse rapidement, permettant de découper les tâches plus finement et donc d’avoir un meilleur raisonnement. De nombreux nouveaux usages vont apparaître et se développer, même avec des modèles dont les performances croissent moins rapidement que par le passé. C’est notamment le cas des agents, ces modèles spécialisés qui connectent différentes sources de données pour comprendre un contexte et effectuer des tâches cohérentes avec un faible risque d’erreurs.
Source