OpenAI : le chemin de croix de Sam Altman pour rendre ses IA “bonnes en maths”

La pression d’avoir “de bonnes notes en maths” ne s’exerce pas que sur la progéniture humaine. Les IA, aussi, la subissent au quotidien. Sam Altman, le patron d’OpenAI est cette semaine un père comblé. Le nouveau modèle que l’entreprise vient de dévoiler, OpenAI o1, aurait un niveau “excellent en mathématiques”. Et le bulletin de notes pour le prouver. Le combat n’était pas gagné d’avance. C’est toute l’ironie de l’histoire des IA génératives : alors qu’elles sont le produit de maths avancées, elles ne sont pas très douées pour en faire.

Même de simples additions donnent parfois à ChatGPT des sueurs froides. Et n’allez pas lui demander de compter combien de fois la lettre “R” apparait dans le mot “strawberry” (framboise en anglais). Il répond “2” avec un aplomb phénoménal. “Demander à ChatGPT de faire des calculs n’a pas de sens, nous confiait encore récemment un pro du secteur, cela revient à utiliser un marteau pour faire un gâteau au chocolat.” L’ustensile n’est pas le bon car ChatGPT a une approche probabiliste et non déterministe. Ayant été entrainé sur des quantités énormes de données, il parvient souvent à formuler des réponses pertinentes au regard des schémas de nos questions. Mais s’il répond généralement que 2 + 2 est égal à 4, c’est qu’il identifie que c’est la suite la plus probable de termes à cette question, non pas qu’il a effectué l’opération.

Des internautes s’amusent même à faire changer d’avis ChatGPT. Lorsqu’ils lui répondent avec insistance qu’il se trompe et que 2 + 2 est en réalité égal à 5, l’outil finit parfois par en convenir et s’excuser. Rappelant encore – s’il le fallait – qu’il ne distingue pas le vrai ou faux mais cherche ce qui constitue d’un point de vue probabiliste la meilleure réponse à donner, vu la tournure du dialogue.

OpenAI n’est pas le seul à tenter de gravir l’Everest de l’IA mathématique. Qui n’est autre, dans le fond, que la capacité à raisonner. “Les réseaux de neurones profonds n’ont pas les capacités de généralisation que les humains développent […] ils n’extraient pas toujours les principes sous-jacents de ce qu’ils tentent d’apprendre”, expliquait récemment à L’Express Stuart Russell, professeur d’informatique à l’université de Berkeley et auteur de l’ouvrage de référence Artificial Intelligence : A Modern Approach. Pour ce ponte du secteur, cela ne fait aucun doute : se limiter à entraîner des grands modèles de langage ne produira pas de “vraie” IA. “L’idée commence à circuler de combiner différentes méthodes, dont certaines datent des années 80”, précise-t-il.

OpenAI o1 a des capacités de raisonnement avancées

Meta, Google, Anthropic… tous les grands acteurs de l’IA travaillent sur des approches hybrides. OpenAI indique sur son site que son nouveau modèle o1 suit une “chaîne de pensées” à l’instar d’un humain “qui prendrait un long moment pour réfléchir avant de répondre à une question difficile”. Son dernier produit o1 sait décomposer “les étapes complexes en plusieurs étapes simples”. Et contrairement à ses prédécesseurs, il est capable de détecter et corriger ces erreurs. S’il voit que la voie empruntée présente des contradictions, des incohérences, “il essaye une approche différente”, explique ainsi l’entreprise dans son billet de présentation.

Lorsque l’on pose une colle à o1, l’outil prend effet une voire plusieurs dizaines de secondes avant de répondre. Un menu indiquant la durée de la “réflexion” peut être déroulé afin d’afficher chaque étape du raisonnement de l’IA. En dehors de cela, “OpenAI ne donne pour le moment guère de détails sur la manière dont o1 a été conçu et son fonctionnement”, regrette Djamé Seddah, chercheur à Inria Paris. Nous avons soumis à o1 quelques devinettes glanées sur Internet. Comme celle-ci : “Une maîtresse de grande section de maternelle demande à ses élèves de couper des bandes de 2cm par 10cm. Pour cela, elle leur donne une feuille carrée de 10×10 cm. En moyenne un enfant de cette classe met 20 secondes pour couper une bande. Combien de temps mettra en moyenne un enfant pour couper entièrement sa feuille en bandes ?”

OpenAI o1 a pris quelques instants pour décortiquer le problème. “D’abord nous devons déterminer combien de bandes de 2×10 peuvent être découpées dans une feuille de 10×10. Et calculer le temps complet que cela prend sachant que chaque bande prend 20 secondes à être coupée.” Il avance ensuite dans ses réflexions avec méthode et précision. Lorsqu’on lui demande combien de fois la lettre “r” apparaît dans “strawberry”, il fournit en quelques secondes la réponse correcte. Mais pour des problèmes plus complexes, OpenAI prend davantage son temps. Et revient parfois sur ses pas, s’il relève une contradiction dans sa démonstration.

o1 n’est qu’une “preview”, une version test conçue pour recueillir les réactions des utilisateurs. Seule une multitude d’essais menés notamment par des mathématiciens aguerris permettra d’évaluer avec finesse ses capacités. Notre petite devinette sur les bandes de papier l’a par exemple mené dans l’ornière, même s’il est vrai qu’elle comportait un piège logique. Le raisonnement d’o1 pour évaluer le temps passé à découper une feuille de 10×10 en bandes est ainsi correct sur le plan mathématique. Mais l’outil n’a pas “réalisé” qu’une fois que l’avant-dernière bande était coupée, la dernière l’était dans le même temps. La bonne réponse est donc 80 secondes et non pas 100, comme o1 et beaucoup d’entre nous peuvent le penser instinctivement.

Dès lors que les énoncés ne comportent pas ce type de pièges, o1 semble être un efficace tout-terrain. OpenAI qui lui a fait passer un examen qualificatif pour les Olympiades Internationales de Mathématiques révèle ainsi qu’il obtient un score de 83 % de réponses exactes, quand la dernière version de ChatGPT (GPT-4o) ne réalise qu’un maigre 13 %. L’entreprise dirigée par Sam Altman met au passage en avant les multiples applications que ce nouveau modèle pourrait avoir, de la physique quantique à la biologie en passant par la cryptologie.

“Si les IA d’OpenAI ou celles d’autres acteurs deviennent performantes et réellement fiables en mathématiques, cela ouvre de vastes perspectives, confirme Djamé Seddah. Ne serait-ce que dans le monde économique : on pourra leur faire analyser des rapports financiers, des tendances de marchés et faire des prédictions pointues.” Même si o1 n’est pas le surpuissant modèle de langage GPT 5 qui devrait à terme succéder à GPT-4, OpenAI juge d’ailleurs qu’il constitue une classe d’IA à part, raison pour laquelle l’a baptisé “o1”. Le premier d’une nouvelle génération.

Source

M	T	W	T	F	S	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30