Qu'est-ce que l'OpenAI o1 et en quoi ce modèle est-il meilleur que le GPT-4o ?

Le 12 septembre 2024, OpenAI, connue pour ChatGPT, a présenté sa nouvelle série de modèles d'intelligence artificielle appelée OpenAI o1. Dans cet article, nous allons analyser : en quoi OpenAI o1 diffère de GPT-4o, quels sont ses points forts et dans quels domaines il peut être utilisé.

Qu'est-ce que l'OpenAI o1 ?

Il s'agit d'une nouvelle famille de chatbots, ou plus exactement de modèles de langage basés sur l'intelligence artificielle, conçus pour résoudre des tâches complexes ou particulièrement difficiles qui requièrent précision et réflexion logique.

Actuellement, la famille o1 comprend

o1-preview - le modèle principal (qui en est encore à sa première version, comme l'indique le mot « preview »),
o1-mini - un modèle plus léger et plus rapide, particulièrement efficace pour le codage.

Le nom même de « o1 » comporte une part de symbolisme :

Mais pour les tâches de raisonnement complexes, il s'agit d'une avancée significative qui représente un nouveau niveau de capacité de l'IA. C'est pourquoi nous remettons le compteur à 1 et nommons cette série OpenAI o1.

Différences par rapport à GPT-4o

OpenAI o1 est une alternative à GPT-4o, mais pas un remplacement direct. Dans le cas contraire, le modèle s'appellerait simplement GPT-5.

Étant à un stade de développement relativement précoce, OpenAI o1 ne peut pas encore faire beaucoup de choses que GPT-4o peut faire. Par exemple, il ne prend pas en charge le téléchargement de fichiers et d'images.

Cependant, les modèles o1 excellent dans la précision de leurs réponses, la cohérence et la logique de leur raisonnement, ce qui leur permet d'être appliqués avec succès dans des domaines tels que :

la physique quantique,
la génétique,
la médecine,
le développement de logiciels.

OpenAI o1 ne se contente pas de générer une réponse à une question, mais construit une chaîne de raisonnement. Pour cette raison, le modèle peut prendre plus de temps pour répondre que d'autres chatbots - généralement 5 à 10 secondes, et dans certains cas jusqu'à 20 à 30 secondes. Ce délai n'est pas si long qu'il en devienne gênant. L'examen attentif des réponses rend les modèles OpenAI o1 moins sujets aux hallucinations que leurs concurrents. On parle d'hallucinations lorsqu'un chatbot invente des faits à partir de rien, en fournissant de fausses informations.

Points forts et évaluations d'OpenAI o1

Nous avons déjà mentionné ci-dessus les points forts de l'OpenAI o1, tels que la précision des réponses et la faible susceptibilité aux hallucinations. Voyons maintenant comment tout cela se traduit en chiffres : quels sont les résultats du modèle o1 à différents tests.

OpenAI o1 se classe dans le 89e percentile sur des questions de programmation compétitives (Codeforces), parmi les 500 meilleurs étudiants des États-Unis lors d'une épreuve de qualification pour les Olympiades de mathématiques des États-Unis (AIME), et dépasse le niveau de précision d'un doctorat humain sur un benchmark de problèmes de physique, de biologie et de chimie (GPQA).

De gauche à droite : Mathématiques du concours, Code du concours, Questions scientifiques de niveau doctorat

Lors des examens AIME 2024, GPT-4o n'a résolu correctement que 13 % des problèmes, tandis que o1 a obtenu un score de 83 %.

Dans le test GPQA Diamond, qui comprend des questions scientifiques de niveau doctoral en physique, biologie et chimie, les modèles o1 ont même fait mieux que les experts humains. Jusqu'à présent, l'intelligence artificielle n'avait pas réussi à surpasser les humains dans ce test.

Turquoise : GPT-4o, Rouge : o1

L'image ci-dessus montre l'excellence de o1 dans des disciplines allant des mathématiques à la littérature anglaise. Le test MMLU comprend 57 catégories. Le modèle o1 a gagné dans 54 d'entre elles. Seules 7 d'entre elles correspondent à l'image :

Faits globaux
Chimie au collège
Collège de mathématiques
Droit professionnel
Relations publiques
Econométrie
Logique formelle

Il est intéressant de noter que o1-mini est plus performant en codage que o1-preview, comme le montrent les tests Codeforces et HumanEval :

o1-mini vs o1-preview vs GPT-4o dans les tests de codage

Critères de compétence en matière de codage

En plus des examens et des critères académiques, OpenAI a également évalué la préférence humaine entre o1-preview et GPT-4o :

Rédaction personnelle
Édition de textes
Programmation informatique
Analyse de données
Calculs mathématiques

Dans cette évaluation, les formateurs humains ont vu les réponses anonymes de o1-preview et GPT-4o et ont voté pour la réponse qu'ils préféraient.

Préférences humaines : o1-preview vs GPT-4o

o1-preview taux de victoire vs GPT-4o (%)

o1-preview est largement préféré à GPT-4o dans les catégories à forte intensité de raisonnement telles que l'analyse de données, le codage et les mathématiques. Cependant, o1-preview n'est pas préféré dans certaines tâches de langage naturel comme l'écriture et l'édition de texte, ce qui suggère que le modèle o1-preview n'est pas bien adapté à tous les cas d'utilisation.

OpenAI o1 par rapport à d'autres grands modèles de langage

OpenAI o1-preview est vraiment intelligent. À quel point ? D'après le test Mensa de Norvège, elle a un QI de 120, ce qui est nettement plus élevé que les autres modèles de langage testés. Le sommet du graphique représente le QI humain moyen. Tout ce qui se trouve à gauche du pic est inférieur à la moyenne, tandis que tout ce qui se trouve à droite est supérieur à la moyenne.

OpenAI o1 fait exploser la concurrence, que ce soit dans les principaux benchmarks ou dans les tests maison.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Vous n'avez même pas besoin de comprendre ces tests. Tout ce dont vous avez besoin, c'est de voir OpenAI o1 au sommet.

Chaîne de pensée

Les modèles de la série o1 sont entraînés à raisonner, en construisant une chaîne de pensée. Ainsi, le chatbot ne se contente pas de donner une réponse toute faite, mais il montre aussi le chemin qu'il a parcouru pour y parvenir. Il peut être très intéressant de suivre ce chemin.

Examinons l'une des questions les plus difficiles du test de QI mentionné plus haut.

Le robot a choisi l'option D comme réponse, et voici comment il l'a expliquée :

Option D - En analysant les motifs de la grille, nous constatons que chaque colonne combine certains composants pour inclure tous les éléments (V, V renversé, côtés du rectangle) à la troisième ligne. Dans la troisième colonne, les composantes Rgauche et Rdroite (les côtés du rectangle) ne sont pas encore apparues. Par conséquent, la réponse correcte pour la cellule vide est l'option D, qui inclut le « v » normal et les deux côtés du rectangle, complétant ainsi l'ensemble des composants de cette colonne.

Examinons maintenant une énigme plus simple (ne provenant pas du test de QI) :

Question : M. et Mme Smith et leurs deux enfants forment une famille américaine typique. D'après l'un de leurs voisins les plus bavards, George et Dorothy sont des parents de sang : George et Dorothy sont parents par le sang. Howard est plus âgé que George. Virginia est plus jeune que Howard. Virginia est plus âgée que Dorothy. Si deux et seulement deux de ces affirmations sont vraies, quel est le prénom de chaque membre de la famille ?

Chaîne de pensée : Pour résoudre cette énigme, nous devons déterminer les prénoms de chaque membre de la famille en fonction des affirmations données et de la condition selon laquelle deux affirmations seulement sont vraies. Décomposons les informations étape par étape.

Le modèle dresse la liste des membres de la famille, de leurs rôles et prénoms possibles ; il analyse les affirmations, en déterminant celles qui sont vraies et celles qui sont fausses. Puis, sur la base de tout cela, le modèle donne la réponse finale.

Réponse : M. Smith est George, Mme Smith est Virginia, le fils est Howard, la fille est Dorothy.

Conclusion

Le modèle o1-preview est capable de raisonnement logique, ce qui est nécessaire pour résoudre des problèmes scientifiques et mathématiques complexes. Le modèle o1-mini est brillant pour écrire du code. Cependant, les deux modèles o1 de l'OpenAI sont des outils assez étroitement spécialisés, ils ne sont pas aussi polyvalents dans leurs applications que le GPT-4o, et ils ne sont pas adaptés à de nombreuses tâches routinières ou créatives : travail avec des textes, traduction littéraire, édition. Cependant, dans leur domaine (mathématiques, sciences naturelles et exactes), les modèles OpenAI o1 sont inégalés.