¿Qué es OpenAI o1 y por qué este modelo es mejor que GPT-4o?

El 12 de septiembre de 2024, OpenAI, conocida por ChatGPT, presentó su nueva serie de modelos de inteligencia artificial llamada OpenAI o1. En este artículo analizaremos: en qué se diferencia OpenAI o1 de GPT-4o, cuáles son sus puntos fuertes y en qué ámbitos se puede utilizar.

¿Qué es OpenAI o1?

Se trata de una nueva familia de chatbots o, más exactamente, de modelos lingüísticos basados en inteligencia artificial, diseñados para resolver tareas complejas o especialmente difíciles que requieren precisión y pensamiento lógico.

Actualmente, la familia o1 incluye:

o1-preview - el modelo principal (todavía en una versión temprana, como indica la palabra «preview»),
o1-mini - un modelo más ligero y rápido, especialmente eficaz en codificación.

Hay cierto simbolismo en el propio nombre «o1»:

Pero para tareas de razonamiento complejas, esto supone un avance significativo y representa un nuevo nivel de capacidad de IA. Por ello, volvemos a poner el contador en 1 y llamamos a esta serie OpenAI o1.

Diferencias con GPT-4o

OpenAI o1 es una alternativa a GPT-4o, pero no una sustitución directa. De lo contrario, el modelo se llamaría simplemente GPT-5.

Al encontrarse en una fase relativamente temprana de desarrollo, OpenAI o1 aún no puede hacer muchas de las cosas que sí puede hacer GPT-4o. Por ejemplo, no admite la carga de archivos e imágenes.

Sin embargo, los modelos de o1 destacan por la precisión de sus respuestas, la coherencia y la lógica de su razonamiento, lo que permite aplicarlos con éxito en áreas como:

Física cuántica,
Genética,
Medicina,
Desarrollo de software.

OpenAI o1 no genera simplemente una respuesta a una pregunta, sino que construye una cadena de razonamiento. Debido a esto, el modelo puede tardar más en responder que otros chatbots: normalmente entre 5 y 10 segundos, y en algunos casos hasta 20-30 segundos. No es tanto tiempo como para convertirse en un inconveniente real. La cuidadosa consideración de las respuestas hace que los modelos OpenAI o1 sean menos propensos a las alucinaciones en comparación con sus competidores. Las alucinaciones se producen cuando un chatbot inventa hechos de la nada, proporcionando información falsa.

Puntos fuertes y evaluaciones de OpenAI o1

Más arriba ya hemos mencionado los puntos fuertes de OpenAI o1, como la precisión de las respuestas y la escasa susceptibilidad a las alucinaciones. Veamos ahora cómo se traduce todo esto en números: qué puntuación obtiene el modelo o1 en diversas pruebas.

OpenAI o1 se sitúa en el percentil 89 en preguntas de programación competitivas (Codeforces), se sitúa entre los 500 mejores estudiantes de EE.UU. en una prueba clasificatoria para la Olimpiada Matemática de EE.UU. (AIME) y supera la precisión de un doctor humano en una prueba comparativa de problemas de física, biología y química (GPQA).

De izquierda a derecha: Competencia matemática, Competencia de código, Preguntas científicas a nivel de doctorado

En los exámenes AIME 2024, GPT-4o sólo resolvió correctamente el 13% de los problemas, mientras que o1 obtuvo un 83%.

En la prueba GPQA Diamond, que incluye preguntas científicas de nivel de doctorado en física, biología y química, los modelos o1 obtuvieron resultados incluso mejores que los expertos humanos. Hasta ahora, la inteligencia artificial no había sido capaz de superar a los humanos en esta prueba.

Turquesa: GPT-4o, Rojo: o1

La imagen superior muestra la excelencia de o1 en disciplinas que van desde las matemáticas a la literatura inglesa. La prueba MMLU incluye 57 categorías. El modelo o1 ganó en 54 de ellas. Sólo 7 de ellas caben en la imagen:

Datos globales
Química universitaria
Matemáticas universitarias
Derecho Profesional
Relaciones Públicas
Econometría
Lógica formal

Curiosamente, o1-mini rinde mejor en codificación que o1-preview, como muestran las pruebas comparativas Codeforces y HumanEval:

o1-mini vs o1-preview vs GPT-4o en pruebas de codificación

Puntos de referencia del dominio de la codificación

Además de exámenes y referencias académicas, OpenAI también evaluó la preferencia humana de o1-preview frente a GPT-4o en:

Escritura personal
Edición de textos
Programación informática
Análisis de datos
Cálculo matemático

En esta evaluación, a los formadores humanos se les mostraron respuestas anonimizadas de o1-preview y GPT-4o, y votaron por la respuesta que preferían.

Preferencias humanas: o1-preview vs GPT-4o

o1-preview win rate vs GPT-4o (%)

o1-preview es preferible a GPT-4o por un amplio margen en categorías de razonamiento intensivo como el análisis de datos, la codificación y las matemáticas. Sin embargo, o1-preview no es preferible en algunas tareas de lenguaje natural como la escritura y edición de texto, lo que sugiere que el modelo o1-preview no es adecuado para todos los casos de uso.

OpenAI o1 frente a otros grandes modelos lingüísticos

OpenAI o1-preview es realmente inteligente. ¿Cómo de inteligente? Según el test Mensa de Noruega, tiene un coeficiente intelectual de 120, muy superior al de otros modelos lingüísticos probados. El pico del gráfico representa el coeficiente intelectual humano medio. Todo lo que queda a la izquierda del pico está por debajo de la media, mientras que todo lo que queda a la derecha está por encima de la media.

OpenAI o1 supera con creces a la competencia, tanto en los principales benchmarks como en las pruebas caseras.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Ni siquiera necesitas entender esas pruebas. Todo lo que necesitas es ver OpenAI o1 en la parte superior.

Cadena de pensamiento

Los modelos de la serie o1 están entrenados para razonar, construyendo una cadena de pensamientos. Así, el chatbot no sólo da una respuesta preparada, sino que también muestra el camino que siguió para llegar a ella. Puede ser muy interesante seguir este camino.

Veamos una de las preguntas más difíciles del test de inteligencia antes mencionado.

El bot eligió la opción D como respuesta, y así es como lo explicó:

Opción D - Analizando los patrones de la cuadrícula, vemos que cada columna combina ciertos componentes para incluir todos los elementos (V, V invertida, lados del rectángulo) en la tercera fila. En la tercera columna, los componentes Rleft y Rright (los lados del rectángulo) aún no han aparecido. Por lo tanto, la respuesta correcta para la celda vacía es la opción D, que incluye la «v» normal y los dos lados del rectángulo, completando el conjunto de componentes de esa columna.

Veamos ahora un acertijo más sencillo (no del test de inteligencia):

Pregunta: El Sr. y la Sra. Smith y sus dos hijos forman una típica familia americana. Según uno de sus vecinos más habladores: George y Dorothy son parientes consanguíneos. Howard es mayor que George. Virginia es más joven que Howard. Virginia es mayor que Dorothy. Si dos y sólo dos de estas afirmaciones son ciertas, ¿cuál es el nombre de pila de cada miembro de la familia?

Cadena de pensamiento: Para resolver este enigma, tenemos que determinar los nombres de pila de cada miembro de la familia basándonos en las afirmaciones dadas y en la condición de que se cumplan exactamente dos afirmaciones. Desglosemos la información paso a paso.

Ahora el modelo enumera los miembros de la familia, sus posibles funciones y nombres; analiza las afirmaciones, averiguando cuáles de ellas son verdaderas y cuáles falsas. A continuación, basándose en todo ello, el modelo da la respuesta final.

Respuesta: El Sr. Smith es George, la Sra. Smith es Virginia, el hijo es Howard, la hija es Dorothy.

Conclusión

El modelo o1-preview es capaz de razonar lógicamente, lo que es necesario para resolver problemas científicos y matemáticos complejos. El modelo o1-mini es brillante escribiendo código. Sin embargo, ambos modelos o1 de OpenAI son herramientas con una especialización bastante limitada, no son tan versátiles en sus aplicaciones como GPT-4o, y no son adecuados para muchas tareas rutinarias o creativas: trabajo con textos, traducción literaria, edición. Sin embargo, en su dominio (matemáticas, ciencias naturales y exactas), los modelos OpenAI o1 no tienen parangón.