Què és OpenAI o1 i com és millor aquest model que GPT-4o

El 12 de setembre de 2024, OpenAI, conegut per ChatGPT, va presentar la seva nova sèrie de models d'intel·ligència artificial anomenada OpenAI o1. En aquest article analitzarem: com es diferencia OpenAI o1 de GPT-4o, quins són els seus punts forts i en quins àmbits es pot utilitzar.

Què és OpenAI o1?

Es tracta d'una nova família de chatbots, o, més exactament, models de llenguatge basats en la intel·ligència artificial, dissenyats per resoldre tasques complexes o especialment difícils que requereixen precisió i pensament lògic.

Actualment, la família o1 inclou:

o1-preview: el model principal (encara en una versió primerenca, tal com indica la paraula "preview"),
o1-mini: un model més lleuger i ràpid que és especialment eficaç per codificar.

Hi ha algun simbolisme en el propi nom "o1":

Però per a tasques de raonament complexes, aquest és un avenç significatiu i representa un nou nivell de capacitat d'IA. Tenint en compte això, estem restablint el comptador a 1 i anomenant aquesta sèrie OpenAI o1.

Diferències amb GPT-4o

OpenAI o1 és una alternativa a GPT-4o, però no un reemplaçament directe. En cas contrari, el model s'anomenaria simplement GPT-5.

En estar en una fase de desenvolupament relativament primerenca, OpenAI o1 encara no pot fer moltes de les coses que pot fer GPT-4o. Per exemple, no admet la càrrega de fitxers i imatges.

No obstant això, els models o1 destaquen per la precisió de les seves respostes, la coherència i la lògica del seu raonament, cosa que els permet aplicar-los amb èxit en àrees com:

Física quàntica,
Genètica,
Medicament,
Desenvolupament de programari.

OpenAI o1 no només genera una resposta a una pregunta, sinó que construeix una cadena de raonaments. A causa d'això, el model pot trigar més a respondre que altres chatbots, normalment entre 5 i 10 segons, i en alguns casos fins a 20-30 segons. Això no és tan llarg com per convertir-se en un autèntic inconvenient. La consideració acurada de les respostes fa que els models OpenAI o1 siguin menys propensos a les al·lucinacions en comparació amb els seus competidors. Les al·lucinacions són quan un robot de xat inventa fets de l'aire, proporcionant informació falsa.

Punts forts i avaluacions d'OpenAI o1

Més amunt ja hem esmentat els punts forts d'OpenAI o1, com ara la precisió de les respostes i la feble susceptibilitat a les al·lucinacions. Vegem ara com es tradueix tot això en números: què puntua el model o1 en diverses proves.

OpenAI o1 es troba al percentil 89 en qüestions de programació competitiva (Codeforces), se situa entre els 500 millors estudiants dels EUA en una classificació per a les Olimpíades de Matemàtiques dels EUA (AIME) i supera la precisió del nivell de doctorat humà en un punt de referència de física, biologia , i problemes de química (GPQA).

D'esquerra a dreta: matemàtiques de la competició, codi de la competició, preguntes de ciències de nivell de doctorat

En els exàmens AIME de 2024, GPT-4o va resoldre correctament només el 13% dels problemes, mentre que o1 va obtenir un 83%.

A la prova GPQA Diamond, que inclou preguntes de ciència de nivell de doctorat en física, biologia i química, els models o1 ho van fer fins i tot millor que els experts humans. Anteriorment, la intel·ligència artificial no ha estat capaç de superar els humans en aquesta prova.

Turquesa: GPT-4o, Vermell: o1

La imatge de dalt mostra l'excel·lència d'o1 en disciplines que van des de les matemàtiques fins a la literatura anglesa. La prova MMLU inclou 57 categories. El model o1 va guanyar en 54 d'ells.Només 7 d'ells encaixen a la imatge:

Fets globals
Facultat de Química
Matemàtiques universitaris
Dret Professional
Relacions Públiques
Econometria
Lògica formal

Curiosament, o1-mini funciona millor a la codificació que o1-preview, tal com mostren els punts de referència de Codeforces i HumanEval:

o1-mini vs o1-preview vs GPT-4o en els punts de referència de codificació

Punts de referència de competència en codificació

A més dels exàmens i els punts de referència acadèmics, OpenAI també va avaluar la preferència humana d'o1-preview vs GPT-4o a:

Redacció personal
Edició de text
Programació Informàtica
Anàlisi de dades
Càlcul matemàtic

En aquesta avaluació, als entrenadors humans se'ls va mostrar respostes anònimes d'o1-preview i GPT-4o, i van votar per quina resposta preferien.

Preferències humanes: o1-preview vs GPT-4o

Percentatge de guanys de vista prèvia o1 vs GPT-4o (%)

La previsualització o1 es prefereix a GPT-4o per un gran marge en categories de raonament pesat com l'anàlisi de dades, la codificació i les matemàtiques. Tanmateix, o1-preview no es prefereix en algunes tasques de llenguatge natural com escriure i editar text, cosa que suggereix que el model o1-preview no és adequat per a tots els casos d'ús.

OpenAI o1 vs altres grans models de llenguatge

OpenAI o1-preview és realment intel·ligent. Què intel·ligent? Segons el test Norway Mensa, té un coeficient intel·lectual de 120, que és significativament més alt que altres models lingüístics provats. El pic del gràfic representa el coeficient intel·lectual mitjà humà. Tot a l'esquerra del pic està per sota de la mitjana, mentre que tot a la dreta està per sobre de la mitjana.

Resultats de la prova de coeficient intel·lectual

L'OpenAI o1 fa volar la competició fora de l'aigua, tant en les principals proves de referència com en les proves casolanes.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Ni tan sols cal entendre aquestes proves. Tot el que necessiteu és veure OpenAI o1 a la part superior.

Cadena de pensament

Els models de la sèrie o1 estan entrenats per raonar, construint una cadena de pensaments. Així, el chatbot no només dóna una resposta ja feta, sinó que també mostra el camí que va prendre per arribar-hi. Pot ser molt interessant seguir aquest camí.

Vegem una de les preguntes més difícils de la prova de coeficient intel·lectual esmentat anteriorment.

Pregunta de la prova de coeficient intel·lectual

El bot va triar l'opció D com a resposta, i així ho va explicar:

Opció D: analitzant els patrons de la quadrícula, veiem que cada columna combina determinats components per incloure tots els elements (V, V cap per avall, costats rectangulars) a la tercera fila. A la tercera columna, els components Resquerra i Rright (els costats del rectangle) encara no han aparegut. Per tant, la resposta correcta per a la cel·la buida és l'opció D, que inclou la 'v' normal i els dos costats del rectangle, completant el conjunt de components d'aquesta columna.

Ara mirem un trencaclosques més senzill (no de la prova de coeficient intel·lectual):

Pregunta: El senyor i la senyora Smith i els seus dos fills formen una família americana típica. Segons un dels seus veïns més xerraire: George i Dorothy són parents de sang. Howard és més gran que George. Virginia és més jove que Howard. La Virgínia és més gran que la Dorothy. Si dues i només dues d'aquestes afirmacions són certes, quin és el nom de cada membre de la família?

Cadena de pensament: per resoldre aquest trencaclosques, hem de determinar els noms de cada membre de la família a partir de les afirmacions donades i la condició que exactament dues afirmacions siguin certes. Desglossem la informació pas a pas.

Ara el model enumera els membres de la família, els seus possibles rols i noms; analitza les afirmacions, descobrint quines són certes i quines falses. Després, basant-se en tot el que el model dóna la resposta final.

Resposta: el senyor Smith és George, la senyora Smith és Virginia, el fill és Howard, la filla és Dorothy.

Conclusió

El model o1-preview és capaç de raonament lògic, que és necessari per resoldre problemes científics i matemàtics complexos. El model o1-mini és brillant per escriure codi. Tanmateix, tots dos models OpenAI o1 són eines força especialitzades, no són tan versàtils en les seves aplicacions com GPT-4o i no són adequats per a moltes tasques rutinàries o creatives: treballar amb textos, traducció literària, edició. Tanmateix, en el seu domini (matemàtiques, ciències naturals i exactes), els models OpenAI o1 són incomparables.