Kaj je OpenAI o1 in v čem je ta model boljši od GPT-4o

12. septembra 2024 je podjetje OpenAI, znano po ChatGPT, predstavilo novo serijo modelov umetne inteligence, imenovano OpenAI o1. V tem članku bomo analizirali: kako se OpenAI o1 razlikuje od GPT-4o, kakšne so njegove prednosti in na katerih področjih ga lahko uporabite.

Kaj je OpenAI o1?

Gre za novo družino klepetalnih robotov ali, natančneje, jezikovnih modelov, ki temeljijo na umetni inteligenci in so namenjeni reševanju kompleksnih ali posebej zahtevnih nalog, ki zahtevajo natančnost in logično razmišljanje.

Trenutno družina o1 vključuje:

o1-preview - glavni model (ki je še vedno v zgodnji različici, kot je označeno z besedo „preview“),
o1-mini - lažji in hitrejši model, ki je še posebej učinkovit pri kodiranju.

V samem imenu „o1“ je nekaj simbolike:

Vendar je za kompleksne naloge sklepanja to pomemben napredek in predstavlja novo raven zmogljivosti umetne inteligence. Glede na to smo števec vrnili na 1 in to serijo poimenovali OpenAI o1.

Razlike od GPT-4o

OpenAI o1 je alternativa GPT-4o, vendar ne neposredna zamenjava. V nasprotnem primeru bi se model imenoval preprosto GPT-5.

Ker je OpenAI o1 v razmeroma zgodnji fazi razvoja, še ne more opravljati številnih stvari, ki jih lahko opravlja GPT-4o. Na primer, ne podpira prenosa datotek in slik.

Vendar pa se modeli o1 odlikujejo po natančnosti svojih odzivov ter doslednosti in logičnosti svojega sklepanja, kar jim omogoča uspešno uporabo na področjih, kot so npr:

kvantna fizika,
genetika,
medicina,
razvoj programske opreme.

OpenAI o1 ne ustvari zgolj odgovora na vprašanje, temveč zgradi verigo utemeljevanja. Zaradi tega lahko model za odgovor potrebuje več časa kot drugi klepetalni boti - običajno 5-10 sekund, v nekaterih primerih pa tudi do 20-30 sekund. To pa ni tako dolgo, da bi predstavljalo resno nevšečnost. Zaradi skrbnega razmisleka o odzivih so modeli OpenAI o1 v primerjavi s konkurenti manj nagnjeni k halucinacijam. O halucinacijah govorimo takrat, ko si klepetalni robot izmišljuje dejstva iz zraka in zagotavlja napačne informacije.

Prednosti in ocene OpenAI o1

Zgoraj smo že omenili prednosti sistema OpenAI o1, kot sta natančnost odzivov in šibka dovzetnost za halucinacije. Zdaj si poglejmo, kako se vse to odraža v številkah: kakšne rezultate ima model o1 v različnih testih.

OpenAI o1 se uvršča v 89. percentil pri tekmovalnih vprašanjih s področja programiranja (Codeforces), uvršča se med 500 najboljših učencev v ZDA v kvalifikacijah za matematično olimpijado v ZDA (AIME) in presega natančnost na ravni človeškega doktorja znanosti pri primerjalnem testu fizike, biologije in kemije (GPQA).

o1 proti GPT-4o proti človeškemu strokovnjaku

Od leve proti desni: Tekmovalna matematika, tekmovalna koda, znanstvena vprašanja na doktorski ravni

Na izpitih AIME 2024 je GPT-4o pravilno rešil le 13 % nalog, medtem ko je o1 dosegel 83 %.

Na preizkusu GPQA Diamond, ki vključuje naravoslovna vprašanja doktorske ravni iz fizike, biologije in kemije, so bili modeli o1 celo boljši od človeških strokovnjakov. Pred tem umetna inteligenca pri tem testu ni mogla preseči ljudi.

Turkizna: GPT-4o, Rdeča: o1

Zgornja slika prikazuje odličnost o1 v različnih disciplinah, od matematike do angleške književnosti. Test MMLU vključuje 57 kategorij. Model o1 je zmagal v 54 od njih. Na sliko se jih prilega le 7:

Globalna dejstva
Visokošolska kemija
Visokošolska matematika
Strokovno pravo
Odnosi z javnostmi
Ekonometrija
Formalna logika

Zanimivo je, da se o1-mini bolje odreže pri kodiranju kot o1-preview, kot kažejo primerjalne ocene Codeforces in HumanEval:

o1-mini vs o1-preview vs GPT-4o v primerjalnih testih kodiranja

Merila usposobljenosti za kodiranje

Poleg izpitov in akademskih meril je OpenAI ocenil tudi človeško preferenco med pregledom o1 in GPT-4o v:

Osebno pisanje
Urejanje besedila
Računalniško programiranje
Analizi podatkov
Matematičnih izračunih

Pri tem ocenjevanju so bili človeškim trenerjem prikazani anonimizirani odgovori iz programov o1-preview in GPT-4o, nato pa so glasovali, kateri odgovor jim je bolj všeč.

Človeške preference: o1-preview proti GPT-4o

o1-preview zmagovalna stopnja proti GPT-4o (%)

o1-preview ima v kategorijah, ki zahtevajo veliko razmišljanja, kot so analiza podatkov, kodiranje in matematika, veliko prednost pred GPT-4o. Vendar pa model o1-preview nima prednosti pri nekaterih nalogah naravnega jezika, kot sta pisanje in urejanje besedila, kar nakazuje, da model o1-preview ni primeren za vse primere uporabe.

OpenAI o1 v primerjavi z drugimi velikimi jezikovnimi modeli

OpenAI o1-preview je res pameten. Kako pameten? Na podlagi norveškega testa Mensa ima IQ 120, kar je bistveno več kot drugi preizkušeni jezikovni modeli. Vrh na grafu predstavlja povprečni IQ človeka. Vse, kar je levo od vrha, je pod povprečjem, vse, kar je desno, pa je nad povprečjem.

OpenAI o1 v glavnih primerjalnih testih in domačih testih izriva konkurenco iz povprečja.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Teh testov vam sploh ni treba razumeti. Vse, kar potrebujete, je videti OpenAI o1 na vrhu.

Miselna veriga

Modeli serije o1 so usposobljeni za razmišljanje, pri čemer gradijo verigo misli. Tako klepetalni robot ne poda le pripravljenega odgovora, temveč prikaže tudi pot, po kateri je prišel do njega. Spremljanje te poti je lahko zelo zanimivo.

Oglejmo si eno od težjih vprašanj iz prej omenjenega testa IQ.

Bot je kot odgovor izbral možnost D in to pojasnil takole:

Varianta D - Z analizo vzorcev v mreži vidimo, da vsak stolpec združuje določene komponente, tako da do tretje vrstice vključuje vse elemente (V, obrnjeno V, stranice pravokotnika). V tretjem stolpcu se sestavini Rleft in Rright (stranici pravokotnika) še nista pojavili. Zato je pravilen odgovor za prazno celico možnost D, ki vključuje običajni „v“ in obe stranici pravokotnika, s čimer se dopolni nabor sestavin za ta stolpec.

Zdaj si oglejmo preprostejšo uganko (ki ni iz testa IQ):

Vprašanje: Smith in njuna dva otroka so tipična ameriška družina. Po besedah enega od njunih bolj zgovornih sosedov: George in Dorothy sta krvna sorodnika. Howard je starejši od Georgea. Virginia je mlajša od Howarda. Virginia je starejša od Dorothy. Če sta resnični dve in samo dve od teh trditev, kakšno je prvo ime vsakega člana družine?

Miselna veriga: Da bi rešili to uganko, moramo na podlagi danih izjav in pogoja, da sta resnični natanko dve izjavi, določiti krstna imena vsakega člana družine. Informacije razčlenimo korak za korakom.

Zdaj model našteje družinske člane, njihove možne vloge in imena; analizira izjave in ugotovi, katere od njih so resnične in katere napačne. Nato na podlagi vsega tega model poda končni odgovor.

Odgovor: Gospod Smith je George, gospa Smith je Virginia, sin je Howard, hči je Dorothy.

Zaključek

Model o1-pregled je sposoben logičnega sklepanja, ki je potrebno za reševanje zapletenih znanstvenih in matematičnih problemov. Model o1-mini je odličen pri pisanju kode. Vendar sta oba modela OpenAI o1 precej ozko specializirani orodji, njuna uporaba ni tako vsestranska kot pri modelu GPT-4o in nista primerna za številna rutinska ali ustvarjalna opravila: delo z besedili, literarno prevajanje, urejanje. Vendar sta modela OpenAI o1 na svojem področju (matematika, naravoslovje in eksaktne znanosti) neprimerljiva.