Što je OpenAI o1 i po čemu je ovaj model bolji od GPT-4o

12. rujna 2024. OpenAI, poznat po ChatGPT-u, predstavio je svoju novu seriju modela umjetne inteligencije pod nazivom OpenAI o1. U ovom ćemo članku analizirati: kako se OpenAI o1 razlikuje od GPT-4o, koje su njegove prednosti i u kojim područjima se može koristiti.

Što je OpenAI o1?

Riječ je o novoj obitelji chatbota ili, točnije, jezičnih modela temeljenih na umjetnoj inteligenciji, dizajniranih za rješavanje složenih ili posebno teških zadataka koji zahtijevaju točnost i logično razmišljanje.

Trenutno obitelj o1 uključuje:

o1-preview – glavni model (još uvijek u ranoj verziji, kao što je naznačeno riječju "preview"),
o1-mini – lakši, brži model koji je posebno učinkovit u kodiranju.

Postoji neka simbolika u samom nazivu "o1":

Ali za složene zadatke zaključivanja ovo je značajan napredak i predstavlja novu razinu sposobnosti umjetne inteligencije. S obzirom na to, vraćamo brojač na 1 i nazivamo ovu seriju OpenAI o1.

Razlike od GPT-4o

OpenAI o1 je alternativa GPT-4o, ali ne i izravna zamjena. Inače bi se model zvao jednostavno GPT-5.

Budući da je u relativno ranoj fazi razvoja, OpenAI o1 još ne može učiniti mnoge stvari koje može učiniti GPT-4o. Na primjer, ne podržava učitavanje datoteka i slika.

Međutim, modeli o1 ističu se točnošću svojih odgovora, dosljednošću i logikom razmišljanja, što im omogućuje uspješnu primjenu u područjima kao što su:

Kvantna fizika,
Genetika,
Lijek,
Razvoj softvera.

OpenAI o1 ne generira samo odgovor na pitanje, već gradi lanac zaključivanja. Zbog toga modelu može trebati više vremena da odgovori nego drugim chatbotovima - obično 5-10 sekundi, au nekim slučajevima i do 20-30 sekundi. Ovo nije tako dugo da postane prava neugodnost. Pažljivo razmatranje odgovora čini modele OpenAI o1 manje sklonima halucinacijama u usporedbi s njihovim konkurentima. Halucinacije su kada chatbot izmišlja činjenice iz ničega, dajući lažne informacije.

Snage i ocjene OpenAI o1

Gore smo već spomenuli prednosti OpenAI o1, poput točnosti odgovora i slabe podložnosti halucinacijama. Sada da vidimo kako se sve to prevodi u brojke: što model o1 postiže u raznim testovima.

OpenAI o1 rangiran je u 89. percentilu na pitanjima kompetitivnog programiranja (Codeforces), svrstava se među 500 najboljih studenata u SAD-u u kvalifikacijama za Američku matematičku olimpijadu (AIME) i premašuje točnost ljudske doktorske razine na mjerilima fizike, biologije , i kemijski problemi (GPQA).

o1 protiv GPT-4o protiv stručnog čovjeka

S lijeva na desno: matematika za natjecanje, šifra natjecanja, prirodoslovna pitanja na razini doktorata

Na AIME ispitima 2024. GPT-4o točno je riješio samo 13% problema, dok je o1 postigao 83%.

U GPQA Diamond testu, koji uključuje znanstvena pitanja na doktorskoj razini iz fizike, biologije i kemije, modeli o1 prošli su čak bolje od ljudskih stručnjaka. Prethodno, umjetna inteligencija nije uspjela nadmašiti ljude u ovom testu.

Tirkizna: GPT-4o, Crvena: o1

Gornja slika pokazuje izvrsnost o1 u disciplinama koje se kreću od matematike do engleske književnosti. MMLU test uključuje 57 kategorija. Model o1 pobijedio je u njih 54.Samo njih 7 staje na sliku:

Globalne činjenice
Fakultet kemije
Fakultet matematike
Profesionalno pravo
Odnosi s javnošću
Ekonometrija
Formalna logika

Zanimljivo je da o1-mini radi bolje u kodiranju nego o1-preview, kao što pokazuju i Codeforces i HumanEval benchmarkovi:

o1-mini vs o1-preview vs GPT-4o u mjerilima kodiranja

Referentne vrijednosti sposobnosti kodiranja

Osim ispita i akademskih mjerila, OpenAI je također procijenio ljudske preferencije o1-preview u odnosu na GPT-4o u:

Osobno pisanje
Uređivanje teksta
Računalno programiranje
Analiza podataka
Matematičko izračunavanje

U ovoj evaluaciji, ljudskim trenerima prikazani su anonimizirani odgovori iz o1-preview i GPT-4o, te su glasovali za odgovor koji preferiraju.

Ljudske preferencije: o1-preview vs GPT-4o

o1-preview stopa pobjede u odnosu na GPT-4o (%)

o1-preview ima prednost u odnosu na GPT-4o velikom razlikom u kategorijama koje zahtijevaju rezoniranje kao što su analiza podataka, kodiranje i matematika. Međutim, o1-preview nije poželjan za neke zadatke prirodnog jezika poput pisanja i uređivanja teksta, što sugerira da model o1-preview nije prikladan za sve slučajeve upotrebe.

OpenAI o1 u odnosu na druge velike jezične modele

OpenAI o1-preview je stvarno pametan. Koliko pametno? Na temelju testa norveške Mense, ima IQ 120, što je znatno više od ostalih testiranih jezičnih modela. Vrh na grafikonu predstavlja prosječni ljudski IQ. Sve lijevo od vrha je ispod prosjeka, dok je sve desno iznad prosjeka.

OpenAI o1 izbacuje konkurenciju iz vode, kako u glavnim mjerilima, tako iu domaćim testovima.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Ne morate čak ni razumjeti te testove. Sve što trebate je vidjeti OpenAI o1 na vrhu.

Lanac misli

Modeli serije o1 obučeni su za rasuđivanje, gradeći lanac misli. Dakle, chatbot ne samo da daje gotov odgovor, već pokazuje i put kojim je stigao do njega. Može biti vrlo zanimljivo slijediti ovaj put.

Pogledajmo jedno od težih pitanja iz ranije spomenutog IQ testa.

Bot je odabrao opciju D kao odgovor, a evo kako je to objasnio:

Opcija D — Analizirajući uzorke u rešetki, vidimo da svaki stupac kombinira određene komponente kako bi uključio sve elemente (V, naopako V, stranice pravokutnika) do trećeg retka. U trećem stupcu još se nisu pojavile komponente Rleft i Rright (stranice pravokutnika). Stoga je točan odgovor za praznu ćeliju opcija D, koja uključuje normalno 'v' i dvije strane pravokutnika, dovršavajući skup komponenti za taj stupac.

Sada pogledajmo jednostavniju zagonetku (ne iz IQ testa):

Pitanje: Gospodin i gospođa Smith i njihovo dvoje djece čine tipičnu američku obitelj. Prema riječima jednog od njihovih pričljivijih susjeda: George i Dorothy su u krvnom srodstvu. Howard je stariji od Georgea. Virginia je mlađa od Howarda. Virginia je starija od Dorothy. Ako su dvije i samo dvije od ovih izjava točne, koje je ime svakog člana obitelji?

Lanac misli: Da bismo riješili ovu zagonetku, trebamo odrediti imena svakog člana obitelji na temelju zadanih tvrdnji i uvjeta da su točno dvije tvrdnje točne. Raščlanimo informacije korak po korak.

Sada model navodi članove obitelji, njihove moguće uloge i imena; analizira tvrdnje, otkrivajući koje su od njih točne, a koje netočne. Zatim na temelju svega toga model daje konačan odgovor.

Odgovor: Gospodin Smith je George, gospođa Smith je Virginia, sin je Howard, kći je Dorothy.

Zaključak

Model o1-preview sposoban je za logično zaključivanje, što je neophodno za rješavanje složenih znanstvenih i matematičkih problema. Model o1-mini je briljantan u pisanju koda. Međutim, oba modela OpenAI o1 prilično su usko specijalizirani alati, nisu tako svestrani u svojim aplikacijama kao GPT-4o i nisu prikladni za mnoge rutinske ili kreativne zadatke: rad s tekstovima, književno prevođenje, uređivanje. Međutim, u svojoj domeni (matematika, prirodne i egzaktne znanosti), OpenAI o1 modeli su bez premca.