Kas ir OpenAI o1 un ar ko šis modelis ir labāks par GPT-4o

2024. gada 12. septembrī uzņēmums OpenAI, kas pazīstams ar pakalpojumu ChatGPT, iepazīstināja ar savu jauno mākslīgā intelekta modeļu sēriju OpenAI o1. Šajā rakstā mēs analizēsim: ar ko OpenAI o1 atšķiras no GPT-4o, kādas ir tā stiprās puses un kādās jomās to var izmantot.

Kas ir OpenAI o1?

Tā ir jauna tērzēšanas robotu jeb, precīzāk, uz mākslīgo intelektu balstītu valodas modeļu saime, kas paredzēta sarežģītu vai īpaši sarežģītu uzdevumu risināšanai, kuri prasa precizitāti un loģisko domāšanu.

Pašlaik o1 saimē ietilpst:

o1-preview - galvenais modelis (joprojām ir agrīnā versijā, kā norāda vārds “preview”),
o1-mini - vieglāks un ātrāks modelis, kas ir īpaši efektīvs kodēšanā.

Jau pašā nosaukumā “o1” ir zināma simbolika:

Taču sarežģītiem spriešanas uzdevumiem tas ir ievērojams progress un ir jauns mākslīgā intelekta spēju līmenis. Ņemot to vērā, mēs atgriežam skaitītāju atpakaļ uz 1 un nosaucam šo sēriju par OpenAI o1.

Atšķirības no GPT-4o

OpenAI o1 ir GPT-4o alternatīva, bet ne tieša aizstājēja. Pretējā gadījumā modeli sauktu vienkārši par GPT-5.

Tā kā OpenAI o1 ir salīdzinoši agrīnā izstrādes stadijā, OpenAI o1 vēl nespēj veikt daudzas no tām funkcijām, ko spēj veikt GPT-4o. Piemēram, tas neatbalsta failu un attēlu augšupielādi.

Tomēr o1 modeļi izceļas ar savu atbilžu precizitāti, konsekvenci un loģiku, kas ļauj tos veiksmīgi izmantot tādās jomās kā:

kvantu fizika,
ģenētika,
medicīna,
programmatūras izstrāde.

OpenAI o1 ne tikai ģenerē atbildi uz jautājumu, bet veido argumentācijas ķēdi. Tāpēc modelim atbildes sniegšana var aizņemt vairāk laika nekā citiem tērzēšanas robotiem - parasti 5-10 sekundes, bet dažos gadījumos līdz pat 20-30 sekundēm. Tas nav tik ilgs laiks, lai radītu reālas neērtības. Rūpīga atbilžu apsvēršana padara OpenAI o1 modeļus mazāk pakļautus halucinācijām salīdzinājumā ar konkurentiem. Halucinācijas ir situācijas, kad tērzēšanas robots izdomā faktus no tukša gaisa, sniedzot nepatiesu informāciju.

OpenAI o1 stiprās puses un novērtējumi

Iepriekš mēs jau minējām OpenAI o1 stiprās puses, piemēram, atbilžu precizitāti un vāju uzņēmību pret halucinācijām. Tagad aplūkosim, kā tas viss izpaužas skaitļos: kādus rezultātus o1 modelis iegūst dažādos testos.

OpenAI o1 ierindojas 89. procentilē konkursa programmēšanas jautājumos (Codeforces), ierindojas starp 500 labākajiem ASV skolēniem ASV matemātikas olimpiādes (AIME) kvalifikācijas konkursā un pārsniedz cilvēka doktora līmeņa precizitāti fizikas, bioloģijas un ķīmijas uzdevumu etalonā (GPQA).

No kreisās uz labo: Konkursa matemātika, konkursa kods, doktora līmeņa zinātnes jautājumi

2024. gada AIME eksāmenos GPT-4o pareizi atrisināja tikai 13 % uzdevumu, bet o1 ieguva 83 % punktu.

GPQA Diamond testā, kas ietver doktora līmeņa dabaszinātņu jautājumus fizikā, bioloģijā un ķīmijā, o1 modeļiem veicās pat labāk nekā cilvēku ekspertiem. Iepriekš mākslīgais intelekts šajā testā nav spējis pārspēt cilvēkus.

Tirkīza krāsas: GPT-4o, Sarkans: o1

Attēlā redzams, ka o1 izcilība dažādās disciplīnās - no matemātikas līdz angļu literatūrai. MMLU tests ietver 57 kategorijas. o1 modelis uzvarēja 54 no tām. Tikai 7 no tām atbilst attēlā redzamajam:

Globālie fakti
Koledžas ķīmija
Koledžas matemātika
Profesionālās tiesības
Sabiedriskās attiecības
Ekonometrija
Formālā loģika

Interesanti, ka o1-mini kodēšanas jomā darbojas labāk nekā o1-preview, kā liecina gan Codeforces, gan HumanEval salīdzinošie testi:

o1-mini vs o1-preview vs GPT-4o kodēšanas kritērijos

Kodēšanas prasmju kritēriji

Papildus eksāmeniem un akadēmiskajiem etaloniem OpenAI novērtēja arī cilvēka izvēli attiecībā uz o1-preview vs GPT-4o:

Personīgo rakstīšanu
Teksta rediģēšana
Datorprogrammēšana
Datu analīze
Matemātiskie aprēķini

Šajā novērtējumā cilvēku apmācītājiem tika parādītas anonimizētas atbildes no o1-preview un GPT-4o, un viņi balsoja par to, kurai atbildei viņi dod priekšroku.

o1-preview vinnestu īpatsvars pret GPT-4o (%)

o1-preview ir labāks par GPT-4o ar lielu pārsvaru tādās loģiski smagās kategorijās kā datu analīze, kodēšana un matemātika. Tomēr o1-preview nav vēlamāks dažos dabiskās valodas uzdevumos, piemēram, teksta rakstīšanā un rediģēšanā, kas liecina, ka o1-preview modelis nav labi piemērots visiem lietojuma gadījumiem.

OpenAI o1 salīdzinājumā ar citiem lielajiem valodas modeļiem

OpenAI o1-preview ir patiešām gudrs. Cik gudrs? Pamatojoties uz Norvēģijas Mensa testu, tā IQ ir 120, kas ir ievērojami augstāks nekā citiem testētajiem valodas modeļiem. Grafikā redzamais maksimums attēlo vidējo cilvēka IQ. Viss, kas atrodas pa kreisi no pīķa, ir zem vidējā līmeņa, bet viss, kas atrodas pa labi, ir virs vidējā līmeņa.

OpenAI o1 pārspēj konkurentus gan galvenajos salīdzinošajos rādītājos, gan paštaisītos testos.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Jums pat nav jāsaprot šie testi. Viss, kas jums nepieciešams, ir redzēt OpenAI o1 augšpusē.

Domas ķēde

o1 sērijas modeļi ir apmācīti spriest, veidojot domu ķēdi. Tādējādi tērzēšanas robots ne tikai sniedz gatavu atbildi, bet arī parāda ceļu, pa kuru tas līdz tai nonācis. Var būt ļoti interesanti sekot šim ceļam.

Aplūkosim vienu no grūtākiem jautājumiem no iepriekš minētā IQ testa.

Bots izvēlējās D variantu kā atbildi, un lūk, kā tas to paskaidroja:

Analizējot režģa modeļus, redzam, ka katrā slejā ir apvienoti noteikti elementi, lai līdz trešajai rindai iekļautu visus elementus (V, otrādi apgriezts V, taisnstūra malas). Trešajā slejā komponenti Rleft un Rright (taisnstūra malas) vēl nav parādījušies. Tāpēc pareizā atbilde tukšajai ailei ir D variants, kas ietver parasto “v” un abas taisnstūra malas, papildinot šīs ailes komponentu kopumu.

Tagad aplūkosim vienkāršāku mīklu (ne no IQ testa):

Jautājums: Smita kungs un kundze un viņu divi bērni ir tipiska amerikāņu ģimene. Kā stāsta viens no viņu runīgākajiem kaimiņiem: Džordžs un Dorotija ir asinsradinieki. Hovards ir vecāks par Džordžu. Virdžīnija ir jaunāka par Hovardu. Virdžīnija ir vecāka par Dorotiju. Ja divi un tikai divi no šiem apgalvojumiem ir patiesi, kāds ir katra ģimenes locekļa vārds?

Domas ķēde: Lai atrisinātu šo mīklu, mums jānosaka katra ģimenes locekļa pirmais vārds, pamatojoties uz dotajiem apgalvojumiem un nosacījumu, ka tieši divi apgalvojumi ir patiesi. Izlasīsim informāciju soli pa solim.

Tagad modelis uzskaita ģimenes locekļus, viņu iespējamās lomas un vārdus; analizē apgalvojumus, noskaidrojot, kuri no tiem ir patiesi un kuri nepatiesi. Pēc tam, pamatojoties uz to visu, modelis sniedz galīgo atbildi.

Atbilde: Smita kungs ir Džordžs, Smita kundze ir Virdžīnija, dēls ir Hovards, meita ir Doroteja.

Secinājums

o1-preview modelis spēj loģiski spriest, kas ir nepieciešams sarežģītu zinātnisku un matemātisku problēmu risināšanai. o1-mini modelis lieliski prot rakstīt kodu. Tomēr abi OpenAI o1 modeļi ir diezgan šauri specializēti rīki, to pielietojums nav tik daudzpusīgs kā GPT-4o, un tie nav piemēroti daudziem rutīnas vai radošiem uzdevumiem: darbam ar tekstiem, literatūras tulkošanai, rediģēšanai. Tomēr savā jomā (matemātika, dabas un eksaktās zinātnes) OpenAI o1 modeļi ir nepārspējami.