Čo je OpenAI o1 a v čom je tento model lepší ako GPT-4o

12. septembra 2024 spoločnosť OpenAI, známa vďaka službe ChatGPT, predstavila svoju novú sériu modelov umelej inteligencie s názvom OpenAI o1. V tomto článku budeme analyzovať: čím sa OpenAI o1 líši od GPT-4o, aké sú jeho silné stránky a v akých oblastiach ho možno využiť.

Čo je OpenAI o1?

Je to nová rodina chatbotov, presnejšie jazykových modelov založených na umelej inteligencii, určených na riešenie zložitých alebo obzvlášť náročných úloh, ktoré si vyžadujú presnosť a logické myslenie.

V súčasnosti rodina o1 zahŕňa:

o1-preview - hlavný model (stále v ranej verzii, ako naznačuje slovo „preview“),
o1-mini - ľahší a rýchlejší model, ktorý je mimoriadne efektívny pri kódovaní.

V samotnom názve „o1“ je určitá symbolika:

Pre komplexné úlohy uvažovania je to však významný pokrok a predstavuje novú úroveň schopností umelej inteligencie. Vzhľadom na to vynulujeme počítadlo späť na 1 a pomenujeme túto sériu OpenAI o1.

Rozdiely oproti GPT-4o

OpenAI o1 je alternatívou GPT-4o, ale nie jeho priamou náhradou. V opačnom prípade by sa model nazýval jednoducho GPT-5.

Keďže je OpenAI o1 v relatívne ranom štádiu vývoja, nedokáže ešte robiť mnohé z vecí, ktoré dokáže GPT-4o. Napríklad nepodporuje nahrávanie súborov a obrázkov.

Modely o1 však vynikajú presnosťou svojich odpovedí, konzistentnosťou a logikou svojho uvažovania, čo im umožňuje úspešne sa uplatniť v oblastiach, ako sú napr:

Kvantová fyzika,
Genetika,
Medicína,
Vývoj softvéru.

OpenAI o1 negeneruje len odpoveď na otázku, ale vytvára reťazec uvažovania. Z tohto dôvodu môže modelu trvať dlhšie, kým odpovie, ako iným chatbotom - zvyčajne 5 až 10 sekúnd a v niektorých prípadoch až 20 až 30 sekúnd. Nie je to však tak dlho, aby sa to stalo skutočnou nepríjemnosťou. Vďaka starostlivému zvažovaniu odpovedí sú modely OpenAI o1 v porovnaní s konkurenciou menej náchylné na halucinácie. Halucinácie sú prípady, keď si chatbot vymýšľa fakty zo vzduchu a poskytuje nepravdivé informácie.

Silné stránky a hodnotenia OpenAI o1

Vyššie sme už spomenuli silné stránky OpenAI o1, ako je presnosť odpovedí a slabá náchylnosť na halucinácie. Teraz sa pozrime, ako sa to všetko premieta do čísel: aké výsledky model o1 dosahuje v rôznych testoch.

OpenAI o1 sa umiestnil na 89. percentile v súťažných otázkach z programovania (Codeforces), umiestnil sa medzi 500 najlepšími študentmi v USA v kvalifikácii na matematickú olympiádu v USA (AIME) a prekonal presnosť na úrovni ľudského doktoranda v referenčnom teste problémov z fyziky, biológie a chémie (GPQA).

Zľava doprava: Súťažná matematika, Súťažný kód, Vedecké otázky na úrovni PhD.

Pri skúškach AIME 2024 GPT-4o správne vyriešil len 13 % úloh, zatiaľ čo o1 dosiahol 83 %.

V teste GPQA Diamond, ktorý obsahuje otázky z prírodných vied na úrovni doktorandov z fyziky, biológie a chémie, si modely o1 počínali dokonca lepšie ako ľudskí experti. Predtým umelá inteligencia nedokázala v tomto teste prekonať ľudí.

Tyrkysová: GPT-4o, Červená: o1

Obrázok vyššie ukazuje excelentnosť o1 v disciplínach od matematiky po anglickú literatúru. Test MMLU obsahuje 57 kategórií. Model o1 zvíťazil v 54 z nich. Na obrázok sa zmestilo len 7 z nich:

Globálne fakty
Vysokoškolská chémia
Vysokoškolská matematika
Odborné právo
Vzťahy s verejnosťou
Ekonometria
Formálna logika

Je zaujímavé, že o1-mini dosahuje lepšie výsledky v kódovaní ako o1-preview, ako ukazujú porovnávacie testy Codeforces aj HumanEval:

o1-mini vs o1-preview vs GPT-4o v referenčných testoch kódovania

Referenčné hodnoty spôsobilosti kódovania

Okrem skúšok a akademických kritérií OpenAI hodnotila aj ľudské preferencie o1-preview oproti GPT-4o v:

Osobné písanie
Úprava textu
Počítačové programovanie
Analýza údajov
Matematické výpočty

V tomto hodnotení boli školiteľom zobrazené anonymizované odpovede z o1-preview a GPT-4o a hlasovali za to, ktorú odpoveď uprednostňujú.

Ľudské preferencie: o1-preview vs GPT-4o

Miera výhier o1-preview oproti GPT-4o (%)

o1-preview je s veľkým náskokom preferovaný pred GPT-4o v kategóriách náročných na uvažovanie, ako je analýza údajov, kódovanie a matematika. Model o1-preview však nie je preferovaný v niektorých úlohách prirodzeného jazyka, ako je písanie a úprava textu, čo naznačuje, že model o1-preview nie je vhodný pre všetky prípady použitia.

OpenAI o1 vs. iné veľké jazykové modely

OpenAI o1-preview je naozaj inteligentný. Ako veľmi inteligentný? Na základe testu nórskej Mensy má IQ 120, čo je výrazne viac ako ostatné testované jazykové modely. Vrchol na grafe predstavuje priemerné ľudské IQ. Všetko naľavo od vrcholu je pod priemerom, zatiaľ čo všetko napravo je nad priemerom.

OpenAI o1 prekonáva konkurenciu v hlavných benchmarkoch aj domácich testoch.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Týmto testom ani nemusíte rozumieť. Stačí, ak uvidíte OpenAI o1 na vrchu.

Reťazec myšlienok

Modely radu o1 sú naučené uvažovať, pričom vytvárajú reťazec myšlienok. Chatbot tak nielenže poskytne hotovú odpoveď, ale ukáže aj cestu, ktorou sa k nej dostal. Sledovanie tejto cesty môže byť veľmi zaujímavé.

Pozrime sa na jednu z ťažších otázok zo spomínaného IQ testu.

Bot vybral ako odpoveď možnosť D a vysvetlil ju takto:

Možnosť D - Analýzou vzorov v mriežke vidíme, že každý stĺpec kombinuje určité prvky tak, aby do tretieho riadku zahŕňal všetky prvky (V, prevrátené V, strany obdĺžnika). V treťom stĺpci sa komponenty Rleft a Rright (strany obdĺžnika) ešte neobjavili. Preto je správnou odpoveďou pre prázdnu kolónku možnosť D, ktorá obsahuje normálne „v“ a dve strany obdĺžnika, čím sa skompletizuje množina komponentov pre tento stĺpec.

Teraz sa pozrime na jednoduchšiu hádanku (nie z IQ testu):

Otázka: Pán a pani Smithovci a ich dve deti tvoria typickú americkú rodinu. Podľa jedného z ich zhovorčivejších susedov: George a Dorothy sú pokrvní príbuzní. Howard je starší ako George. Virginia je mladšia ako Howard. Virginia je staršia ako Dorothy. Ak sú dve a len dve z týchto tvrdení pravdivé, aké je krstné meno každého člena rodiny?

Myšlienkový reťazec: Na vyriešenie tejto hádanky musíme určiť krstné mená jednotlivých členov rodiny na základe daných tvrdení a podmienky, že sú pravdivé práve dve tvrdenia. Rozdeľme si informácie krok za krokom.

Teraz model uvádza zoznam členov rodiny, ich možné úlohy a mená; analyzuje výroky a zisťuje, ktoré z nich sú pravdivé a ktoré nepravdivé. Potom na základe toho všetkého model poskytne konečnú odpoveď.

Odpoveď: Pán Smith je George, pani Smithová je Virginia, syn je Howard, dcéra je Dorothy.

Záver

Model o1-preview je schopný logického uvažovania, ktoré je potrebné na riešenie zložitých vedeckých a matematických problémov. Model o1-mini je brilantný pri písaní kódu. Oba modely o1 OpenAI sú však pomerne úzko špecializované nástroje, nemajú také všestranné využitie ako GPT-4o a nie sú vhodné na mnohé rutinné alebo tvorivé úlohy: prácu s textami, literárny preklad, editovanie. Vo svojej doméne (matematika, prírodné a exaktné vedy) sú však modely OpenAI o1 bezkonkurenčné.