Co je OpenAI o1 a v čem je tento model lepší než GPT-4o

12. září 2024 představila společnost OpenAI, známá díky ChatGPT, novou řadu modelů umělé inteligence s názvem OpenAI o1. V tomto článku rozebereme: čím se OpenAI o1 liší od GPT-4o, jaké jsou jeho silné stránky a v jakých oblastech jej lze využít.

Co je OpenAI o1?

Jedná se o novou rodinu chatbotů, přesněji řečeno jazykových modelů založených na umělé inteligenci, určených k řešení složitých nebo obzvláště obtížných úloh, které vyžadují přesnost a logické myšlení.

V současné době rodina o1 zahrnuje:

o1-preview - hlavní model (stále v rané verzi, jak naznačuje slovo „preview“),
o1-mini - lehčí a rychlejší model, který je obzvláště efektivní při kódování.

V samotném názvu „o1“ je určitá symbolika:

Pro komplexní úlohy uvažování je to však významný pokrok a představuje novou úroveň schopností umělé inteligence. Vzhledem k tomu vracíme počítadlo zpět na 1 a pojmenováváme tuto řadu OpenAI o1.

Rozdíly oproti GPT-4o

OpenAI o1 je alternativou ke GPT-4o, ale není jeho přímou náhradou. Jinak by se model nazýval jednoduše GPT-5.

Vzhledem k tomu, že se OpenAI o1 nachází v relativně raném stádiu vývoje, neumí zatím mnoho věcí, které umí GPT-4o. Například nepodporuje nahrávání souborů a obrázků.

Modely o1 však vynikají přesností svých odpovědí, konzistencí a logikou svého uvažování, což jim umožňuje úspěšně se uplatnit v oblastech, jako je např:

kvantová fyzika,
genetika,
lékařství,
vývoj softwaru.

OpenAI o1 negeneruje pouze odpověď na otázku, ale vytváří řetězec úvah. Z tohoto důvodu může modelu trvat delší dobu, než odpoví, než ostatní chatboti - obvykle 5-10 sekund, v některých případech až 20-30 sekund. Není to však tak dlouhá doba, aby se stala skutečnou nepříjemností. Díky pečlivému zvažování odpovědí jsou modely OpenAI o1 ve srovnání s konkurencí méně náchylné k halucinacím. Halucinace jsou situace, kdy si chatbot vymýšlí fakta ze vzduchu a poskytuje nepravdivé informace.

Silné stránky a hodnocení OpenAI o1

Výše jsme již zmínili silné stránky OpenAI o1, jako je přesnost odpovědí a slabá náchylnost k halucinacím. Nyní se podívejme, jak se to vše promítá do čísel: jakých výsledků model o1 dosahuje v různých testech.

Model OpenAI o1 se v soutěžních otázkách z programování (Codeforces) umístil na 89. percentilu, v kvalifikaci na matematickou olympiádu v USA (AIME) se umístil mezi 500 nejlepšími studenty v USA a ve srovnávacím testu problémů z fyziky, biologie a chemie (GPQA) překonal přesnost na úrovni lidského doktoranda.

Zleva doprava: Soutěžní matematika, Soutěžní kód, Vědecké otázky na úrovni PhD.

Při zkouškách AIME 2024 vyřešilo GPT-4o správně pouze 13 % úloh, zatímco o1 dosáhlo 83 %.

V testu GPQA Diamond, který obsahuje otázky z přírodních věd na úrovni doktorandů z fyziky, biologie a chemie, si modely o1 vedly dokonce lépe než lidští experti. Dříve umělá inteligence nedokázala v tomto testu překonat lidi.

Tyrkysová: GPT-4o, červená: o1

Obrázek nahoře ukazuje, že o1 vyniká v různých oborech od matematiky po anglickou literaturu. Test MMLU zahrnuje 57 kategorií. Model o1 zvítězil v 54 z nich. Pouze 7 z nich se vešlo do obrázku:

Globální fakta
Vysokoškolská chemie
Vysokoškolská matematika
Odborné právo
Vztahy s veřejností
Ekonometrie
Formální logika

Zajímavé je, že o1-mini dosahuje lepších výsledků v kódování než o1-preview, jak ukazují benchmarky Codeforces i HumanEval:

o1-mini vs o1-preview vs GPT-4o v benchmarcích kódování

Měřítka způsobilosti pro kódování

Kromě zkoušek a akademických benchmarků OpenAI také hodnotila lidské preference o1-preview vs. GPT-4o v:

Osobní psaní
Úprava textu
Počítačové programování
Analýza dat
Matematické výpočty

Při tomto hodnocení byly lidským školitelům zobrazeny anonymizované odpovědi z o1-preview a GPT-4o a hlasovali, které odpovědi dávají přednost.

o1-preview win rate vs GPT-4o (%)

o1-preview je s velkým náskokem lepší než GPT-4o v kategoriích náročných na uvažování, jako je analýza dat, kódování a matematika. V některých úlohách přirozeného jazyka, jako je psaní a editace textu, však model o1-preview není preferován, což naznačuje, že model o1-preview není vhodný pro všechny případy použití.

OpenAI o1 vs. jiné velké jazykové modely

OpenAI o1-preview je opravdu chytrý. Jak chytrý? Na základě norského testu Mensy má IQ 120, což je výrazně více než ostatní testované jazykové modely. Vrchol na grafu představuje průměrné lidské IQ. Vše nalevo od vrcholu je podprůměrné, zatímco vše napravo je nadprůměrné.

OpenAI o1 převálcuje konkurenci jak v hlavních benchmarcích, tak v domácích testech.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Těmto testům ani nemusíte rozumět. Stačí, když nahoře uvidíte OpenAI o1.

Myšlenkový řetězec

Modely řady o1 jsou naučené uvažovat a vytvářejí řetězec myšlenek. Chatbot tak nejenže poskytne hotovou odpověď, ale také ukáže cestu, kterou k ní dospěl. Sledování této cesty může být velmi zajímavé.

Podívejme se na jednu z těžších otázek z již zmíněného IQ testu.

Bot vybral jako odpověď možnost D a vysvětlil ji takto:

Varianta D - Analýzou vzorů v mřížce vidíme, že každý sloupec kombinuje určité prvky tak, aby do třetího řádku zahrnoval všechny prvky (V, obrácené V, strany obdélníku). Ve třetím sloupci se komponenty Rleft a Rright (strany obdélníku) ještě neobjevily. Proto je správnou odpovědí pro prázdné políčko možnost D, která zahrnuje normální „v“ a dvě strany obdélníku, čímž doplňuje množinu složek pro tento sloupec.

Nyní se podívejme na jednodušší hádanku (nikoli z IQ testu):

Otázka: Pan a paní Smithovi a jejich dvě děti tvoří typickou americkou rodinu. Podle jednoho z jejich upovídanějších sousedů: George a Dorothy jsou pokrevní příbuzní. Howard je starší než George. Virginia je mladší než Howard. Virginia je starší než Dorothy. Pokud jsou dvě a pouze dvě z těchto tvrzení pravdivá, jaké je křestní jméno každého člena rodiny?

Myšlenkový řetězec: K vyřešení této hádanky musíme určit křestní jména jednotlivých členů rodiny na základě daných výroků a podmínky, že jsou pravdivé právě dva výroky. Rozebereme si informace krok za krokem.

Nyní model uvádí seznam členů rodiny, jejich možné role a jména; analyzuje výroky a zjišťuje, které z nich jsou pravdivé a které nepravdivé. Na základě toho všeho pak model poskytne konečnou odpověď.

Odpověď: Pan Smith je George, paní Smithová je Virginia, syn je Howard, dcera je Dorothy.

Závěr

Model o1-preview je schopen logického uvažování, které je nezbytné pro řešení složitých vědeckých a matematických problémů. Model o1-mini je brilantní při psaní kódu. Oba modely OpenAI o1 jsou však poměrně úzce specializované nástroje, nejsou tak všestranně použitelné jako GPT-4o a nehodí se pro mnoho rutinních nebo tvůrčích úloh: práci s texty, literární překlad, editaci. Ve své doméně (matematika, přírodní a exaktní vědy) jsou však modely OpenAI o1 bezkonkurenční.