Kas yra „OpenAI o1“ ir kuo šis modelis pranašesnis už GPT-4o

2024 m. rugsėjo 12 d. „OpenAI“, žinoma dėl „ChatGPT“, pristatė naują dirbtinio intelekto modelių seriją „OpenAI o1“. Šiame straipsnyje analizuosime: kuo „OpenAI o1“ skiriasi nuo „GPT-4o“, kokios jo stipriosios pusės ir kokiose srityse jį galima naudoti.

Kas yra „OpenAI o1“?

Tai nauja pokalbių robotų, tiksliau, dirbtiniu intelektu pagrįstų kalbos modelių šeima, skirta sudėtingoms ar ypač sunkioms užduotims, reikalaujančioms tikslumo ir loginio mąstymo, spręsti.

Šiuo metu o1 šeimą sudaro:

o1-preview - pagrindinis modelis (vis dar ankstyvoji versija, kaip rodo žodis „preview“),
o1-mini - lengvesnis ir greitesnis modelis, kuris ypač efektyviai atlieka kodavimo užduotis.

Pačiame pavadinime „o1“ yra tam tikros simbolikos:

Tačiau sudėtingoms samprotavimo užduotims tai yra didelė pažanga ir naujas dirbtinio intelekto gebėjimų lygis. Atsižvelgdami į tai, skaičiuotuvą vėl grąžiname į 1 ir šią seriją pavadiname OpenAI o1.

Skirtumai nuo GPT-4o

„OpenAI o1“ yra GPT-4o alternatyva, bet ne tiesioginis pakaitalas. Priešingu atveju modelis būtų vadinamas tiesiog GPT-5.

Kadangi „OpenAI o1“ yra palyginti ankstyvoje kūrimo stadijoje, ji dar negali atlikti daugelio dalykų, kuriuos gali atlikti „GPT-4o“. Pavyzdžiui, jis nepalaiko failų ir vaizdų įkėlimo.

Tačiau o1 modeliai išsiskiria savo atsakymų tikslumu, nuoseklumu ir samprotavimų logiškumu, todėl juos galima sėkmingai taikyti tokiose srityse kaip:

kvantinė fizika,
genetika,
medicina,
programinės įrangos kūrimas.

OpenAI o1 ne tik generuoja atsakymą į klausimą, bet ir kuria samprotavimų grandinę. Dėl šios priežasties modelio atsakymo laukimas gali užtrukti ilgiau nei kitų pokalbių robotų - paprastai 5-10 sekundžių, o kai kuriais atvejais - iki 20-30 sekundžių. Tai nėra toks ilgas laikas, kad taptų tikru nepatogumu. Dėl kruopštaus atsakymų apsvarstymo „OpenAI o1“ modeliai yra mažiau linkę į haliucinacijas, palyginti su konkurentais. Haliucinacijos yra tada, kai pokalbių robotas išgalvoja faktus iš oro, pateikdamas klaidingą informaciją.

„OpenAI o1“ stipriosios pusės ir vertinimai

Pirmiau jau minėjome „OpenAI o1“ stipriąsias puses, tokias kaip atsakymų tikslumas ir silpnas polinkis į haliucinacijas. Dabar pažiūrėkime, kaip visa tai pasireiškia skaičiais: kokius balus o1 modelis gauna įvairiuose testuose.

OpenAI o1 užima 89 procentilį sprendžiant konkursinius programavimo klausimus (Codeforces), patenka tarp 500 geriausių JAV mokinių atrankoje į JAV matematikos olimpiadą (AIME), o fizikos, biologijos ir chemijos uždavinių etalono (GPQA) tikslumas viršija žmogaus daktaro lygį.

Iš kairės į dešinę: Konkursinė matematika, konkursinis kodas, daktaro lygio mokslo klausimai

Per 2024 m. AIME egzaminus GPT-4o teisingai išsprendė tik 13 % uždavinių, o o1 - 83 %.

GPQA deimantinio testo, į kurį įeina fizikos, biologijos ir chemijos mokslų daktaro lygio klausimai, o1 modeliams sekėsi dar geriau nei žmonėms ekspertams. Anksčiau dirbtinis intelektas šiame teste nesugebėjo pranokti žmonių.

Turkio spalvos: GPT-4o, Raudona: o1

Viršuje esančiame paveikslėlyje matyti, kad „o1“ pasiekė puikių rezultatų įvairiose disciplinose - nuo matematikos iki anglų literatūros. MMLU testą sudaro 57 kategorijos. o1 modelis laimėjo 54 iš jų. Tik 7 iš jų telpa į paveikslėlį:

Pasauliniai faktai
Kolegijos chemija
Kolegijos matematika
Profesinė teisė
Viešieji ryšiai
Ekonometrija
Formalioji logika

Įdomu tai, kad, kaip rodo tiek Codeforces, tiek HumanEval lyginamieji testai, o1-mini geriau atlieka kodavimo užduotis nei o1-preview:

o1-mini vs o1-preview vs GPT-4o kodavimo lyginamuosiuose testuose

Kodavimo įgūdžių kriterijai

Be egzaminų ir akademinių kriterijų, „OpenAI“ taip pat įvertino žmogaus pirmenybę „o1-preview“ ir „GPT-4o“:

Asmeninis rašymas
Teksto redagavimas
Kompiuterių programavimas
Duomenų analizė
Matematiniai skaičiavimai

Atliekant šį vertinimą mokymų vadovams buvo parodyti anoniminiai atsakymai iš o1-preview ir GPT-4o ir jie balsavo už tai, kuriam atsakymui jie teikia pirmenybę.

Žmonių pageidavimai: „o1-preview“ ir GPT-4o

„o1-preview“ laimėjimų rodiklis, palyginti su GPT-4o (%)

„o1-preview“ yra pranašesnis už ‚GPT-4o‘, kai sprendžiama daug mąstymo reikalaujančios kategorijos, pavyzdžiui, duomenų analizė, kodavimas ir matematika. Tačiau kai kurioms natūralios kalbos užduotims, pavyzdžiui, teksto rašymui ir redagavimui, o1-preview nėra pranašesnis, o tai rodo, kad o1-preview modelis nėra gerai pritaikytas visiems naudojimo atvejams.

OpenAI o1 ir kiti didelės kalbos modeliai

OpenAI o1-preview yra tikrai protingas. Kiek protingas? Remiantis Norvegijos „Mensa“ testu, jo IQ yra 120, o tai gerokai daugiau nei kitų išbandytų kalbos modelių. Viršūnė grafike rodo vidutinį žmogaus IQ. Viskas, kas yra į kairę nuo viršūnės, yra žemiau vidurkio, o viskas, kas yra į dešinę, yra aukščiau vidurkio.

„OpenAI o1“ lenkia konkurentus tiek pagrindiniuose lyginamuosiuose, tiek namų sąlygomis atliktuose bandymuose.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Jums net nereikia suprasti šių testų. Jums tereikia pamatyti OpenAI o1 viršuje.

Minties grandinė

o1 serijos modeliai mokomi samprotauti, kuriant minčių grandinę. Taigi pokalbių robotas ne tik pateikia paruoštą atsakymą, bet ir parodo kelią, kurį nuėjo iki jo. Gali būti labai įdomu sekti šį kelią.

Pažvelkime į vieną iš sunkesnių klausimų iš anksčiau minėto IQ testo.

Botas kaip atsakymą pasirinko D variantą ir štai kaip jis tai paaiškino:

Analizuodami tinklelio modelius, matome, kad kiekviename stulpelyje sujungiami tam tikri komponentai, kad iki trečios eilutės būtų įtraukti visi elementai (V, apversta V, stačiakampio kraštinės). Trečiajame stulpelyje komponentai Rleft ir Rright (stačiakampio kraštinės) dar nepasirodė. Todėl teisingas tuščio langelio atsakymas yra D variantas, į kurį įeina paprastasis „V“ ir dvi stačiakampio kraštinės, užbaigiant to stulpelio komponentų rinkinį.

Dabar panagrinėkime paprastesnį galvosūkį (ne iš IQ testo):

Klausimas: Smitai ir jų du vaikai sudaro tipišką amerikiečių šeimą. Pasak vieno iš jų kalbesnių kaimynų: Džordžas ir Dorotė yra kraujo giminaičiai. Hovardas yra vyresnis už Džordžą. Virdžinija yra jaunesnė už Hovardą. Virdžinija yra vyresnė už Dorotę. Jei du ir tik du iš šių teiginių yra teisingi, koks yra kiekvieno šeimos nario vardas?

Minčių grandinė: Norint išspręsti šį galvosūkį, reikia nustatyti kiekvieno šeimos nario vardus, remiantis pateiktais teiginiais ir sąlyga, kad lygiai du teiginiai yra teisingi. Suskirstykime informaciją žingsnis po žingsnio.

Dabar modelis išvardija šeimos narius, jų galimus vaidmenis ir vardus; analizuoja teiginius ir nustato, kurie iš jų yra teisingi, o kurie klaidingi. Tada, remdamasis visu tuo, modelis pateikia galutinį atsakymą.

Atsakymas: Smitas yra Džordžas, ponia Smit - Virdžinija, sūnus - Hovardas, dukra - Dorotė.

Išvada

o1-preview modelis geba logiškai samprotauti, o tai būtina sprendžiant sudėtingus mokslinius ir matematinius uždavinius. Modelis o1-mini puikiai moka rašyti kodą. Tačiau abu OpenAI o1 modeliai yra gana siaurai specializuoti įrankiai, jų taikymo sritys nėra tokios universalios kaip GPT-4o, jie netinka daugeliui rutininių ar kūrybinių užduočių: darbui su tekstais, literatūriniam vertimui, redagavimui. Tačiau savo srityje (matematika, gamtos ir tikslieji mokslai) OpenAI o1 modeliai yra neprilygstami.