Mis on OpenAI o1 ja kuidas see mudel on parem kui GPT-4o

12. septembril 2024 tutvustas OpenAI, tuntud kui ChatGPT, oma uut tehisintellekti mudelite seeriat nimega OpenAI o1. Selles artiklis analüüsime: mille poolest OpenAI o1 erineb GPT-4ost, millised on selle tugevused ja millistes valdkondades saab seda kasutada.

Mis on OpenAI o1?

See on uus vestlusrobotite perekond, täpsemalt tehisintellektil põhinevate keelemudelite perekond, mis on mõeldud keeruliste või eriti raskete ülesannete lahendamiseks, mis nõuavad täpsust ja loogilist mõtlemist.

Praegu kuuluvad o1 perekonda:

o1-preview - peamine mudel (veel varajases versioonis, millele viitab sõna „preview“),
o1-mini - kergem ja kiirem mudel, mis on eriti tõhus kodeerimisel.

Nimes „o1“ endas on teatav sümboolika:

Kuid keeruliste arutlusülesannete puhul on see märkimisväärne edasiminek ja kujutab endast uut tehisintellekti võimekuse taset. Seda arvesse võttes nullime loenduri tagasi 1-le ja nimetame selle seeria OpenAI o1.

Erinevused võrreldes GPT-4o

OpenAI o1 on GPT-4o alternatiiv, kuid mitte otsene asendaja. Vastasel juhul nimetataks mudelit lihtsalt GPT-5.

Kuna OpenAI o1 on suhteliselt varajases arengujärgus, ei saa ta veel teha paljusid asju, mida GPT-4o suudab. Näiteks ei toeta see failide ja piltide üleslaadimist.

Siiski paistavad o1 mudelid silma oma vastuste täpsuse, järjepidevuse ja loogilisuse poolest, mis võimaldab neid edukalt rakendada sellistes valdkondades nagu:

kvantfüüsika,
geneetika,
meditsiin,
tarkvaraarendus.

OpenAI o1 ei genereeri lihtsalt vastust küsimusele, vaid loob arutlusahela. Selle tõttu võib mudelil võtta vastamiseks kauem aega kui teistel juturobotitel - tavaliselt 5-10 sekundit, mõnel juhul kuni 20-30 sekundit. See ei ole nii pikk aeg, et see muutuks tõeliseks ebamugavuseks. Vastuste hoolikas kaalumine muudab OpenAI o1 mudelid konkurentidega võrreldes vähem hallutsemiseks altid. Hallutsinatsioonid on see, kui juturobot loob fakte õhust välja, andes valeinfot.

OpenAI o1 tugevused ja hinnangud

Eespool mainisime juba OpenAI o1 tugevusi, nagu näiteks vastuste täpsus ja nõrk vastuvõtlikkus hallutsinatsioonidele. Nüüd vaatame, kuidas see kõik väljendub numbrites: millised on o1 mudeli tulemused erinevates testides.

OpenAI o1 saavutab 89. protsentiili konkurentsitihedates programmeerimisküsimustes (Codeforces), kuulub USA 500 parima õpilase hulka USA matemaatikaolümpiaadi (AIME) kvalifikatsioonis ning ületab inimese doktorikraadi tasemel täpsust füüsika-, bioloogia- ja keemiaprobleemide võrdlusuuringus (GPQA).

Vasakult paremale: Võistlusmatemaatika, võistluskood, PhD-taseme teadusküsimused.

2024. aasta AIME eksamitel lahendas GPT-4o õigesti vaid 13% probleemidest, samas kui o1 saavutas 83%.

GPQA Diamond testis, mis sisaldab füüsika, bioloogia ja keemia doktoritaseme loodusteaduslikke küsimusi, said o1 mudelid isegi paremini hakkama kui inimeksperdid. Varem ei ole tehisintellekt suutnud selles testis inimest ületada.

Türkiissinine: GPT-4o, Punane: o1

Ülaltoodud pildil on näha o1 tipptase matemaatikast kuni inglise kirjanduseni. MMLU test sisaldab 57 kategooriat. Mudel o1 võitis neist 54 kategoorias. Ainult 7 neist mahub pildile:

Globaalsed faktid
Kõrgkooli keemia
Kolledži matemaatika
Kutseõigus
Avalikud suhted
Ökonomeetria
Formaalloogika

Huvitaval kombel on o1-mini parem kodeerimisel kui o1-preview, nagu näitavad nii Codeforces kui ka HumanEvali võrdlusuuringud:

o1-mini vs o1-preview vs GPT-4o kodeerimise võrdlusuuringutes

Kodeerimisoskuse kriteeriumid

Lisaks eksamitele ja akadeemilistele võrdlusuuringutele hindas OpenAI ka inimeste eelistust o1-preview vs GPT-4o in:

Isiklik kirjutamine
Teksti toimetamine
Arvutiprogrammeerimine
Andmeanalüüs
Matemaatilised arvutused

Selles hindamises näidati inimkoolitajatele anonüümseid vastuseid o1-ülevaatest ja GPT-4o ning nad hääletasid, millist vastust nad eelistavad.

Inimeste eelistused: o1-preview vs GPT-4o

o1-preview võidu määr vs GPT-4o (%)

o1-preview on GPT-4o eelistatud suure ülekaaluga mõttetööga seotud kategooriates, nagu andmeanalüüs, kodeerimine ja matemaatika. Siiski ei ole o1-preview eelistatud mõnes loomulikus keeles, näiteks teksti kirjutamise ja redigeerimise ülesannetes, mis näitab, et o1-preview mudel ei sobi hästi kõigi kasutusjuhtumite jaoks.

OpenAI o1 vs. teised suured keelemudelid

OpenAI o1-preview on tõesti nutikas. Kui nutikas? Norra Mensa testi põhjal on selle IQ 120, mis on oluliselt kõrgem kui teistel testitud keelemudelitel. Tipp graafikul kujutab inimese keskmist IQ-d. Kõik tipust vasakule jääv on alla keskmise, samas kui kõik paremal asuv on üle keskmise.

OpenAI o1 lööb konkurendid välja nii suuremates võrdlusuuringutes kui ka omatehtud testides.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Te ei pea isegi nendest testidest aru saama. Kõik, mida te vajate, on näha OpenAI o1 üleval.

Mõtteahel

o1-seeria mudelid on koolitatud arutlema, ehitades mõtteahelat. Seega ei anna juturobot mitte ainult valmis vastust, vaid näitab ka teed, mida ta selleni jõudmiseks läbis. Seda teed võib olla väga huvitav jälgida.

Vaatleme ühte raskemat küsimust eelnevalt mainitud IQ-testi.

Robot valis vastuseks variandi D ja selgitas seda järgmiselt:

Analüüsides mustreid ruudustikus, näeme, et igas veerus on kombineeritud teatud komponendid, mis hõlmavad kõiki elemente (V, tagurpidi V, ristkülikukujulised küljed) kolmandaks reaks. Kolmandas veerus ei ole komponendid Rleft ja Rright (ristküliku küljed) veel ilmunud. Seetõttu on õige vastus tühja lahtri jaoks variant D, mis sisaldab tavalist „v“ ja ristküliku kahte külge, mis täiendab selle veeru komponentide kogumit.

Vaatame nüüd lihtsamat mõistatust (mitte IQ-testi):

Küsimus: Härra ja proua Smith ja nende kaks last moodustavad tüüpilise Ameerika perekonna. Ühe nende jutukas naabri sõnul: George ja Dorothy on veresugulased. Howard on George'ist vanem. Virginia on Howardist noorem. Virginia on vanem kui Dorothy. Kui kaks ja ainult kaks neist väidetest on tõesed, siis milline on iga pereliikme eesnimi?

Mõtteahel: Selle mõistatuse lahendamiseks tuleb määrata iga pereliikme eesnimed, lähtudes antud väidetest ja tingimusest, et täpselt kaks väidet on tõesed. Jagame teabe samm-sammult lahti.

Nüüd loetletakse mudelis pereliikmed, nende võimalikud rollid ja nimed; analüüsitakse väiteid, selgitatakse välja, millised neist on tõesed ja millised valed. Seejärel annab mudel kõige selle põhjal lõpliku vastuse.

Vastus: Härra Smith on George, proua Smith on Virginia, poeg on Howard, tütar on Dorothy.

Kokkuvõte

o1-preview mudel on võimeline loogiliseks arutluseks, mis on vajalik keeruliste teaduslike ja matemaatiliste probleemide lahendamiseks. Mudel o1-mini on geniaalne koodi kirjutamisel. Siiski on mõlemad OpenAI o1-mudelid üsna kitsalt spetsialiseerunud tööriistad, nad ei ole oma rakendustes nii mitmekülgsed kui GPT-4o ja nad ei sobi paljudeks rutiinseteks või loomingulisteks ülesanneteks: töö tekstidega, kirjanduse tõlkimine, toimetamine. Oma valdkonnas (matemaatika, loodus- ja täppisteadused) on OpenAI o1 mudelid aga võrratu.