Mikä on OpenAI o1 ja miten tämä malli on parempi kuin GPT-4o?

12. syyskuuta 2024 ChatGPT:stä tunnettu OpenAI esitteli uuden tekoälymallisarjan nimeltä OpenAI o1. Tässä artikkelissa analysoimme: miten OpenAI o1 eroaa GPT-4o:sta, mitkä ovat sen vahvuudet ja millä aloilla sitä voidaan käyttää.

Mikä on OpenAI o1?

Se on uusi chatbottien, tai oikeammin tekoälyyn perustuvien kielimallien perhe, joka on suunniteltu ratkaisemaan monimutkaisia tai erityisen vaikeita tehtäviä, jotka vaativat tarkkuutta ja loogista ajattelua.

Tällä hetkellä o1-perheeseen kuuluu mm:

o1-preview - päämalli (vielä varhaisessa versiossa, kuten sana ”preview” osoittaa),
o1-mini - kevyempi ja nopeampi malli, joka on erityisen tehokas koodauksessa.

Itse nimessä ”o1” on jonkin verran symboliikkaa:

Monimutkaisten päättelytehtävien osalta tämä on kuitenkin merkittävä edistysaskel, ja se edustaa tekoälykyvyn uutta tasoa. Tämän vuoksi palautamme laskurin takaisin arvoon 1 ja nimeämme tämän sarjan OpenAI o1:ksi.

Erot GPT-4o:sta

OpenAI o1 on vaihtoehto GPT-4o:lle, mutta ei suora korvaaja. Muussa tapauksessa mallin nimi olisi yksinkertaisesti GPT-5.

Koska OpenAI o1 on suhteellisen varhaisessa kehitysvaiheessa, se ei voi vielä tehdä monia asioita, joita GPT-4o voi tehdä. Se ei esimerkiksi tue tiedostojen ja kuvien lataamista.

O1-mallit ovat kuitenkin erinomaisia vastaustensa tarkkuuden, johdonmukaisuuden ja loogisuuden suhteen, minkä ansiosta niitä voidaan soveltaa menestyksekkäästi esimerkiksi seuraavilla aloilla:

kvanttifysiikka,
genetiikka,
lääketiede,
ohjelmistokehitys.

OpenAI o1 ei yksinkertaisesti tuota vastausta kysymykseen, vaan rakentaa päättelyketjun. Tästä johtuen mallin vastaaminen voi kestää kauemmin kuin muiden chatbottien - tyypillisesti 5-10 sekuntia ja joissakin tapauksissa jopa 20-30 sekuntia. Tämä ei ole niin pitkä aika, että siitä tulisi todellista haittaa. Vastausten huolellinen harkinta tekee OpenAI o1 -malleista vähemmän alttiita hallusinaatioille kilpailijoihinsa verrattuna. Hallusinaatioita ovat tilanteet, joissa chatbotit keksivät tosiasioita tyhjästä ja antavat väärää tietoa.

OpenAI o1:n vahvuudet ja arvioinnit

Edellä on jo mainittu OpenAI o1:n vahvuudet, kuten vastausten tarkkuus ja heikko alttius hallusinaatioille. Katsotaan nyt, miten tämä kaikki näkyy numeroina: mitä o1-malli saa pisteitä eri testeissä.

OpenAI o1 sijoittuu 89. prosenttiyksikköön kilpailukykyisissä ohjelmointikysymyksissä (Codeforces), sijoittuu 500 parhaan opiskelijan joukkoon Yhdysvalloissa matematiikkaolympialaisten karsintakilpailussa (AIME) ja ylittää ihmisen tohtoritason tarkkuuden fysiikan, biologian ja kemian ongelmien vertailussa (GPQA).

Vasemmalta oikealle: Kilpailun matematiikka, Kilpailun koodi, Tohtoritason tiedekysymykset.

Vuoden 2024 AIME-kokeissa GPT-4o ratkaisi oikein vain 13 prosenttia ongelmista, kun taas o1 sai 83 prosenttia.

GPQA Diamond -testissä, joka sisältää tohtoritason luonnontieteellisiä kysymyksiä fysiikasta, biologiasta ja kemiasta, o1-mallit pärjäsivät jopa paremmin kuin ihmisasiantuntijat. Aiemmin tekoäly ei ole pystynyt päihittämään ihmistä tässä testissä.

Turkoosi: GPT-4o, Punainen: o1

Yllä oleva kuva osoittaa o1:n huippuosaamisen matematiikasta englantilaiseen kirjallisuuteen. MMLU-testi sisältää 57 luokkaa. O1-malli voitti niistä 54:ssä. Vain 7 niistä mahtuu kuvaan:

Globaalit faktat
Korkeakoulun kemia
Matematiikka
Ammattioikeus
Julkiset suhteet
Ekonometria
Muodollinen logiikka

Mielenkiintoista on, että o1-mini suoriutuu koodauksesta paremmin kuin o1-preview, kuten sekä Codeforces- että HumanEval-vertailut osoittavat:

o1-mini vs o1-preview vs GPT-4o koodausvertailuissa

Koodausosaamisen vertailuarvot

Tenttien ja akateemisten vertailuarvojen lisäksi OpenAI arvioi myös ihmisen mieltymystä o1-preview vs. GPT-4o -testiin:

Henkilökohtainen kirjoittaminen
Tekstin muokkaus
Ohjelmointi
Data-analyysi
Matemaattinen laskenta

Tässä arvioinnissa ihmiskouluttajille näytettiin nimettömät vastaukset o1-preview- ja GPT-4o-kokeista, ja he äänestivät, kumpi vastaus oli heille parempi.

Ihmisen mieltymykset: o1-preview vs GPT-4o

o1-preview-voittoprosentti vs GPT-4o (%)

o1-preview on GPT-4o:ta selvästi parempi päättelyä vaativissa luokissa, kuten tietojen analysoinnissa, koodauksessa ja matematiikassa. O1-preview ei kuitenkaan ole parempi joissakin luonnollisen kielen tehtävissä, kuten tekstin kirjoittamisessa ja muokkaamisessa, mikä viittaa siihen, että o1-preview-malli ei sovellu hyvin kaikkiin käyttötapauksiin.

OpenAI o1 vs. muut suuret kielimallit

OpenAI o1-preview on todella älykäs. Kuinka älykäs? Norjalaisen Mensa-testin perusteella sen älykkyysosamäärä on 120, mikä on huomattavasti korkeampi kuin muilla testatuilla kielimalleilla. Huippu kuvaajassa edustaa ihmisen keskimääräistä älykkyysosamäärää. Huipun vasemmalla puolella kaikki on alle keskiarvon, kun taas oikealla puolella kaikki on yli keskiarvon.

OpenAI o1 päihittää kilpailijansa sekä suurissa vertailuanalyyseissä että kotitekoisissa testeissä.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Sinun ei tarvitse edes ymmärtää näitä testejä. Sinun tarvitsee vain nähdä OpenAI o1 ylhäällä.

Ajatusketju

o1-sarjan mallit koulutetaan päättelemään, rakentamaan ajatusketju. Näin ollen chatbot ei ainoastaan anna valmista vastausta, vaan näyttää myös polun, jonka se kulki päästäkseen sinne. Tätä polkua voi olla hyvin mielenkiintoista seurata.

Tarkastellaanpa yhtä vaikeampaa kysymystä aiemmin mainitusta ÄO-testistä.

Botti valitsi vastaukseksi vaihtoehdon D, ja näin se selitti sen:

Vaihtoehto D - Analysoimalla ruudukon kuvioita näemme, että jokaisessa sarakkeessa yhdistyvät tietyt komponentit, jotka sisältävät kaikki elementit (V, ylösalaisin oleva V, suorakulmion sivut) kolmanteen riviin mennessä. Kolmannessa sarakkeessa komponentit Rleft ja Rright (suorakulmion sivut) eivät ole vielä esiintyneet. Näin ollen oikea vastaus tyhjään soluun on vaihtoehto D, joka sisältää normaalin ”v:n” ja suorakulmion kaksi sivua ja täydentää kyseisen sarakkeen komponenttien joukon.

Tarkastellaan nyt yksinkertaisempaa arvoitusta (ei älykkyystestistä):

Kysymys: Herra ja rouva Smith ja heidän kaksi lastaan muodostavat tyypillisen amerikkalaisen perheen. Erään heidän puhelias naapurinsa mukaan..: George ja Dorothy ovat verisukulaisia. Howard on Georgea vanhempi. Virginia on Howardia nuorempi. Virginia on Dorothya vanhempi. Jos kaksi ja vain kaksi näistä väitteistä pitää paikkansa, mikä on kunkin perheenjäsenen etunimi?

Ajatusketju: Ratkaistaksemme tämän arvoituksen meidän on määritettävä kunkin perheenjäsenen etunimet annettujen väittämien ja sen ehdon perusteella, että täsmälleen kaksi väittämää on totta. Puretaan tiedot vaihe vaiheelta.

Nyt mallissa luetellaan perheenjäsenet, heidän mahdolliset roolinsa ja nimensä; analysoidaan väittämät ja selvitetään, mitkä niistä ovat tosia ja mitkä vääriä. Sitten malli antaa kaiken tämän perusteella lopullisen vastauksen.

Vastaus: Herra Smith on George, rouva Smith on Virginia, poika on Howard, tytär on Dorothy.

Johtopäätös

o1-ennakkomalli kykenee loogiseen päättelyyn, jota tarvitaan monimutkaisten tieteellisten ja matemaattisten ongelmien ratkaisemiseen. o1-mini-malli on loistava kirjoittamaan koodia. Molemmat OpenAI:n o1-mallit ovat kuitenkin melko kapea-alaisesti erikoistuneita työkaluja, ne eivät ole sovelluksiltaan yhtä monipuolisia kuin GPT-4o, eivätkä ne sovellu moniin rutiininomaisiin tai luoviin tehtäviin: tekstien työstämiseen, kirjallisuuden kääntämiseen, editointiin. OpenAI o1 -mallit ovat kuitenkin omalla alallaan (matematiikka, luonnontieteet ja eksaktit tieteet) vertaansa vailla.