Hva er OpenAI o1, og hvordan er denne modellen bedre enn GPT-4o?

12. september 2024 introduserte OpenAI, kjent for ChatGPT, sin nye serie med kunstig intelligensmodeller kalt OpenAI o1. I denne artikkelen vil vi analysere: hvordan OpenAI o1 skiller seg fra GPT-4o, hva er dens styrker og på hvilke områder den kan brukes.

Hva er OpenAI o1?

Det er en ny familie av chatbots, eller, mer nøyaktig, språkmodeller basert på kunstig intelligens, designet for å løse komplekse eller spesielt vanskelige oppgaver som krever nøyaktighet og logisk tenkning.

For øyeblikket inkluderer o1-familien:

o1-preview - hovedmodellen (fortsatt i en tidlig versjon, som ordet «preview» indikerer),
o1-mini - en lettere og raskere modell som er spesielt effektiv ved koding.

Det ligger en viss symbolikk i selve navnet «o1»:

Men for komplekse resonneringsoppgaver er dette et betydelig fremskritt og representerer et nytt nivå av kunstig intelligens. På bakgrunn av dette setter vi telleren tilbake til 1 og gir denne serien navnet OpenAI o1.

Forskjeller fra GPT-4o

OpenAI o1 er et alternativ til GPT-4o, men ikke en direkte erstatning. Ellers ville modellen rett og slett blitt kalt GPT-5.

Siden OpenAI o1 er på et relativt tidlig utviklingsstadium, kan den ennå ikke gjøre mange av de tingene som GPT-4o kan gjøre. Den støtter for eksempel ikke opplasting av filer og bilder.

Men o1-modellene utmerker seg med nøyaktigheten i svarene, konsistensen og logikken i resonnementene, noe som gjør at de med hell kan brukes på områder som f.eks:

Kvantefysikk,
Genetikk,
Medisin,
Programvareutvikling.

OpenAI o1 genererer ikke bare et svar på et spørsmål, men bygger opp en kjede av resonnementer. Derfor kan modellen bruke lengre tid på å svare enn andre chatboter - vanligvis 5-10 sekunder, og i noen tilfeller opp til 20-30 sekunder. Dette er ikke så lang tid at det blir en reell ulempe. Den grundige vurderingen av svarene gjør OpenAI o1-modellene mindre utsatt for hallusinasjoner sammenlignet med konkurrentene. Hallusinasjoner er når en chatbot finner på fakta ut av løse luften og gir falsk informasjon.

OpenAI o1s sterke sider og evalueringer

Ovenfor har vi allerede nevnt styrkene til OpenAI o1, som nøyaktigheten i svarene og den svake mottakeligheten for hallusinasjoner. La oss nå se hvordan alt dette omsettes i tall: hva o1-modellen scorer i ulike tester.

OpenAI o1 ligger på 89. persentilen på konkurransedyktige programmeringsspørsmål (Codeforces), plasserer seg blant de 500 beste studentene i USA i en kvalifisering til USAs matematikkolympiade (AIME), og overgår menneskelig nøyaktighet på doktorgradsnivå på en referanseindeks med fysikk-, biologi- og kjemiproblemer (GPQA).

Fra venstre til høyre: Konkurransematematikk, Konkurransekode, vitenskapelige spørsmål på doktorgradsnivå

På AIME-eksamenene i 2024 løste GPT-4o bare 13 % av oppgavene riktig, mens o1 fikk 83 %.

I GPQA Diamond-testen, som omfatter vitenskapelige spørsmål på doktorgradsnivå i fysikk, biologi og kjemi, gjorde o1-modellene det enda bedre enn menneskelige eksperter. Tidligere har kunstig intelligens ikke klart å utkonkurrere mennesker i denne testen.

Turkis: GPT-4o, Rød: o1

Bildet over viser o1s fremragende resultater i alt fra matematikk til engelsk litteratur. MMLU-testen omfatter 57 kategorier. o1-modellen vant i 54 av dem. Bare 7 av dem passer inn i bildet:

Globale fakta
Kjemi på høyskolenivå
Matematikk på høyskolenivå
Profesjonell juss
Offentlig kommunikasjon
Økonometri
Formell logikk

Interessant nok presterer o1-mini bedre på koding enn o1-preview, noe både Codeforces- og HumanEval-benchmarks viser:

o1-mini vs o1-preview vs GPT-4o i kodingsbenchmarks

Referanseverdier for kodingsferdigheter

I tillegg til eksamener og akademiske referanser, evaluerte OpenAI også menneskelig preferanse for o1-preview vs GPT-4o i

Personlig skriving
Redigering av tekst
Dataprogrammering
Dataanalyse
Matematisk beregning

I denne evalueringen ble menneskelige undervisere vist anonymiserte svar fra o1-preview og GPT-4o, og de fikk stemme på hvilket svar de foretrakk.

Menneskelige preferanser: o1-preview vs GPT-4o

o1-preview-gevinstprosent vs GPT-4o (%)

o1-preview foretrekkes fremfor GPT-4o med stor margin i resonneringstunge kategorier som dataanalyse, koding og matematikk. o1-preview er imidlertid ikke foretrukket i enkelte naturlige språkoppgaver, som skriving og redigering av tekst, noe som tyder på at o1-preview-modellen ikke egner seg like godt for alle bruksområder.

OpenAI o1 vs. andre store språkmodeller

OpenAI o1-preview er veldig smart. Hvor smart? Basert på Mensa-testen i Norge har den en IQ på 120, noe som er betydelig høyere enn andre testede språkmodeller. Toppen på grafen representerer den gjennomsnittlige menneskelige IQ-en. Alt til venstre for toppen er under gjennomsnittet, mens alt til høyre er over gjennomsnittet.

OpenAI o1 slår konkurrentene ut av vannet, både i store benchmarks og i hjemmelagde tester.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Du trenger ikke engang å forstå disse testene. Alt du trenger er å se OpenAI o1 øverst.

Tankekjede

Modeller i o1-serien er opplært til å resonnere og bygge en tankekjede. Dermed gir chatboten ikke bare et ferdig svar, men viser også veien den tok for å komme dit. Det kan være veldig interessant å følge denne veien.

La oss se på et av de vanskeligere spørsmålene fra IQ-testen nevnt tidligere.

Boten valgte alternativ D som svar, og slik forklarte den det:

Alternativ D - Ved å analysere mønstrene i rutenettet ser vi at hver kolonne kombinerer visse komponenter for å inkludere alle elementene (V, opp-ned V, rektangelets sider) i den tredje raden. I den tredje kolonnen har komponentene Rleft og Rright (rektangelets sider) ennå ikke dukket opp. Derfor er det riktige svaret for den tomme cellen alternativ D, som inkluderer den normale 'v' og de to sidene av rektangelet, og dermed fullfører settet med komponenter for den kolonnen.

La oss nå se på et enklere puslespill (ikke fra IQ-testen):

Et spørsmål: Herr og fru Smith og deres to barn er en typisk amerikansk familie. Ifølge en av de mer snakkesalige naboene er George og Dorothy er i slekt. Howard er eldre enn George. Virginia er yngre enn Howard. Virginia er eldre enn Dorothy. Hvis bare to av disse to påstandene er sanne, hva er fornavnet til hvert av familiemedlemmene?

Tankekjede: For å løse denne oppgaven må vi finne fornavnene til hvert familiemedlem basert på de gitte utsagnene og forutsetningen om at nøyaktig to utsagn er sanne. La oss bryte ned informasjonen trinn for trinn.

Modellen lister opp familiemedlemmene, deres mulige roller og navn, analyserer utsagnene og finner ut hvilke av dem som er sanne og hvilke som er usanne. Basert på alt dette gir modellen det endelige svaret.

Svar: Herr Smith er George, fru Smith er Virginia, sønnen er Howard, datteren er Dorothy.

Konklusjon

o1-preview-modellen er i stand til å resonnere logisk, noe som er nødvendig for å løse komplekse vitenskapelige og matematiske problemer. o1-mini-modellen er glimrende til å skrive kode. Begge OpenAI o1-modellene er imidlertid ganske smalt spesialiserte verktøy, de er ikke like allsidige i sine applikasjoner som GPT-4o, og de er ikke egnet for mange rutinemessige eller kreative oppgaver: arbeid med tekster, litterær oversettelse, redigering. Men på sitt område (matematikk, naturvitenskap og eksakte vitenskaper) er OpenAI o1-modellene uten sidestykke.