Wat is OpenAI o1 en hoe is dit model beter dan GPT-4o?

Op 12 september 2024 introduceerde OpenAI, bekend van ChatGPT, zijn nieuwe serie kunstmatige intelligentie modellen genaamd OpenAI o1. In dit artikel analyseren we hoe OpenAI o1 verschilt van GPT-4o, wat de sterke punten zijn en op welke gebieden het kan worden gebruikt.

Wat is OpenAI o1?

Het is een nieuwe familie chatbots, of beter gezegd, taalmodellen gebaseerd op kunstmatige intelligentie, ontworpen om complexe of bijzonder moeilijke taken op te lossen die nauwkeurigheid en logisch denken vereisen.

Momenteel bestaat de o1-familie uit:

o1-preview - het hoofdmodel (nog in een vroege versie, zoals aangegeven door het woord “preview”),
o1-mini - een lichter, sneller model dat vooral effectief is bij coderen.

Er zit wat symboliek in de naam “o1” zelf:

Maar voor complexe redeneertaken is dit een aanzienlijke vooruitgang en vertegenwoordigt het een nieuw niveau van kunstmatige intelligentie. Daarom zetten we de teller terug op 1 en noemen we deze serie OpenAI o1.

Verschillen met GPT-4o

OpenAI o1 is een alternatief voor GPT-4o, maar geen directe vervanging. Anders zou het model simpelweg GPT-5 heten.

Omdat OpenAI o1 zich in een relatief vroeg stadium van ontwikkeling bevindt, kan het veel dingen nog niet die GPT-4o wel kan. Het ondersteunt bijvoorbeeld niet het uploaden van bestanden en afbeeldingen.

De o1-modellen blinken echter uit in de nauwkeurigheid van hun antwoorden en de consistentie en logica van hun redeneringen, waardoor ze met succes kunnen worden toegepast op gebieden als:

kwantumfysica,
genetica,
geneeskunde,
softwareontwikkeling.

OpenAI o1 genereert niet simpelweg een antwoord op een vraag, maar bouwt een redenering op. Hierdoor kan het model er langer over doen om te antwoorden dan andere chatbots - meestal 5-10 seconden, en in sommige gevallen tot 20-30 seconden. Dit is niet zo lang dat het een echt ongemak wordt. De zorgvuldige afweging van reacties maakt de OpenAI o1-modellen minder gevoelig voor hallucinaties in vergelijking met hun concurrenten. Hallucinaties zijn wanneer een chatbot feiten uit de lucht plukt en valse informatie geeft.

Sterke punten en evaluaties van OpenAI o1

Hierboven hebben we al de sterke punten van OpenAI o1 genoemd, zoals de nauwkeurigheid van antwoorden en de zwakke gevoeligheid voor hallucinaties. Laten we nu eens kijken hoe dit alles zich vertaalt in cijfers: wat het o1-model scoort in verschillende tests.

OpenAI o1 scoort in het 89e percentiel op competitieve programmeervragen (Codeforces), behoort tot de top 500 studenten in de VS in een kwalificatiewedstrijd voor de USA Math Olympiad (AIME) en overtreft de nauwkeurigheid op menselijk PhD-niveau op een benchmark van natuurkunde-, biologie- en scheikundeproblemen (GPQA).

Van links naar rechts: Wedstrijd wiskunde, Wedstrijd code, PhD-Level Wetenschapsvragen

Op de 2024 AIME examens loste GPT-4o slechts 13% van de problemen correct op, terwijl o1 83% scoorde.

In de GPQA Diamond test, die PhD-Level Science Questions in natuurkunde, biologie en scheikunde bevat, deden o1-modellen het zelfs beter dan menselijke experts. Tot nu toe was kunstmatige intelligentie niet in staat om beter te presteren dan mensen in deze test.

Turkoois: GPT-4o, Rood: o1

De afbeelding hierboven toont de uitmuntendheid van o1 in disciplines variërend van wiskunde tot Engelse literatuur. De MMLU-test omvat 57 categorieën. Het o1-model won in 54 daarvan. Slechts 7 daarvan passen in de afbeelding:

Wereldwijde feiten
Scheikunde
Wiskunde
Professioneel recht
Publieke Betrekkingen
Econometrie
Formele logica

Interessant genoeg presteert o1-mini beter op het gebied van codering dan o1-preview, zoals blijkt uit zowel Codeforces als HumanEval benchmarks:

o1-mini vs o1-preview vs GPT-4o in coderingsbenchmarks

Benchmarks voor codeervaardigheid

Naast examens en academische benchmarks evalueerde OpenAI ook de menselijke voorkeur van o1-preview vs GPT-4o in:

Persoonlijk schrijven
Tekst bewerken
Computer Programmeren
Gegevensanalyse
Wiskundige berekeningen

In deze evaluatie kregen menselijke trainers geanonimiseerde antwoorden te zien van o1-preview en GPT-4o en konden ze stemmen welk antwoord hun voorkeur had.

Menselijke voorkeuren: o1-preview vs GPT-4o

o1-preview winstkans vs GPT-4o (%)

o1-preview heeft een ruime voorkeur boven GPT-4o in categorieën die veel redeneren vereisen, zoals gegevensanalyse, codering en wiskunde. o1-preview heeft echter niet de voorkeur bij sommige natuurlijke taaltaken zoals het schrijven en bewerken van tekst, wat suggereert dat het o1-preview model niet geschikt is voor alle gebruikssituaties.

OpenAI o1 vs andere grote taalmodellen

OpenAI o1-preview is echt slim. Hoe slim? Gebaseerd op de Mensa-test in Noorwegen heeft het een IQ van 120, wat significant hoger is dan andere geteste taalmodellen. De piek in de grafiek vertegenwoordigt het gemiddelde menselijke IQ. Alles links van de piek is onder het gemiddelde, terwijl alles rechts boven het gemiddelde is.

OpenAI o1 blaast de concurrentie uit het water, zowel in belangrijke benchmarks als in zelfgemaakte tests.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Je hoeft die tests niet eens te begrijpen. Je hoeft alleen maar OpenAI o1 bovenaan te zien.

Keten van gedachten

Modellen uit de o1-serie zijn getraind om te redeneren, waarbij ze een gedachteketen opbouwen. De chatbot geeft dus niet alleen een kant-en-klaar antwoord, maar laat ook zien welke weg hij heeft afgelegd om daar te komen. Het kan heel interessant zijn om dit pad te volgen.

Laten we eens kijken naar een van de moeilijkere vragen uit de eerder genoemde IQ-test.

De bot koos optie D als antwoord en legde dat hier uit:

Optie D - Door de patronen in het raster te analyseren, zien we dat elke kolom bepaalde componenten combineert om alle elementen (V, omgekeerde V, rechthoekzijden) tegen de derde rij op te nemen. In de derde kolom zijn de componenten Rleft en Rright (de zijden van de rechthoek) nog niet verschenen. Daarom is het juiste antwoord voor de lege cel Optie D, die de normale 'v' en de twee zijden van de rechthoek bevat, waarmee de verzameling componenten voor die kolom compleet is.

Laten we nu eens kijken naar een eenvoudigere puzzel (niet uit de IQ-test):

Vraag: Meneer en mevrouw Smith en hun twee kinderen vormen een typisch Amerikaans gezin. Volgens een van hun meer spraakzame buren: George en Dorothy zijn bloedverwanten. Howard is ouder dan George. Virginia is jonger dan Howard. Virginia is ouder dan Dorothy. Als twee en slechts twee van deze beweringen waar zijn, wat is dan de voornaam van elk familielid?

Denkvolgorde: Om deze puzzel op te lossen, moeten we de voornaam van elk familielid bepalen op basis van de gegeven beweringen en de voorwaarde dat precies twee beweringen waar zijn. Laten we de informatie stap voor stap uitsplitsen.

Het model maakt nu een lijst van de familieleden, hun mogelijke rollen en namen; analyseert de uitspraken en zoekt uit welke waar en welke onwaar zijn. Op basis van dat alles geeft het model dan het uiteindelijke antwoord.

Antwoord: Mr. Smith is George, Mrs. Smith is Virginia, Zoon is Howard, Dochter is Dorothy.

Conclusie

Het o1-preview model is in staat om logisch te redeneren, wat nodig is om complexe wetenschappelijke en wiskundige problemen op te lossen. Het o1-mini model is briljant in het schrijven van code. Beide o1-modellen van OpenAI zijn echter nogal nauw gespecialiseerde hulpmiddelen, ze zijn niet zo veelzijdig in hun toepassingen als GPT-4o, en ze zijn niet geschikt voor veel routinematige of creatieve taken: werken met teksten, literaire vertaling, redactie. In hun domein (wiskunde, natuur- en exacte wetenschappen) zijn de OpenAI o1-modellen echter ongeëvenaard.