Vad är OpenAI o1 och hur är denna modell bättre än GPT-4o

Den 12 september 2024 introducerade OpenAI, känd för ChatGPT, sin nya serie modeller för artificiell intelligens som kallas OpenAI o1. I den här artikeln kommer vi att analysera: hur OpenAI o1 skiljer sig från GPT-4o, vilka är dess styrkor och i vilka områden den kan användas.

Vad är OpenAI o1?

Det är en ny familj av chatbots, eller, mer exakt, språkmodeller baserade på artificiell intelligens, utformade för att lösa komplexa eller särskilt svåra uppgifter som kräver noggrannhet och logiskt tänkande.

För närvarande inkluderar o1-familjen:

o1-preview - huvudmodellen (fortfarande i en tidig version, vilket indikeras av ordet ”preview”),
o1-mini - en lättare och snabbare modell som är särskilt effektiv vid kodning.

Det finns en viss symbolik i själva namnet ”o1”:

Men för komplexa resonemangsuppgifter är detta ett betydande framsteg och representerar en ny nivå av AI-kapacitet. Med tanke på detta återställer vi räknaren till 1 och döper den här serien till OpenAI o1.

Skillnader från GPT-4o

OpenAI o1 är ett alternativ till GPT-4o, men inte en direkt ersättning. I annat fall skulle modellen helt enkelt kallas GPT-5.

OpenAI o1 befinner sig i ett relativt tidigt utvecklingsskede och kan därför ännu inte göra många av de saker som GPT-4o kan göra. Den har till exempel inte stöd för att ladda upp filer och bilder.

Men o1-modellerna utmärker sig genom att deras svar är exakta och att deras resonemang är konsekventa och logiska, vilket gör att de framgångsrikt kan användas inom områden som t.ex:

Kvantfysik,
Genetik,
Medicin,
Mjukvaruutveckling.

OpenAI o1 genererar inte bara ett svar på en fråga, utan bygger upp en kedja av resonemang. På grund av detta kan det ta längre tid för modellen att svara än för andra chatbottar - vanligtvis 5-10 sekunder, och i vissa fall upp till 20-30 sekunder. Detta är inte så lång tid att det blir ett verkligt besvär. Det noggranna övervägandet av svaren gör att OpenAI o1-modellerna är mindre benägna att hallucinera jämfört med sina konkurrenter. Hallucinationer är när en chatbot hittar på fakta ur tomma luften och ger falsk information.

OpenAI o1:s styrkor och utvärderingar

Ovan har vi redan nämnt styrkorna hos OpenAI o1, såsom noggrannheten i svaren och svag mottaglighet för hallucinationer. Låt oss nu se hur allt detta översätts till siffror: vad o1-modellen får i olika tester.

OpenAI o1 rankas i den 89:e percentilen på tävlingsinriktade programmeringsfrågor (Codeforces), placerar sig bland de 500 bästa studenterna i USA i ett kval till USA:s matematikolympiad (AIME) och överträffar mänsklig noggrannhet på doktorandnivå på ett riktmärke med fysik-, biologi- och kemiproblem (GPQA).

Från vänster till höger: Tävlingsmatematik, Tävlingskod, Vetenskapliga frågor på doktorandnivå

På AIME-examen 2024 löste GPT-4o endast 13% av problemen korrekt, medan o1 fick 83%.

I GPQA Diamond-testet, som innehåller vetenskapliga frågor på doktorandnivå inom fysik, biologi och kemi, klarade sig o1-modellerna till och med bättre än mänskliga experter. Tidigare har artificiell intelligens inte kunnat överträffa människor i detta test.

Turkos: GPT-4o, Röd: o1

Bilden ovan visar o1:s spetskompetens inom allt från matematik till engelsk litteratur. MMLU-testet innehåller 57 kategorier. Modellen o1 vann i 54 av dem. Endast 7 av dem passar in i bilden:

Globala fakta
Kemi på högskolenivå
Matematik på högskolenivå
Professionell juridik
Public Relations
Ekonometri
Formell logik

Intressant nog presterar o1-mini bättre på kodning än o1-preview, vilket både Codeforces och HumanEval benchmarks visar:

o1-mini vs o1-preview vs GPT-4o i riktmärken för kodning

Riktmärken för kodningskompetens

Förutom prov och akademiska riktmärken utvärderade OpenAI också mänsklig preferens för o1-preview vs GPT-4o i:

Personligt skrivande
Redigering av text
Datorprogrammering
Analys av data
Matematisk beräkning

I den här utvärderingen fick mänskliga utbildare se anonymiserade svar från o1-preview och GPT-4o och rösta på vilket svar de föredrog.

Mänskliga preferenser: o1-preview vs GPT-4o

o1-preview vinstprocent mot GPT-4o (%)

o1-preview föredras framför GPT-4o med stor marginal i resonemangstunga kategorier som dataanalys, kodning och matematik. Men o1-preview är inte att föredra i vissa uppgifter med naturligt språk som att skriva och redigera text, vilket tyder på att o1-preview-modellen inte är väl lämpad för alla användningsfall.

OpenAI o1 vs andra stora språkmodeller

OpenAI o1-preview är riktigt smart. Hur smart? Baserat på Mensa-testet i Norge har den en IQ på 120, vilket är betydligt högre än andra testade språkmodeller. Toppen i diagrammet representerar den genomsnittliga mänskliga IQ:n. Allt till vänster om toppen är under genomsnittet, medan allt till höger är över genomsnittet.

OpenAI o1 blåser konkurrenterna ur vattnet, både i stora benchmarks och hemmagjorda tester.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Du behöver inte ens förstå dessa tester. Allt du behöver är att se OpenAI o1 högst upp.

En kedja av tankar

Modellerna i o1-serien är tränade att resonera och bygga en kedja av tankar. På så sätt ger chatboten inte bara ett färdigt svar, utan visar också vägen den tog för att komma dit. Det kan vara mycket intressant att följa den här vägen.

Låt oss titta på en av de svårare frågorna från IQ-testet som nämndes tidigare.

Boten valde alternativ D som svar, och så här förklarade den det:

Alternativ D - Genom att analysera mönstren i rutnätet ser vi att varje kolumn kombinerar vissa komponenter för att inkludera alla element (V, uppochnervänt V, rektangelns sidor) i den tredje raden. I den tredje kolumnen har komponenterna Rleft och Rright (rektangelns sidor) ännu inte dykt upp. Därför är det korrekta svaret för den tomma cellen alternativ D, som inkluderar det normala ”v” och rektangelns två sidor, vilket kompletterar uppsättningen komponenter för den kolumnen.

Låt oss nu titta på ett enklare pussel (inte från IQ-testet):

Fråga: Herr och fru Smith och deras två barn utgör en typisk amerikansk familj. Enligt en av deras mer pratsamma grannar: George och Dorothy är släkt i blodet. Howard är äldre än George. Virginia är yngre än Howard. Virginia är äldre än Dorothy. Om två och endast två av dessa påståenden är sanna, vad är då förnamnet på varje familjemedlem?

Tankekedja: För att lösa det här pusslet måste vi bestämma förnamnen på varje familjemedlem utifrån de givna påståendena och villkoret att exakt två påståenden är sanna. Låt oss bryta ner informationen steg för steg.

Nu listar modellen familjemedlemmarna, deras möjliga roller och namn; analyserar påståendena och tar reda på vilka av dem som är sanna och vilka som är falska. Baserat på allt detta ger modellen sedan det slutliga svaret.

Svar på frågan: Herr Smith är George, fru Smith är Virginia, sonen är Howard, dottern är Dorothy.

Slutsats

Modellen o1-preview kan föra logiska resonemang, vilket är nödvändigt för att lösa komplexa vetenskapliga och matematiska problem. Modellen o1-mini är lysande på att skriva kod. Båda OpenAI o1-modellerna är dock ganska snävt specialiserade verktyg, de är inte lika mångsidiga i sina tillämpningar som GPT-4o, och de är inte lämpliga för många rutinmässiga eller kreativa uppgifter: arbete med texter, litterär översättning, redigering. Men inom sitt område (matematik, naturvetenskap och exakta vetenskaper) är OpenAI o1-modellerna oöverträffade.