Mi az OpenAI o1 és hogyan jobb ez a modell, mint a GPT-4o

2024. szeptember 12-én a ChatGPT-ről ismert OpenAI bemutatta új, OpenAI o1 nevű mesterséges intelligencia modellsorozatát. Ebben a cikkben azt elemezzük: miben különbözik az OpenAI o1 a GPT-4o-tól, mik az erősségei és milyen területeken használható.

Mi az OpenAI o1?

A chatbotok, pontosabban a mesterséges intelligencián alapuló nyelvi modellek új családjáról van szó, amelyeket komplex vagy különösen nehéz, pontosságot és logikus gondolkodást igénylő feladatok megoldására terveztek.

Az o1 család jelenleg a következőket tartalmazza:

o1-preview - a fő modell (még korai verzióban, ahogy azt az „preview” szó is jelzi),
o1-mini - egy könnyebb, gyorsabb modell, amely különösen hatékony a kódolásban.

Magában az „o1” névben van némi szimbolika:

Az összetett következtetési feladatok esetében azonban ez jelentős előrelépés, és a mesterséges intelligencia új szintjét jelenti. Ezt figyelembe véve a számlálót visszaállítjuk 1-re, és ezt a sorozatot OpenAI o1-nek nevezzük el.

Különbségek a GPT-4o-tól

Az OpenAI o1 a GPT-4o alternatívája, de nem közvetlen helyettesítője. Ellenkező esetben a modellt egyszerűen GPT-5-nek hívnák.

Mivel az OpenAI o1 a fejlesztés viszonylag korai szakaszában van, sok olyan dolgot még nem tud, amit a GPT-4o tud. Például nem támogatja a fájlok és képek feltöltését.

Az o1 modellek azonban kiemelkednek válaszaik pontosságával, érvelésük következetességével és logikájával, ami lehetővé teszi, hogy sikeresen alkalmazzák őket olyan területeken, mint például:

Kvantumfizika,
Genetika,
Orvostudomány,
Szoftverfejlesztés.

Az OpenAI o1 nem egyszerűen választ generál egy kérdésre, hanem egy érvelési láncot épít fel. Emiatt a modellnek hosszabb ideig tarthat a válaszadás, mint más chatbotoknak - jellemzően 5-10 másodpercig, de egyes esetekben akár 20-30 másodpercig is. Ez nem olyan hosszú idő, hogy valódi kellemetlenséget jelentsen. A válaszok gondos mérlegelése miatt az OpenAI o1 modellek kevésbé hajlamosak a hallucinációra a versenytársaikhoz képest. Hallucinációnak nevezzük azt, amikor a chatbot a semmiből talál ki tényeket, hamis információkat szolgáltatva.

Az OpenAI o1 erősségei és értékelései

Fentebb már említettük az OpenAI o1 erősségeit, például a válaszok pontosságát és a hallucinációkra való gyenge hajlamot. Most pedig nézzük meg, hogy mindez hogyan csapódik le számokban: milyen pontszámokat ér el az o1 modell a különböző teszteken.

Az OpenAI o1 a 89. percentilisben szerepel a versenyképes programozási kérdésekben (Codeforces), az USA-ban a legjobb 500 diák között szerepel az USA matematikai olimpiájának selejtezőjében (AIME), és az emberi PhD-szintű pontosságot meghaladja a fizikai, biológiai és kémiai problémákból álló benchmarkban (GPQA).

Balról jobbra: Verseny matematika, Verseny kód, PhD szintű tudományos kérdések

A 2024-es AIME-vizsgán a GPT-4o a feladatok mindössze 13%-át oldotta meg helyesen, míg az o1 83%-ot ért el.

A GPQA Diamond tesztben, amely a fizika, biológia és kémia PhD-szintű természettudományos kérdéseket tartalmaz, az o1 modellek még az emberi szakértőknél is jobban teljesítettek. Korábban a mesterséges intelligencia nem volt képes felülmúlni az embereket ebben a tesztben.

Türkiz: GPT-4o, Piros: o1

A fenti kép az o1 kiválóságát mutatja a matematikától az angol irodalomig terjedő tudományágakban. Az MMLU teszt 57 kategóriát tartalmaz. Az o1 modell ezek közül 54-ben nyert. A képre csak 7 illik belőlük:

Globális tények
Főiskolai kémia
Főiskolai matematika
Szakmai jog
Közkapcsolatok
Ökonometria
Formális logika

Érdekes módon az o1-mini jobban teljesít a kódolásban, mint az o1-preview, amint azt a Codeforces és a HumanEval benchmarkok is mutatják:

o1-mini vs o1-preview vs GPT-4o kódolási benchmarkokban

Kódolási jártassági referenciaértékek

A vizsgákon és a tudományos benchmarkokon kívül az OpenAI az o1-preview vs. GPT-4o emberi preferenciáját is értékelte:

Személyes írás
Szövegszerkesztés
Számítógépes programozás
Adatelemzés
Matematikai számítás

Ebben az értékelésben a humán oktatóknak az o1-preview és a GPT-4o anonimizált válaszait mutatták meg, és szavaztak arra, hogy melyik választ részesítsék előnyben.

Emberi preferenciák: o1-preview vs GPT-4o

o1-preview nyerési arány vs GPT-4o (%)

Az o1-preview a GPT-4o-t nagy fölénnyel előnyben részesíti az érvelést igénylő kategóriákban, mint például az adatelemzés, a kódolás és a matematika. Az o1-preview azonban nem részesül előnyben néhány természetes nyelvi feladatnál, például a szövegírás és -szerkesztés esetében, ami arra utal, hogy az o1-preview modell nem alkalmas minden felhasználási esetre.

OpenAI o1 vs. más nagy nyelvi modellek

Az OpenAI o1-preview igazán okos. Mennyire okos? A norvég Mensa-teszt alapján 120-as IQ-val rendelkezik, ami jelentősen magasabb, mint más tesztelt nyelvi modelleké. A grafikonon látható csúcs az átlagos emberi IQ-t jelöli. Minden, ami a csúcstól balra van, átlag alatti, míg minden, ami jobbra van, átlag feletti.

Az OpenAI o1 a legnagyobb benchmarkokban és házi készítésű tesztekben egyaránt kiütötte a versenytársakat.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Nem is kell értenie ezeket a teszteket. Mindössze annyit kell látnia, hogy az OpenAI o1 a tetején van.

Gondolatlánc

Az o1 sorozat modelljei gondolkodásra vannak képezve, gondolatláncot építve. Így a chatbot nemcsak kész választ ad, hanem megmutatja az utat is, amelyen eljutott odáig. Nagyon érdekes lehet ezt az utat követni.

Nézzük meg a korábban említett IQ-teszt egyik nehezebb kérdését.

A robot a D lehetőséget választotta válaszként, és ezt így magyarázta:

A rács mintáit elemezve láthatjuk, hogy minden oszlop egyes elemei egyesítik az összes elemet (V, fejjel lefelé fordított V, téglalap oldalai) a harmadik sorig. A harmadik oszlopban az Rleft és Rright (a téglalap oldalai) komponensek még nem jelentek meg. Ezért az üres cellára a helyes válasz a D lehetőség, amely magában foglalja a normál „v”-t és a téglalap két oldalát, kiegészítve ezzel az oszlop összetevőinek halmazát.

Most nézzünk egy egyszerűbb feladványt (nem az IQ-tesztből):

Kérdés: Mr. és Mrs. Smith és két gyermekük egy tipikus amerikai családot alkotnak. Az egyik beszédesebb szomszédjuk szerint: George és Dorothy vérrokonok. Howard idősebb, mint George. Virginia fiatalabb, mint Howard. Virginia idősebb, mint Dorothy. Ha az állítások közül kettő és csak kettő igaz, akkor mi a család minden tagjának a keresztneve?

Gondolatmenet: A rejtvény megoldásához meg kell határoznunk az egyes családtagok keresztnevét a megadott állítások és az a feltétel alapján, hogy pontosan két állítás igaz. Bontsuk fel lépésről lépésre az információkat.

Most a modell felsorolja a családtagokat, azok lehetséges szerepeit és neveit; elemzi az állításokat, kideríti, hogy ezek közül melyik igaz és melyik hamis. Majd mindezek alapján a modell megadja a végső választ.

Válasz: Smith úr George, Smith asszony Virginia, a fiú Howard, a lánya Dorothy.irginia, Son Howard, Daughter Dorothy.

Következtetés

Az o1-preview modell képes a logikus gondolkodásra, ami az összetett tudományos és matematikai problémák megoldásához szükséges. Az o1-mini modell zseniális a kódírás terén. Mindkét OpenAI o1-modell azonban meglehetősen szűken specializált eszköz, nem olyan sokoldalúan alkalmazható, mint a GPT-4o, és sok rutinszerű vagy kreatív feladatra nem alkalmasak: szövegekkel való munkára, irodalmi fordításra, szerkesztésre. A saját területükön (matematika, természettudományok és egzakt tudományok) azonban az OpenAI o1 modellek páratlanok.