Mi az OpenAI o1 és hogyan jobb ez a modell, mint a GPT-4o
2024. szeptember 12-én a ChatGPT-ről ismert OpenAI bemutatta új, OpenAI o1 nevű mesterséges intelligencia modellsorozatát. Ebben a cikkben azt elemezzük: miben különbözik az OpenAI o1 a GPT-4o-tól, mik az erősségei és milyen területeken használható.
Mi az OpenAI o1?
A chatbotok, pontosabban a mesterséges intelligencián alapuló nyelvi modellek új családjáról van szó, amelyeket komplex vagy különösen nehéz, pontosságot és logikus gondolkodást igénylő feladatok megoldására terveztek.
Az o1 család jelenleg a következőket tartalmazza:
- o1-preview - a fő modell (még korai verzióban, ahogy azt az „preview” szó is jelzi),
- o1-mini - egy könnyebb, gyorsabb modell, amely különösen hatékony a kódolásban.
Magában az „o1” névben van némi szimbolika:
Az összetett következtetési feladatok esetében azonban ez jelentős előrelépés, és a mesterséges intelligencia új szintjét jelenti. Ezt figyelembe véve a számlálót visszaállítjuk 1-re, és ezt a sorozatot OpenAI o1-nek nevezzük el.
Különbségek a GPT-4o-tól
Az OpenAI o1 a GPT-4o alternatívája, de nem közvetlen helyettesítője. Ellenkező esetben a modellt egyszerűen GPT-5-nek hívnák.
Mivel az OpenAI o1 a fejlesztés viszonylag korai szakaszában van, sok olyan dolgot még nem tud, amit a GPT-4o tud. Például nem támogatja a fájlok és képek feltöltését.
Az o1 modellek azonban kiemelkednek válaszaik pontosságával, érvelésük következetességével és logikájával, ami lehetővé teszi, hogy sikeresen alkalmazzák őket olyan területeken, mint például:
- Kvantumfizika,
- Genetika,
- Orvostudomány,
- Szoftverfejlesztés.
Az OpenAI o1 nem egyszerűen választ generál egy kérdésre, hanem egy érvelési láncot épít fel. Emiatt a modellnek hosszabb ideig tarthat a válaszadás, mint más chatbotoknak - jellemzően 5-10 másodpercig, de egyes esetekben akár 20-30 másodpercig is. Ez nem olyan hosszú idő, hogy valódi kellemetlenséget jelentsen. A válaszok gondos mérlegelése miatt az OpenAI o1 modellek kevésbé hajlamosak a hallucinációra a versenytársaikhoz képest. Hallucinációnak nevezzük azt, amikor a chatbot a semmiből talál ki tényeket, hamis információkat szolgáltatva.
Az OpenAI o1 erősségei és értékelései
Fentebb már említettük az OpenAI o1 erősségeit, például a válaszok pontosságát és a hallucinációkra való gyenge hajlamot. Most pedig nézzük meg, hogy mindez hogyan csapódik le számokban: milyen pontszámokat ér el az o1 modell a különböző teszteken.
Az OpenAI o1 a 89. percentilisben szerepel a versenyképes programozási kérdésekben (Codeforces), az USA-ban a legjobb 500 diák között szerepel az USA matematikai olimpiájának selejtezőjében (AIME), és az emberi PhD-szintű pontosságot meghaladja a fizikai, biológiai és kémiai problémákból álló benchmarkban (GPQA).

Balról jobbra: Verseny matematika, Verseny kód, PhD szintű tudományos kérdések
A 2024-es AIME-vizsgán a GPT-4o a feladatok mindössze 13%-át oldotta meg helyesen, míg az o1 83%-ot ért el.
A GPQA Diamond tesztben, amely a fizika, biológia és kémia PhD-szintű természettudományos kérdéseket tartalmaz, az o1 modellek még az emberi szakértőknél is jobban teljesítettek. Korábban a mesterséges intelligencia nem volt képes felülmúlni az embereket ebben a tesztben.

Türkiz: GPT-4o, Piros: o1
A fenti kép az o1 kiválóságát mutatja a matematikától az angol irodalomig terjedő tudományágakban. Az MMLU teszt 57 kategóriát tartalmaz. Az o1 modell ezek közül 54-ben nyert. A képre csak 7 illik belőlük:
- Globális tények
- Főiskolai kémia
- Főiskolai matematika
- Szakmai jog
- Közkapcsolatok
- Ökonometria
- Formális logika
Érdekes módon az o1-mini jobban teljesít a kódolásban, mint az o1-preview, amint azt a Codeforces és a HumanEval benchmarkok is mutatják:

Kódolási jártassági referenciaértékek
A vizsgákon és a tudományos benchmarkokon kívül az OpenAI az o1-preview vs. GPT-4o emberi preferenciáját is értékelte:
- Személyes írás
- Szövegszerkesztés
- Számítógépes programozás
- Adatelemzés
- Matematikai számítás
Ebben az értékelésben a humán oktatóknak az o1-preview és a GPT-4o anonimizált válaszait mutatták meg, és szavaztak arra, hogy melyik választ részesítsék előnyben.

o1-preview nyerési arány vs GPT-4o (%)
Az o1-preview a GPT-4o-t nagy fölénnyel előnyben részesíti az érvelést igénylő kategóriákban, mint például az adatelemzés, a kódolás és a matematika. Az o1-preview azonban nem részesül előnyben néhány természetes nyelvi feladatnál, például a szövegírás és -szerkesztés esetében, ami arra utal, hogy az o1-preview modell nem alkalmas minden felhasználási esetre.
OpenAI o1 vs. más nagy nyelvi modellek
Az OpenAI o1-preview igazán okos. Mennyire okos? A norvég Mensa-teszt alapján 120-as IQ-val rendelkezik, ami jelentősen magasabb, mint más tesztelt nyelvi modelleké. A grafikonon látható csúcs az átlagos emberi IQ-t jelöli. Minden, ami a csúcstól balra van, átlag alatti, míg minden, ami jobbra van, átlag feletti.

Az OpenAI o1 a legnagyobb benchmarkokban és házi készítésű tesztekben egyaránt kiütötte a versenytársakat.



Nem is kell értenie ezeket a teszteket. Mindössze annyit kell látnia, hogy az OpenAI o1 a tetején van.
Gondolatlánc
Az o1 sorozat modelljei gondolkodásra vannak képezve, gondolatláncot építve. Így a chatbot nemcsak kész választ ad, hanem megmutatja az utat is, amelyen eljutott odáig. Nagyon érdekes lehet ezt az utat követni.
Nézzük meg a korábban említett IQ-teszt egyik nehezebb kérdését.

A robot a D lehetőséget választotta válaszként, és ezt így magyarázta:
A rács mintáit elemezve láthatjuk, hogy minden oszlop egyes elemei egyesítik az összes elemet (V, fejjel lefelé fordított V, téglalap oldalai) a harmadik sorig. A harmadik oszlopban az Rleft és Rright (a téglalap oldalai) komponensek még nem jelentek meg. Ezért az üres cellára a helyes válasz a D lehetőség, amely magában foglalja a normál „v”-t és a téglalap két oldalát, kiegészítve ezzel az oszlop összetevőinek halmazát.
Most nézzünk egy egyszerűbb feladványt (nem az IQ-tesztből):

Kérdés: Mr. és Mrs. Smith és két gyermekük egy tipikus amerikai családot alkotnak. Az egyik beszédesebb szomszédjuk szerint: George és Dorothy vérrokonok. Howard idősebb, mint George. Virginia fiatalabb, mint Howard. Virginia idősebb, mint Dorothy. Ha az állítások közül kettő és csak kettő igaz, akkor mi a család minden tagjának a keresztneve?
Gondolatmenet: A rejtvény megoldásához meg kell határoznunk az egyes családtagok keresztnevét a megadott állítások és az a feltétel alapján, hogy pontosan két állítás igaz. Bontsuk fel lépésről lépésre az információkat.
Most a modell felsorolja a családtagokat, azok lehetséges szerepeit és neveit; elemzi az állításokat, kideríti, hogy ezek közül melyik igaz és melyik hamis. Majd mindezek alapján a modell megadja a végső választ.
Válasz: Smith úr George, Smith asszony Virginia, a fiú Howard, a lánya Dorothy.irginia, Son Howard, Daughter Dorothy.
Következtetés
Az o1-preview modell képes a logikus gondolkodásra, ami az összetett tudományos és matematikai problémák megoldásához szükséges. Az o1-mini modell zseniális a kódírás terén. Mindkét OpenAI o1-modell azonban meglehetősen szűken specializált eszköz, nem olyan sokoldalúan alkalmazható, mint a GPT-4o, és sok rutinszerű vagy kreatív feladatra nem alkalmasak: szövegekkel való munkára, irodalmi fordításra, szerkesztésre. A saját területükön (matematika, természettudományok és egzakt tudományok) azonban az OpenAI o1 modellek páratlanok.