Ce este OpenAI o1 și cum acest model este mai bun decât GPT-4o

Pe 12 septembrie 2024, OpenAI, cunoscut pentru ChatGPT, și-a prezentat noua serie de modele de inteligență artificială numită OpenAI o1. În acest articol vom analiza: cum diferă OpenAI o1 de GPT-4o, care sunt punctele sale forte și în ce domenii poate fi folosit.

Ce este OpenAI o1?

Este o nouă familie de chatbots sau, mai exact, modele lingvistice bazate pe inteligență artificială, concepute pentru a rezolva sarcini complexe sau deosebit de dificile care necesită acuratețe și gândire logică.

În prezent, familia o1 include:

o1-preview - modelul principal (încă într-o versiune timpurie, după cum indică cuvântul „preview”),
o1-mini - un model mai ușor, mai rapid, care este deosebit de eficient la codificare.

Există un anumit simbolism în numele „o1” în sine:

Dar pentru sarcinile complexe de raționament, acesta este un progres semnificativ și reprezintă un nou nivel al capacității inteligenței artificiale. Având în vedere acest lucru, repornim contorul la 1 și numim această serie OpenAI o1.

Diferențe față de GPT-4o

OpenAI o1 este o alternativă la GPT-4o, dar nu un înlocuitor direct. În caz contrar, modelul ar fi denumit simplu GPT-5.

Fiind într-un stadiu relativ incipient de dezvoltare, OpenAI o1 nu poate face încă multe dintre lucrurile pe care le poate face GPT-4o. De exemplu, nu acceptă încărcarea de fișiere și imagini.

Cu toate acestea, modelele o1 excelează în ceea ce privește acuratețea răspunsurilor lor, coerența și logica raționamentului lor, ceea ce le permite să fie aplicate cu succes în domenii precum:

fizica cuantică,
genetică,
medicina,
dezvoltarea de software.

OpenAI o1 nu generează pur și simplu un răspuns la o întrebare, ci construiește un lanț de raționamente. Din acest motiv, modelul poate avea nevoie de mai mult timp pentru a răspunde decât alte chatbots - de obicei 5-10 secunde, iar în unele cazuri până la 20-30 de secunde. Acest timp nu este atât de lung încât să devină un inconvenient real. Examinarea atentă a răspunsurilor face ca modelele OpenAI o1 să fie mai puțin predispuse la halucinații în comparație cu concurenții lor. Halucinațiile sunt atunci când un chatbot inventează fapte din nimic, furnizând informații false.

Punctele forte și evaluările OpenAI o1

Mai sus am menționat deja punctele forte ale OpenAI o1, cum ar fi acuratețea răspunsurilor și susceptibilitatea slabă la halucinații. Acum să vedem cum se traduc toate acestea în cifre: ce scoruri obține modelul o1 în diverse teste.

OpenAI o1 se situează în percentila 89 la întrebările de programare competitive (Codeforces), se plasează printre primii 500 de studenți din SUA într-o probă de calificare pentru Olimpiada de matematică din SUA (AIME) și depășește acuratețea la nivel de doctorat uman la un punct de referință de probleme de fizică, biologie și chimie (GPQA).

De la stânga la dreapta: Matematică de concurs, Cod de concurs, Întrebări științifice la nivel de doctorat

La examenele AIME 2024, GPT-4o a rezolvat corect doar 13% din probleme, în timp ce o1 a obținut 83%.

La testul GPQA Diamond, care include întrebări științifice la nivel de doctorat în fizică, biologie și chimie, modelele o1 s-au descurcat chiar mai bine decât experții umani. Anterior, inteligența artificială nu a reușit să surclaseze oamenii în acest test.

Turcoaz: GPT-4o, Roșu: o1

Imaginea de mai sus arată excelența lui o1 în discipline care variază de la matematică la literatura engleză. Testul MMLU include 57 de categorii. Modelul o1 a câștigat în 54 dintre acestea. Doar 7 dintre ele încap în imagine:

Fapte globale
Chimie universitară
Matematică universitară
Drept profesional
Relații publice
Econometrie
Logică formală

În mod interesant, o1-mini se descurcă mai bine la codificare decât o1-preview, după cum arată benchmark-urile Codeforces și HumanEval:

o1-mini vs o1-preview vs GPT-4o în benchmark-uri de codare

Criterii de referință privind competențele de codificare

În plus față de examene și repere academice, OpenAI a evaluat, de asemenea, preferința umană de o1-preview vs GPT-4o în:

Scriere personală
Editarea textului
Programarea calculatoarelor
Analiza datelor
Calcul matematic

În cadrul acestei evaluări, formatorilor umani le-au fost prezentate răspunsuri anonime din o1-preview și GPT-4o și au votat pentru răspunsul preferat.

Rata de câștig o1-preview vs GPT-4o (%)

Modelul o1-preview este preferat modelului GPT-4o cu o marjă mare în categoriile de raționament, cum ar fi analiza datelor, codificarea și matematica. Cu toate acestea, o1-preview nu este preferat în anumite sarcini de limbaj natural, cum ar fi scrierea și editarea textului, ceea ce sugerează că modelul o1-preview nu este bine adaptat pentru toate cazurile de utilizare.

OpenAI o1 vs alte modele mari de limbaj

OpenAI o1-preview este foarte inteligent. Cât de inteligent? Pe baza testului Mensa din Norvegia, acesta are un IQ de 120, ceea ce este semnificativ mai mare decât alte modele lingvistice testate. Vârful de pe grafic reprezintă IQ-ul uman mediu. Tot ce se află la stânga vârfului este sub medie, în timp ce tot ce se află la dreapta este peste medie.

OpenAI o1 depășește concurența, atât în benchmark-urile majore, cât și în testele făcute în casă.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Nici măcar nu trebuie să înțelegeți aceste teste. Tot ce trebuie să faceți este să vedeți OpenAI o1 în partea de sus.

Lanț de gândire

Modelele din seria o1 sunt antrenate să raționeze, construind un lanț de gânduri. Astfel, chatbotul nu numai că oferă un răspuns gata făcut, dar arată și calea pe care a urmat-o pentru a ajunge acolo. Poate fi foarte interesant să urmăriți această cale.

Să ne uităm la una dintre cele mai dificile întrebări din testul IQ menționat anterior.

Robotul a ales opțiunea D ca răspuns și iată cum a explicat-o:

Opțiunea D - Analizând modelele din grilă, observăm că fiecare coloană combină anumite componente pentru a include toate elementele (V, V răsturnat, laturile dreptunghiului) până la al treilea rând. În a treia coloană, componentele Rleft și Rright (laturile dreptunghiului) nu au apărut încă. Prin urmare, răspunsul corect pentru celula goală este opțiunea D, care include „v” normal și cele două laturi ale dreptunghiului, completând setul de componente pentru coloana respectivă.

Să ne uităm acum la un puzzle mai simplu (care nu provine din testul IQ):

Întrebare: Domnul și doamna Smith și cei doi copii ai lor formează o familie americană tipică. Potrivit unuia dintre vecinii lor mai vorbăreți: George și Dorothy sunt rude de sânge. Howard este mai în vârstă decât George. Virginia este mai tânără decât Howard. Virginia este mai în vârstă decât Dorothy. Dacă două și numai două dintre aceste afirmații sunt adevărate, care este prenumele fiecărui membru al familiei?

Lanțul de gândire: Pentru a rezolva acest puzzle, trebuie să determinăm prenumele fiecărui membru al familiei pe baza afirmațiilor date și a condiției ca exact două afirmații să fie adevărate. Să defalcăm informațiile pas cu pas.

Acum, modelul enumeră membrii familiei, rolurile și numele lor posibile; analizează afirmațiile, aflând care dintre acestea sunt adevărate și care sunt false. Apoi, bazându-se pe toate acestea, modelul oferă răspunsul final.

Răspuns: Domnul Smith este George, doamna Smith este Virginia, fiul este Howard, fiica este Dorothy.

Concluzie

Modelul o1-preview este capabil de raționament logic, care este necesar pentru rezolvarea problemelor științifice și matematice complexe. Modelul o1-mini este genial la scrierea codului. Cu toate acestea, ambele modele OpenAI o1 sunt instrumente specializate destul de îngust, nu sunt la fel de versatile în aplicațiile lor ca GPT-4o și nu sunt potrivite pentru multe sarcini de rutină sau creative: lucrul cu texte, traducere literară, editare. Cu toate acestea, în domeniul lor (matematică, științe naturale și exacte), modelele OpenAI o1 sunt de neegalat.