Czym jest OpenAI o1 i w czym ten model jest lepszy od GPT-4o?

12 września 2024 r. firma OpenAI, znana z ChatGPT, zaprezentowała nową serię modeli sztucznej inteligencji o nazwie OpenAI o1. W tym artykule przeanalizujemy: czym OpenAI o1 różni się od GPT-4o, jakie są jego mocne strony i w jakich obszarach można go wykorzystać.

Czym jest OpenAI o1?

Jest to nowa rodzina chatbotów, a dokładniej modeli językowych opartych na sztucznej inteligencji, zaprojektowanych do rozwiązywania złożonych lub szczególnie trudnych zadań wymagających dokładności i logicznego myślenia.

Obecnie w skład rodziny o1 wchodzą:

o1-preview - główny model (wciąż we wczesnej wersji, na co wskazuje słowo „preview”),
o1-mini - lżejszy, szybszy model, który jest szczególnie skuteczny w kodowaniu.

W samej nazwie „o1” kryje się pewna symbolika:

Jednak w przypadku złożonych zadań rozumowania jest to znaczący postęp i reprezentuje nowy poziom możliwości sztucznej inteligencji. Biorąc to pod uwagę, resetujemy licznik z powrotem do 1 i nazywamy tę serię OpenAI o1.

Różnice w stosunku do GPT-4o

OpenAI o1 jest alternatywą dla GPT-4o, ale nie jest jego bezpośrednim zamiennikiem. W przeciwnym razie model ten nazywałby się po prostu GPT-5.

Będąc na stosunkowo wczesnym etapie rozwoju, OpenAI o1 nie może jeszcze robić wielu rzeczy, które może robić GPT-4o. Na przykład nie obsługuje przesyłania plików i obrazów.

Jednak modele o1 wyróżniają się dokładnością odpowiedzi, spójnością i logiką rozumowania, co pozwala na ich skuteczne zastosowanie w takich dziedzinach jak:

Fizyka kwantowa,
Genetyka,
Medycyna,
Rozwój oprogramowania.

OpenAI o1 nie generuje po prostu odpowiedzi na pytanie, ale buduje łańcuch rozumowania. Z tego powodu model może potrzebować więcej czasu na odpowiedź niż inne chatboty - zazwyczaj 5-10 sekund, a w niektórych przypadkach nawet 20-30 sekund. Nie jest to jednak czas na tyle długi, by stał się prawdziwą niedogodnością. Staranne rozważenie odpowiedzi sprawia, że modele OpenAI o1 są mniej podatne na halucynacje w porównaniu do swoich konkurentów. Halucynacje mają miejsce, gdy chatbot wymyśla fakty z powietrza, dostarczając fałszywych informacji.

Mocne strony i oceny OpenAI o1

Powyżej wspomnieliśmy już o mocnych stronach OpenAI o1, takich jak dokładność odpowiedzi i słaba podatność na halucynacje. Zobaczmy teraz, jak to wszystko przekłada się na liczby: jakie wyniki osiąga model o1 w różnych testach.

OpenAI o1 plasuje się w 89. percentylu w konkurencyjnych pytaniach programistycznych (Codeforces), plasuje się wśród 500 najlepszych studentów w USA w kwalifikacjach do Olimpiady Matematycznej USA (AIME) i przekracza ludzką dokładność na poziomie doktora w benchmarku problemów z fizyki, biologii i chemii (GPQA).

Od lewej do prawej: Matematyka konkursowa, Kod konkursowy, Pytania naukowe na poziomie doktorskim

Na egzaminach AIME 2024, GPT-4o poprawnie rozwiązał tylko 13% problemów, podczas gdy o1 uzyskał wynik 83%.

W teście GPQA Diamond, który obejmuje pytania naukowe na poziomie doktorskim z fizyki, biologii i chemii, modele o1 poradziły sobie nawet lepiej niż ludzcy eksperci. Wcześniej sztuczna inteligencja nie była w stanie przewyższyć ludzi w tym teście.

Turkusowy: GPT-4o, Czerwony: o1

Powyższy obrazek pokazuje doskonałość o1 w dyscyplinach od matematyki po literaturę angielską. Test MMLU obejmuje 57 kategorii. Model o1 zwyciężył w 54 z nich. Tylko 7 z nich pasuje do obrazka:

Fakty globalne
Chemia w college'u
Matematyka wyższa
Prawo zawodowe
Stosunki publiczne
Ekonometria
Logika formalna

Co ciekawe, o1-mini radzi sobie lepiej z kodowaniem niż o1-preview, co pokazują zarówno testy porównawcze Codeforces, jak i HumanEval:

o1-mini vs o1-preview vs GPT-4o w testach porównawczych kodowania

Poziomy odniesienia dla biegłości w kodowaniu

Oprócz egzaminów i akademickich testów porównawczych, OpenAI oceniło również ludzkie preferencje o1-preview vs GPT-4o:

Pisanie osobiste
Edycja tekstu
Programowanie komputerowe
Analiza danych
Obliczenia matematyczne

W tej ocenie trenerom pokazano zanonimizowane odpowiedzi z o1-preview i GPT-4o, a następnie zagłosowali, którą odpowiedź preferują.

Ludzkie preferencje: o1-preview vs GPT-4o

Współczynnik wygranych o1-preview vs GPT-4o (%)

o1-preview jest preferowany w stosunku do GPT-4o z dużym marginesem w kategoriach wymagających rozumowania, takich jak analiza danych, kodowanie i matematyka. Jednak o1-preview nie jest preferowany w niektórych zadaniach związanych z językiem naturalnym, takich jak pisanie i edytowanie tekstu, co sugeruje, że model o1-preview nie jest dobrze dopasowany do wszystkich przypadków użycia.

OpenAI o1 vs inne duże modele językowe

OpenAI o1-preview jest naprawdę inteligentny. Jak bardzo? W oparciu o norweski test Mensy, jego IQ wynosi 120, czyli znacznie więcej niż w przypadku innych testowanych modeli językowych. Szczyt na wykresie reprezentuje średnie ludzkie IQ. Wszystko po lewej stronie szczytu jest poniżej średniej, podczas gdy wszystko po prawej jest powyżej średniej.

OpenAI o1 zdmuchuje konkurencję z wody, zarówno w głównych testach porównawczych, jak i testach domowych.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Nie musisz nawet rozumieć tych testów. Wystarczy zobaczyć OpenAI o1 na górze.

Łańcuch myśli

Modele z serii o1 są szkolone w zakresie rozumowania, budując łańcuch myśli. W ten sposób chatbot nie tylko daje gotową odpowiedź, ale także pokazuje ścieżkę, którą przeszedł, aby do niej dotrzeć. Podążanie tą ścieżką może być bardzo interesujące.

Przyjrzyjmy się jednemu z trudniejszych pytań ze wspomnianego wcześniej testu IQ.

Bot wybrał opcję D jako odpowiedź, a oto jak to wyjaśnił:

Opcja D - Analizując wzorce w siatce, widzimy, że każda kolumna łączy pewne składniki, aby uwzględnić wszystkie elementy (V, odwrócone V, boki prostokąta) do trzeciego wiersza. W trzeciej kolumnie nie pojawiły się jeszcze elementy Rleft i Rright (boki prostokąta). Dlatego poprawną odpowiedzią dla pustej komórki jest opcja D, która zawiera normalne „v” i dwa boki prostokąta, uzupełniając zestaw składników dla tej kolumny.

Przyjrzyjmy się teraz prostszej łamigłówce (nie z testu IQ):

Pytanie: Państwo Smith wraz z dwójką dzieci tworzą typową amerykańską rodzinę. Według jednego z ich bardziej rozmownych sąsiadów: George i Dorothy są krewnymi. Howard jest starszy od George'a. Virginia jest młodsza od Howarda. Virginia jest starsza od Dorothy. Jeśli dwa i tylko dwa z tych stwierdzeń są prawdziwe, jakie jest imię każdego członka rodziny?

Łańcuch myślowy: Aby rozwiązać tę zagadkę, musimy określić imiona każdego członka rodziny na podstawie podanych stwierdzeń i warunku, że dokładnie dwa stwierdzenia są prawdziwe. Przeanalizujmy informacje krok po kroku.

Teraz model wymienia członków rodziny, ich możliwe role i imiona; analizuje stwierdzenia, sprawdzając, które z nich są prawdziwe, a które fałszywe. Następnie na podstawie wszystkich tych informacji model podaje ostateczną odpowiedź.

Odpowiedź: Pan Smith to George, pani Smith to Virginia, syn to Howard, córka to Dorothy.

Wnioski

Model o1-preview jest zdolny do logicznego rozumowania, które jest niezbędne do rozwiązywania złożonych problemów naukowych i matematycznych. Model o1-mini jest genialny w pisaniu kodu. Jednak oba modele OpenAI o1 są raczej wąsko wyspecjalizowanymi narzędziami, nie są tak wszechstronne w swoich zastosowaniach jak GPT-4o i nie nadają się do wielu rutynowych lub kreatywnych zadań: pracy z tekstami, tłumaczenia literackiego, edycji. Jednak w swojej dziedzinie (matematyka, nauki przyrodnicze i ścisłe) modele OpenAI o1 nie mają sobie równych.