Какво представлява OpenAI o1 и с какво този модел е по-добър от GPT-4o

На 12 септември 2024 г. компанията OpenAI, известна с ChatGPT, представи новата си серия модели на изкуствен интелект, наречена OpenAI o1. В тази статия ще анализираме: по какво OpenAI o1 се различава от GPT-4o, какви са силните му страни и в какви области може да се използва.

Какво представлява OpenAI o1?

Това е нова фамилия чатботове, или по-точно езикови модели, базирани на изкуствен интелект, предназначени за решаване на сложни или особено трудни задачи, които изискват точност и логическо мислене.

Понастоящем семейството o1 включва:

o1-preview - основният модел (все още в ранна версия, както е посочено с думата „preview“),
o1-mini - по-лек и по-бърз модел, който е особено ефективен при кодиране.

В самото име „o1“ има известна символика:

Но за сложни задачи за разсъждение това е значителен напредък и представлява ново ниво на способностите на ИИ. Предвид това връщаме брояча на 1 и наричаме тази серия OpenAI o1.

Разлики от GPT-4o

OpenAI o1 е алтернатива на GPT-4o, но не и пряк заместител. В противен случай моделът би се наричал просто GPT-5.

Тъй като е на сравнително ранен етап на развитие, OpenAI o1 все още не може да прави много от нещата, които GPT-4o може да прави. Например, той не поддържа качване на файлове и изображения.

Въпреки това моделите на o1 се отличават с точност на отговорите си, последователност и логичност на разсъжденията си, което им позволява да бъдат успешно прилагани в области като

Квантова физика,
Генетика,
Медицина,
Разработване на софтуер.

OpenAI o1 не просто генерира отговор на даден въпрос, а изгражда верига от разсъждения. Поради това отговорът на модела може да отнеме повече време, отколкото на други чатботове - обикновено 5-10 секунди, а в някои случаи до 20-30 секунди. Това не е толкова дълго, че да се превърне в истинско неудобство. Внимателното обмисляне на отговорите прави моделите на OpenAI o1 по-малко склонни към халюцинации в сравнение с техните конкуренти. Халюцинации са случаите, когато чатботът си измисля факти от въздуха, предоставяйки невярна информация.

Силни страни и оценки на OpenAI o1

По-горе вече споменахме силните страни на OpenAI o1, като например точността на отговорите и слабата податливост на халюцинации. Сега нека видим как всичко това се изразява в цифри: какви са оценките на модела o1 в различни тестове.

OpenAI o1 се класира на 89-ия персентил на състезателни въпроси по програмиране (Codeforces), класира се сред 500-те най-добри ученици в САЩ в квалификацията за олимпиадата по математика в САЩ (AIME) и надминава точността на човешкия докторант в сравнителен тест от задачи по физика, биология и химия (GPQA).

От ляво на дясно: Състезателна математика, Състезателен код, Научни въпроси на ниво доктор

На изпитите на AIME 2024 GPT-4o решава правилно само 13% от задачите, докато o1 постига 83%.

На теста GPQA Diamond, който включва въпроси от науката на докторско ниво в областта на физиката, биологията и химията, моделите на o1 се справиха дори по-добре от човешките експерти. Преди това изкуственият интелект не е успявал да надмине хората в този тест.

Тюркоаз: GPT-4o, червено: o1

Изображението по-горе показва високите постижения на o1 в различни дисциплини - от математика до английска литература. Тестът MMLU включва 57 категории. Моделът на o1 спечели в 54 от тях. Само 7 от тях се вписват в снимката:

Глобални факти
Колеж по химия
Математика за колежа
Професионално право
Връзки с обществеността
Иконометрия
Формална логика

Интересно е, че o1-mini се справя по-добре с кодирането, отколкото o1-preview, както показват бенчмарковете Codeforces и HumanEval:

o1-mini vs o1-preview vs GPT-4o в бенчмаркове за кодиране

Критерии за владеене на кодирането

В допълнение към изпитите и академичните еталони OpenAI също така оцени предпочитанията на хората към o1-preview спрямо GPT-4o в:

Лично писане
Редактиране на текст
Компютърно програмиране
Анализ на данни
Математически изчисления

При тази оценка на обучителите бяха показани анонимни отговори от o1-preview и GPT-4o и те гласуваха за това кой отговор предпочитат.

Човешки предпочитания: o1-preview vs GPT-4o

Процент на печалбите при o1-preview спрямо GPT-4o (%)

o1-preview е предпочитан пред GPT-4o с голяма разлика в категориите, изискващи много разсъждения, като анализ на данни, кодиране и математика. Въпреки това o1-preview не е предпочитан при някои задачи на естествен език, като писане и редактиране на текст, което предполага, че моделът o1-preview не е подходящ за всички случаи на употреба.

OpenAI o1 спрямо други големи езикови модели

OpenAI o1-preview е наистина интелигентен. Колко умен? Въз основа на норвежкия тест на Mensa той има IQ 120, което е значително по-високо от други тествани езикови модели. Върхът на графиката представлява средното човешко IQ. Всичко вляво от върха е под средното, а всичко вдясно е над средното.

OpenAI o1 превъзхожда конкуренцията както в основните бенчмаркове, така и в домашните тестове.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Дори не е необходимо да разбирате тези тестове. Достатъчно е да видите OpenAI o1 в горната част.

Верига от мисли

Моделите от серията o1 са обучени да разсъждават, като изграждат верига от мисли. По този начин чатботът не само дава готов отговор, но и показва пътя, който е извървял, за да стигне до него. Може да бъде много интересно да се проследи този път.

Нека разгледаме един от по-трудните въпроси от теста за интелигентност, споменат по-рано.

Ботът избра вариант D като отговор и ето как го обясни:

Вариант D - Като анализираме моделите в мрежата, виждаме, че всяка колона комбинира определени компоненти, за да включи всички елементи (V, обърнато V, страни на правоъгълник) до третия ред. В третата колона компонентите Rleft и Rright (страните на правоъгълника) все още не са се появили. Следователно правилният отговор за празната клетка е Вариант D, който включва нормалното „V“ и двете страни на правоъгълника, допълвайки набора от компоненти за тази колона.

Сега нека разгледаме един по-прост пъзел (не от теста за интелигентност):

Въпрос: Г-н и г-жа Смит и техните две деца са типично американско семейство. Според един от по-разговорливите им съседи: Джордж и Дороти са кръвни роднини. Хауърд е по-възрастен от Джордж. Вирджиния е по-млада от Хауърд. Вирджиния е по-възрастна от Дороти. Ако две и само две от тези твърдения са верни, какво е първото име на всеки член на семейството?

Верига от мисли: За да решим този пъзел, трябва да определим първите имена на всеки член на семейството въз основа на дадените твърдения и условието точно две твърдения да са верни. Нека да разбием информацията стъпка по стъпка.

Сега моделът изброява членовете на семейството, техните възможни роли и имена; анализира твърденията, като установява кои от тях са верни и кои са неверни. След това въз основа на всичко това моделът дава окончателния отговор.

Отговор: Г-н Смит е Джордж, г-жа Смит е Вирджиния, синът е Хауърд, дъщерята е Дороти.

Заключение

Моделът o1-preview е способен на логически разсъждения, които са необходими за решаването на сложни научни и математически проблеми. Моделът o1-mini е брилянтен в писането на код. Въпреки това и двата модела o1 на OpenAI са доста тясно специализирани инструменти, не са толкова универсални в приложенията си, колкото GPT-4o, и не са подходящи за много рутинни или творчески задачи: работа с текстове, литературен превод, редактиране. Въпреки това в своята област (математика, природни и точни науки) моделите OpenAI o1 са несравними.