Какво представлява OpenAI o1 и с какво този модел е по-добър от GPT-4o
На 12 септември 2024 г. компанията OpenAI, известна с ChatGPT, представи новата си серия модели на изкуствен интелект, наречена OpenAI o1. В тази статия ще анализираме: по какво OpenAI o1 се различава от GPT-4o, какви са силните му страни и в какви области може да се използва.
Какво представлява OpenAI o1?
Това е нова фамилия чатботове, или по-точно езикови модели, базирани на изкуствен интелект, предназначени за решаване на сложни или особено трудни задачи, които изискват точност и логическо мислене.
Понастоящем семейството o1 включва:
- o1-preview - основният модел (все още в ранна версия, както е посочено с думата „preview“),
- o1-mini - по-лек и по-бърз модел, който е особено ефективен при кодиране.
В самото име „o1“ има известна символика:
Но за сложни задачи за разсъждение това е значителен напредък и представлява ново ниво на способностите на ИИ. Предвид това връщаме брояча на 1 и наричаме тази серия OpenAI o1.
Разлики от GPT-4o
OpenAI o1 е алтернатива на GPT-4o, но не и пряк заместител. В противен случай моделът би се наричал просто GPT-5.
Тъй като е на сравнително ранен етап на развитие, OpenAI o1 все още не може да прави много от нещата, които GPT-4o може да прави. Например, той не поддържа качване на файлове и изображения.
Въпреки това моделите на o1 се отличават с точност на отговорите си, последователност и логичност на разсъжденията си, което им позволява да бъдат успешно прилагани в области като
- Квантова физика,
- Генетика,
- Медицина,
- Разработване на софтуер.
OpenAI o1 не просто генерира отговор на даден въпрос, а изгражда верига от разсъждения. Поради това отговорът на модела може да отнеме повече време, отколкото на други чатботове - обикновено 5-10 секунди, а в някои случаи до 20-30 секунди. Това не е толкова дълго, че да се превърне в истинско неудобство. Внимателното обмисляне на отговорите прави моделите на OpenAI o1 по-малко склонни към халюцинации в сравнение с техните конкуренти. Халюцинации са случаите, когато чатботът си измисля факти от въздуха, предоставяйки невярна информация.
Силни страни и оценки на OpenAI o1
По-горе вече споменахме силните страни на OpenAI o1, като например точността на отговорите и слабата податливост на халюцинации. Сега нека видим как всичко това се изразява в цифри: какви са оценките на модела o1 в различни тестове.
OpenAI o1 се класира на 89-ия персентил на състезателни въпроси по програмиране (Codeforces), класира се сред 500-те най-добри ученици в САЩ в квалификацията за олимпиадата по математика в САЩ (AIME) и надминава точността на човешкия докторант в сравнителен тест от задачи по физика, биология и химия (GPQA).

От ляво на дясно: Състезателна математика, Състезателен код, Научни въпроси на ниво доктор
На изпитите на AIME 2024 GPT-4o решава правилно само 13% от задачите, докато o1 постига 83%.
На теста GPQA Diamond, който включва въпроси от науката на докторско ниво в областта на физиката, биологията и химията, моделите на o1 се справиха дори по-добре от човешките експерти. Преди това изкуственият интелект не е успявал да надмине хората в този тест.

Тюркоаз: GPT-4o, червено: o1
Изображението по-горе показва високите постижения на o1 в различни дисциплини - от математика до английска литература. Тестът MMLU включва 57 категории. Моделът на o1 спечели в 54 от тях. Само 7 от тях се вписват в снимката:
- Глобални факти
- Колеж по химия
- Математика за колежа
- Професионално право
- Връзки с обществеността
- Иконометрия
- Формална логика
Интересно е, че o1-mini се справя по-добре с кодирането, отколкото o1-preview, както показват бенчмарковете Codeforces и HumanEval:

Критерии за владеене на кодирането
В допълнение към изпитите и академичните еталони OpenAI също така оцени предпочитанията на хората към o1-preview спрямо GPT-4o в:
- Лично писане
- Редактиране на текст
- Компютърно програмиране
- Анализ на данни
- Математически изчисления
При тази оценка на обучителите бяха показани анонимни отговори от o1-preview и GPT-4o и те гласуваха за това кой отговор предпочитат.

Процент на печалбите при o1-preview спрямо GPT-4o (%)
o1-preview е предпочитан пред GPT-4o с голяма разлика в категориите, изискващи много разсъждения, като анализ на данни, кодиране и математика. Въпреки това o1-preview не е предпочитан при някои задачи на естествен език, като писане и редактиране на текст, което предполага, че моделът o1-preview не е подходящ за всички случаи на употреба.
OpenAI o1 спрямо други големи езикови модели
OpenAI o1-preview е наистина интелигентен. Колко умен? Въз основа на норвежкия тест на Mensa той има IQ 120, което е значително по-високо от други тествани езикови модели. Върхът на графиката представлява средното човешко IQ. Всичко вляво от върха е под средното, а всичко вдясно е над средното.

OpenAI o1 превъзхожда конкуренцията както в основните бенчмаркове, така и в домашните тестове.



Дори не е необходимо да разбирате тези тестове. Достатъчно е да видите OpenAI o1 в горната част.
Верига от мисли
Моделите от серията o1 са обучени да разсъждават, като изграждат верига от мисли. По този начин чатботът не само дава готов отговор, но и показва пътя, който е извървял, за да стигне до него. Може да бъде много интересно да се проследи този път.
Нека разгледаме един от по-трудните въпроси от теста за интелигентност, споменат по-рано.

Ботът избра вариант D като отговор и ето как го обясни:
Вариант D - Като анализираме моделите в мрежата, виждаме, че всяка колона комбинира определени компоненти, за да включи всички елементи (V, обърнато V, страни на правоъгълник) до третия ред. В третата колона компонентите Rleft и Rright (страните на правоъгълника) все още не са се появили. Следователно правилният отговор за празната клетка е Вариант D, който включва нормалното „V“ и двете страни на правоъгълника, допълвайки набора от компоненти за тази колона.
Сега нека разгледаме един по-прост пъзел (не от теста за интелигентност):

Въпрос: Г-н и г-жа Смит и техните две деца са типично американско семейство. Според един от по-разговорливите им съседи: Джордж и Дороти са кръвни роднини. Хауърд е по-възрастен от Джордж. Вирджиния е по-млада от Хауърд. Вирджиния е по-възрастна от Дороти. Ако две и само две от тези твърдения са верни, какво е първото име на всеки член на семейството?
Верига от мисли: За да решим този пъзел, трябва да определим първите имена на всеки член на семейството въз основа на дадените твърдения и условието точно две твърдения да са верни. Нека да разбием информацията стъпка по стъпка.
Сега моделът изброява членовете на семейството, техните възможни роли и имена; анализира твърденията, като установява кои от тях са верни и кои са неверни. След това въз основа на всичко това моделът дава окончателния отговор.
Отговор: Г-н Смит е Джордж, г-жа Смит е Вирджиния, синът е Хауърд, дъщерята е Дороти.
Заключение
Моделът o1-preview е способен на логически разсъждения, които са необходими за решаването на сложни научни и математически проблеми. Моделът o1-mini е брилянтен в писането на код. Въпреки това и двата модела o1 на OpenAI са доста тясно специализирани инструменти, не са толкова универсални в приложенията си, колкото GPT-4o, и не са подходящи за много рутинни или творчески задачи: работа с текстове, литературен превод, редактиране. Въпреки това в своята област (математика, природни и точни науки) моделите OpenAI o1 са несравними.