Что такое OpenAI o1 и чем эта модель лучше GPT-4o
12 сентября 2024 года компания OpenAI, известная по ChatGPT, представила новую серию моделей искусственного интеллекта под названием OpenAI o1. В этой статье мы разберем: чем OpenAI o1 отличается от GPT-4o, каковы его сильные стороны и в каких областях его можно использовать.
Что такое OpenAI o1?
Это новое семейство чат-ботов, а точнее, языковых моделей на основе искусственного интеллекта, предназначенных для решения сложных или особо сложных задач, требующих точности и логического мышления.
В настоящее время в семейство o1 входят:
- o1-preview - основная модель (пока в ранней версии, на что указывает слово «preview»),
- o1-mini - более легкая и быстрая модель, которая особенно эффективна при кодировании.
В самом названии «o1» есть определенный символизм:
Но для сложных задач, связанных с рассуждениями, это значительное достижение и представляет собой новый уровень возможностей ИИ. Учитывая это, мы возвращаем счетчик на 1 и называем эту серию OpenAI o1.
Отличия от GPT-4o
OpenAI o1 является альтернативой GPT-4o, но не прямой заменой. Иначе модель называлась бы просто GPT-5.
Находясь на относительно ранней стадии разработки, OpenAI o1 пока не может делать многое из того, что умеет GPT-4o. Например, она не поддерживает загрузку файлов и изображений.
Однако модели o1 отличаются точностью ответов, последовательностью и логичностью рассуждений, что позволяет успешно применять их в таких областях, как:
- Квантовая физика,
- Генетика,
- Медицина,
- Разработка программного обеспечения.
OpenAI o1 не просто генерирует ответ на вопрос, а выстраивает цепочку рассуждений. Из-за этого модель может отвечать дольше, чем другие чат-боты - обычно 5-10 секунд, а в некоторых случаях до 20-30 секунд. Это не настолько долго, чтобы стать настоящим неудобством. Тщательная проработка ответов делает модели OpenAI o1 менее склонными к галлюцинациям по сравнению с конкурентами. Галлюцинации - это когда чатбот выдумывает факты из воздуха, предоставляя ложную информацию.
Преимущества и оценки OpenAI o1
Выше мы уже упоминали о сильных сторонах OpenAI o1, таких как точность ответов и слабая восприимчивость к галлюцинациям. Теперь давайте посмотрим, как все это выражается в цифрах: какие оценки получает модель o1 в различных тестах.
OpenAI o1 находится в 89-м процентиле по конкурентным вопросам программирования (Codeforces), входит в число 500 лучших студентов США в отборочном туре математической олимпиады США (AIME) и превосходит точность человека с докторской степенью по эталону задач по физике, биологии и химии (GPQA).

Слева направо: Конкурсная математика, Конкурсный код, Научные вопросы уровня кандидата наук
На экзамене 2024 AIME модель GPT-4o правильно решила только 13 % задач, в то время как o1 набрала 83 %.
В тесте GPQA Diamond, включающем научные вопросы кандидатского уровня по физике, биологии и химии, модели o1 справились даже лучше, чем эксперты-люди. Ранее искусственному интеллекту не удавалось превзойти человека в этом тесте.

Бирюзовый: GPT-4o, красный: o1
На картинке выше показаны успехи o1 в самых разных дисциплинах - от математики до английской литературы. Тест MMLU включает 57 категорий. Модель o1 победила в 54 из них. Только 7 из них поместились на картинке:
- Глобальные факты
- Химия в колледже
- Математика в колледже
- Профессиональное право
- Связи с общественностью
- Эконометрика
- Формальная логика
Интересно, что o1-mini лучше справляется с кодированием, чем o1-preview, как показывают бенчмарки Codeforces и HumanEval:

Контрольные показатели владения навыками кодирования
Помимо экзаменов и академических тестов, OpenAI также оценил предпочтения человека в сравнении с o1-preview и GPT-4o:
- Личное письмо
- Редактирование текста
- Компьютерное программирование
- Анализ данных
- Математические расчеты
В этой оценке преподавателям показывали анонимные ответы из o1-preview и GPT-4o, и они голосовали за то, какой ответ им больше нравится.

o1-preview процент побед над GPT-4o (%)
o1-preview с большим отрывом превосходит GPT-4o в категориях, требующих большого количества аргументов, таких как анализ данных, кодирование и математика. Однако в некоторых задачах, связанных с естественным языком, таких как написание и редактирование текста, o1-preview не имеет преимуществ, что говорит о том, что модель o1-preview подходит не для всех случаев использования.
OpenAI o1 в сравнении с другими большими языковыми моделями
OpenAI o1-preview действительно умна. Насколько умна? По данным норвежского теста Mensa, его IQ составляет 120, что значительно выше, чем у других протестированных языковых моделей. Пик на графике представляет собой средний IQ человека. Все, что находится слева от пика, - ниже среднего, а все, что справа, - выше среднего.

OpenAI o1 превосходит конкурентов как в основных бенчмарках, так и в самодельных тестах.



Вам даже не нужно понимать эти тесты. Все, что вам нужно, - это увидеть OpenAI o1 на самом верху.
Цепочка рассуждений
Модели серии o1 обучены рассуждать, выстраивая цепочку мыслей. Таким образом, чатбот не только выдает готовый ответ, но и показывает путь, который он проделал, чтобы прийти к нему. Проследить этот путь может быть очень интересно.
Давайте рассмотрим один из самых сложных вопросов из упомянутого ранее IQ-теста.

Бот выбрал вариант D в качестве ответа, и вот как он это объяснил:
Вариант D - Анализируя закономерности в сетке, мы видим, что в каждом столбце объединяются определенные компоненты, чтобы к третьей строке были все элементы (V, перевернутая V, стороны прямоугольника). В третьем столбце компоненты Rleft и Rright (стороны прямоугольника) еще не появились. Поэтому правильным ответом для пустой клетки является вариант D, который включает обычную букву «v» и две стороны прямоугольника, завершая набор компонентов для этого столбца.
Теперь давайте рассмотрим более простую головоломку (не из теста IQ):

Вопрос: Мистер и миссис Смит и двое их детей - типичная американская семья. По словам одного из их более разговорчивых соседей: Джордж и Дороти - кровные родственники. Говард старше Джорджа. Вирджиния младше Говарда. Вирджиния старше Дороти. Если верны два и только два из этих утверждений, то как зовут каждого члена семьи?
Цепочка размышлений: Чтобы решить эту головоломку, нам нужно определить имена каждого члена семьи, исходя из данных утверждений и условия, что верны ровно два утверждения. Давайте разложим информацию по шагам.
Теперь модель перечисляет членов семьи, их возможные роли и имена; анализирует утверждения, выясняя, какие из них истинны, а какие ложны. Затем на основе всего этого модель дает окончательный ответ.
Ответ: Мистер Смит - Джордж, миссис Смит - Вирджиния, сын - Говард, дочь - Дороти.
Заключение
Модель o1-preview способна к логическим рассуждениям, что необходимо для решения сложных научных и математических задач. Модель o1-mini великолепно пишет код. Однако обе модели OpenAI o1 - довольно узкоспециализированные инструменты, они не так универсальны в применении, как GPT-4o, и не подходят для многих рутинных или творческих задач: работы с текстами, литературного перевода, редактирования. Однако в своей области (математика, естественные и точные науки) модели OpenAI o1 не имеют аналогов.