Что такое OpenAI o1 и чем эта модель лучше GPT-4o

12 сентября 2024 года компания OpenAI, известная по ChatGPT, представила новую серию моделей искусственного интеллекта под названием OpenAI o1. В этой статье мы разберем: чем OpenAI o1 отличается от GPT-4o, каковы его сильные стороны и в каких областях его можно использовать.

Что такое OpenAI o1?

Это новое семейство чат-ботов, а точнее, языковых моделей на основе искусственного интеллекта, предназначенных для решения сложных или особо сложных задач, требующих точности и логического мышления.

В настоящее время в семейство o1 входят:

o1-preview - основная модель (пока в ранней версии, на что указывает слово «preview»),
o1-mini - более легкая и быстрая модель, которая особенно эффективна при кодировании.

В самом названии «o1» есть определенный символизм:

Но для сложных задач, связанных с рассуждениями, это значительное достижение и представляет собой новый уровень возможностей ИИ. Учитывая это, мы возвращаем счетчик на 1 и называем эту серию OpenAI o1.

Отличия от GPT-4o

OpenAI o1 является альтернативой GPT-4o, но не прямой заменой. Иначе модель называлась бы просто GPT-5.

Находясь на относительно ранней стадии разработки, OpenAI o1 пока не может делать многое из того, что умеет GPT-4o. Например, она не поддерживает загрузку файлов и изображений.

Однако модели o1 отличаются точностью ответов, последовательностью и логичностью рассуждений, что позволяет успешно применять их в таких областях, как:

Квантовая физика,
Генетика,
Медицина,
Разработка программного обеспечения.

OpenAI o1 не просто генерирует ответ на вопрос, а выстраивает цепочку рассуждений. Из-за этого модель может отвечать дольше, чем другие чат-боты - обычно 5-10 секунд, а в некоторых случаях до 20-30 секунд. Это не настолько долго, чтобы стать настоящим неудобством. Тщательная проработка ответов делает модели OpenAI o1 менее склонными к галлюцинациям по сравнению с конкурентами. Галлюцинации - это когда чатбот выдумывает факты из воздуха, предоставляя ложную информацию.

Преимущества и оценки OpenAI o1

Выше мы уже упоминали о сильных сторонах OpenAI o1, таких как точность ответов и слабая восприимчивость к галлюцинациям. Теперь давайте посмотрим, как все это выражается в цифрах: какие оценки получает модель o1 в различных тестах.

OpenAI o1 находится в 89-м процентиле по конкурентным вопросам программирования (Codeforces), входит в число 500 лучших студентов США в отборочном туре математической олимпиады США (AIME) и превосходит точность человека с докторской степенью по эталону задач по физике, биологии и химии (GPQA).

o1 против GPT-4o против эксперта-человека

Слева направо: Конкурсная математика, Конкурсный код, Научные вопросы уровня кандидата наук

На экзамене 2024 AIME модель GPT-4o правильно решила только 13 % задач, в то время как o1 набрала 83 %.

В тесте GPQA Diamond, включающем научные вопросы кандидатского уровня по физике, биологии и химии, модели o1 справились даже лучше, чем эксперты-люди. Ранее искусственному интеллекту не удавалось превзойти человека в этом тесте.

Бирюзовый: GPT-4o, красный: o1

На картинке выше показаны успехи o1 в самых разных дисциплинах - от математики до английской литературы. Тест MMLU включает 57 категорий. Модель o1 победила в 54 из них. Только 7 из них поместились на картинке:

Глобальные факты
Химия в колледже
Математика в колледже
Профессиональное право
Связи с общественностью
Эконометрика
Формальная логика

Интересно, что o1-mini лучше справляется с кодированием, чем o1-preview, как показывают бенчмарки Codeforces и HumanEval:

o1-mini vs o1-preview vs GPT-4o в бенчмарках кодирования

Контрольные показатели владения навыками кодирования

Помимо экзаменов и академических тестов, OpenAI также оценил предпочтения человека в сравнении с o1-preview и GPT-4o:

Личное письмо
Редактирование текста
Компьютерное программирование
Анализ данных
Математические расчеты

В этой оценке преподавателям показывали анонимные ответы из o1-preview и GPT-4o, и они голосовали за то, какой ответ им больше нравится.

Предпочтения людей: o1-preview против GPT-4o

o1-preview процент побед над GPT-4o (%)

o1-preview с большим отрывом превосходит GPT-4o в категориях, требующих большого количества аргументов, таких как анализ данных, кодирование и математика. Однако в некоторых задачах, связанных с естественным языком, таких как написание и редактирование текста, o1-preview не имеет преимуществ, что говорит о том, что модель o1-preview подходит не для всех случаев использования.

OpenAI o1 в сравнении с другими большими языковыми моделями

OpenAI o1-preview действительно умна. Насколько умна? По данным норвежского теста Mensa, его IQ составляет 120, что значительно выше, чем у других протестированных языковых моделей. Пик на графике представляет собой средний IQ человека. Все, что находится слева от пика, - ниже среднего, а все, что справа, - выше среднего.

OpenAI o1 превосходит конкурентов как в основных бенчмарках, так и в самодельных тестах.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Вам даже не нужно понимать эти тесты. Все, что вам нужно, - это увидеть OpenAI o1 на самом верху.

Цепочка рассуждений

Модели серии o1 обучены рассуждать, выстраивая цепочку мыслей. Таким образом, чатбот не только выдает готовый ответ, но и показывает путь, который он проделал, чтобы прийти к нему. Проследить этот путь может быть очень интересно.

Давайте рассмотрим один из самых сложных вопросов из упомянутого ранее IQ-теста.

Бот выбрал вариант D в качестве ответа, и вот как он это объяснил:

Вариант D - Анализируя закономерности в сетке, мы видим, что в каждом столбце объединяются определенные компоненты, чтобы к третьей строке были все элементы (V, перевернутая V, стороны прямоугольника). В третьем столбце компоненты Rleft и Rright (стороны прямоугольника) еще не появились. Поэтому правильным ответом для пустой клетки является вариант D, который включает обычную букву «v» и две стороны прямоугольника, завершая набор компонентов для этого столбца.

Теперь давайте рассмотрим более простую головоломку (не из теста IQ):

Вопрос: Мистер и миссис Смит и двое их детей - типичная американская семья. По словам одного из их более разговорчивых соседей: Джордж и Дороти - кровные родственники. Говард старше Джорджа. Вирджиния младше Говарда. Вирджиния старше Дороти. Если верны два и только два из этих утверждений, то как зовут каждого члена семьи?

Цепочка размышлений: Чтобы решить эту головоломку, нам нужно определить имена каждого члена семьи, исходя из данных утверждений и условия, что верны ровно два утверждения. Давайте разложим информацию по шагам.

Теперь модель перечисляет членов семьи, их возможные роли и имена; анализирует утверждения, выясняя, какие из них истинны, а какие ложны. Затем на основе всего этого модель дает окончательный ответ.

Ответ: Мистер Смит - Джордж, миссис Смит - Вирджиния, сын - Говард, дочь - Дороти.

Заключение

Модель o1-preview способна к логическим рассуждениям, что необходимо для решения сложных научных и математических задач. Модель o1-mini великолепно пишет код. Однако обе модели OpenAI o1 - довольно узкоспециализированные инструменты, они не так универсальны в применении, как GPT-4o, и не подходят для многих рутинных или творческих задач: работы с текстами, литературного перевода, редактирования. Однако в своей области (математика, естественные и точные науки) модели OpenAI o1 не имеют аналогов.