GPT-3.5, GPT-4: Узнайте разницу

ChatGPT - это чатбот-приложение, разработанное компанией OpenAI. Различные версии GPT (например, GPT-3.5 и GPT-4) - это "мозги" чатбота, искусственный интеллект, который позволяет ChatGPT распознавать, понимать и генерировать текст в человекоподобной манере.

GPT-3.5

GPT-3.5 - это подкласс третьей итерации Generative Pre-Trained Transformer. Это большая языковая модель, основанная на архитектуре трансформаторов, которая была обучена на огромных объемах текстовых данных понимать и отвечать на естественных языках (таких как русский, английский, испанский, и т.д.). Это называется обработкой естественного языка. Архитектура трансформера является более совершенной по сравнению с предыдущими рекуррентными нейронными архитектурами. Проще говоря, она помогает языковой модели лучше понять и воспринять текст.

Трансформеры способны лучше понимать контекст, воспринимать связи между словами в предложении и абзаце, выделять ключевые идеи в тексте.

GPT-3.5 имеет 175 миллиардов параметров обучения. В свое время это был самый большой показатель для любой другой крупной языковой модели. Эти параметры подобны нейронным связям - чем больше, тем лучше. Самое удивительное, что в какой-то момент при увеличении числа параметров модель становится экспертом даже в тех областях, которым ее никто специально не обучал: например, перевод с одного языка на другой, решение логических и математических задач.

Для того чтобы сделать взаимодействие с GPT-3.5 более естественным и безопасным, была применена технология обучения с подкреплением на основе человеческой обратной связи, когда человеческий вклад используется для улучшения алгоритмов машинного обучения.

ChatGPT-4 и его отличия от ChatGPT-3.5

GPT-4 имеет 100 триллионов параметров!

Новая модель во много раз более совершенна. Одно из важных отличий, которое сразу бросается в глаза, - это то, что GPT-4 научился распознавать изображения. Вот что он умеет делать:

описывать, что изображено на картинке,
объяснять визуальные шутки,
придумывать подписи к фотографиям,
предложить рецепт на основе блюда, изображенного на картинке,
понимать графики, диаграммы и рукописный текст.

Например, на основе нарисованного от руки шаблона GPT-4 может написать код для веб-страницы, которую вы хотите создать.

GPT-4 также лучше, чем его предшественник, справляется с обработкой текстовой информации: он запоминает большие объемы текста для лучшего понимания контекста и дает на 40% более точные ответы. GPT-4 может обработать за один запрос эквивалент 300 страниц текста (128 000 токенов), в то время как GPT-3.5 - только 14 страниц (16 000 токенов).

GPT-4 настолько умна, что успешно сдала экзамен на адвоката, попав в 10% лучших (GPT-3.5 в итоге отстала от проходивших тест людей примерно на 17%). Во многих тестах модель превосходит даже человека. В частности, в тестах по математике, физике и химии GPT-4 превзошла 88% тестируемых.

	GPT-3.5	GPT-4
Первоначальная дата релиза	15 марта 2022	14 марта 2023
Знания о событиях в мире	До сентября 2021	До апреля 2023
Параметры	175 миллиардов	100 триллионов
Ввод	Только текст	Текст и изображения
Контекстное окно	16 000 токенов*	128 000 токенов*
Фактические ответы	Периодические ошибки	На 40% точнее

*1000 токенов приблизительно равны 750 словам

GPT-4 превосходит GPT-3.5 в самых разных областях: от написания песен и сценариев до технического письма и языковых переводов.

Критика GPT-4

GPT-4 отнюдь не идеален. Нам кажется, что нейронные сети с каждым днем становятся только лучше, но исследование, проведенное в Стэнфорде в июне 2023 года, показало, что результаты GPT-4 ухудшились по сравнению с мартом.

Тестирование GPT-4 и GPT-3.5 в марте и июне 2023 года

Модель показала значительное снижение производительности при решении математических задач и генерации кода:

например, она с трудом определяла, является ли число 17077 простым,
и только в 10% случаев она смогла написать рабочий код в задачах, классифицированных LeetCode как легкие.

В то же время GPT-4 показал улучшения в визуальном мышлении и ответах на деликатные вопросы (когда ответ может причинить вред или нарушить закон).

Критики данного исследования указывали на возможные ошибки в методологии и отмечали, что полученную динамику следует рассматривать как изменение поведения, а не ухудшение.