Grok: чат-бот Илона Маска, «стремящийся к максимальной правде»

Grok — это генеративный чат-бот с искусственным интеллектом, разработанный xAI, исследовательской компанией, основанной Илоном Маском. Как и другие популярные чат-боты, Grok может генерировать текст или код, анализировать данные и решать сложные проблемы. Однако Grok отличается своим чувством юмора и нестандартным мышлением. В этой статье мы рассмотрим историю чат-бота, его возможности и отличительные особенности.

История Grok

Илон Маск был соучредителем OpenAI (известной благодаря ChatGPT) в 2015 году, но покинул компанию три года спустя, потому что «не согласен с некоторыми планами команды OpenAI».

В апреле 2023 года Илон Маск сказал в интервью, что ChatGPT слишком политкорректен, в то время как он намеревался создать «максимально ищущий истину ИИ, который пытается понять природу вселенной». Временное название этого проекта было TruthGPT (от английского слова «truth» — «истина»).

Илон Маск представляет TruthGPT

В конце концов, они изменили название на Grok, которое было вдохновлено научно-фантастическим романом Роберта А. Хайнлайна «Чужой в чужой стране» 1961 года, где термин «grok» означает глубокое и интуитивное понимание чего-либо.

Первая версия Grok была выпущена в ноябре 2023 года.
В марте 2024 года она была обновлена до Grok-1.5, получив передовые логические возможности и более широкое контекстное окно на 128 000 токенов.
В декабре 2024 года был выпущен Grok-2. Эта модель могла обрабатывать как текст, так и изображения.
Наконец, в феврале 2025 года был выпущен Grok 3. Илон Маск назвал эту модель «пугающе умной».

Эта новая версия была обучена на суперкомпьютере Colossus, обладающем вычислительной мощностью в 10 раз превышающей мощность предыдущих передовых моделей.

Производительность Grok

Илон Маск утверждает, что Grok 3 — самый умный ИИ на Земле. Действительно ли он так хорош, как рекламируется? Давайте посмотрим:

Grok 3 демонстрирует на 20 % более высокую точность по сравнению со своим предшественником, что подтверждено стандартными тестами NLP и ИИ.
На 25 % более высокая скорость обработки и на 15 % более высокая точность понимания естественного языка и генерации ответов по сравнению с ChatGPT o1 pro и DeepSeek R1.
Впечатляющие результаты в тестах по математике, естественным наукам и программированию.

Математика, естественные науки, программирование

Еще несколько тестов:

Как видно на картинках выше, Grok 3 отлично справляется с задачами в:

математике (AIME'25 и AIME'24)
естественных науках, таких как биология, физика и химия (GPQA)
программировании (LCB)
мультимодальном понимании (MMMU)

Один только тест MMMU включает 11 500 вопросов, охватывающих различные дисциплины, в том числе искусство и дизайн, бизнес, здравоохранение и медицину, естественные науки, гуманитарные и социальные науки, а также технологии и инженерию.

Пример MMMU

Ранняя версия Grok-3 (кодовое название «Chocolate») заняла первое место в LMSYS Arena (платформа, предназначенная для оценки и сравнения различных крупных языковых моделей в конкурентной среде), став первой моделью искусственного интеллекта, превысившей оценку 1400 во всех категориях.

Текущие модели Grok

Grok 3 доступен в различных формах и размерах. Флагманская модель называется просто Grok 3. Она обладает глубокими знаниями в области финансов, здравоохранения, права и науки. Легкая модель называется Grok 3 mini. Она быстрая, умная и отлично подходит для логических задач, не требующих глубоких знаний в конкретной области.

Кроме того, существуют быстрые варианты (grok-3-fast-beta и grok-3-mini-beta), которые используют ту же самую базовую модель и обеспечивают одинаковое качество ответов, но работают на более быстрой инфраструктуре, что значительно сокращает время отклика.

Технические характеристики
Скорость обработки	1,5 петафлопс
Параметры	2,7 триллиона
Токены для обучения	12,8 триллиона
Задержка ответа	67 миллисекунд (в среднем)
Контекстное окно	131072 токена

Grok может анализировать изображения (описывать картинки, идентифицировать объекты, читать текст):

Максимальный размер изображения: 10 МБ
Максимальное количество изображений: без ограничений
Поддерживаемые типы файлов изображений: jpg, jpeg, png
Принимается любой порядок ввода изображений/текста

Кроме того, Grok способен генерировать высококачественные изображения с помощью своей авторегрессионной модели генерации изображений под кодовым названием Aurora. Эта модель имеет встроенную поддержку мультимодального ввода, что позволяет ей черпать вдохновение из предоставленных пользователем изображений или напрямую редактировать их. Обратите внимание, что Aurora доступна на платформе X, но может быть недоступна на других платформах.

Модели Grok в официальном API не подключены к Интернету, что означает, что они не имеют представления о событиях в мире после 17 ноября 2024 года.

Обучение Grok

Разработка Grok 3 была ускорена благодаря суперкомпьютеру Colossus от xAI, который работает на 200 000 графических процессорах Nvidia H100 и H200. Новая модель прошла 200 миллионов часов обучения на графических процессорах — в 10 раз больше, чем Grok-2. Благодаря этому огромному скачку вычислительной мощности Grok 3 может обрабатывать огромные наборы данных с беспрецедентной эффективностью, достигая при этом еще большей точности.

Разработчики скорректировали подход к обучению, включив синтетические наборы данных, механизмы самокоррекции и обучение с подкреплением, чтобы повысить производительность Grok 3:

Синтетические наборы данных. Это искусственно сгенерированные данные, созданные для имитации реальных данных без использования конфиденциальной или проприетарной информации. Они используются для обучения языковых моделей путем моделирования различных сценариев, обеспечивая разнообразный и контролируемый набор данных, который повышает эффективность обучения и решает проблемы конфиденциальности данных.
Механизмы самокоррекции. Grok-3 имеет встроенную возможность проверять факты и со временем уточнять свои ответы. Система сравнивает свои ответы с надежными источниками, выявляет ошибки и корректирует свой подход на следующий раз. Это постоянное самосовершенствование означает, что чем больше вы используете систему, тем меньше ошибок она делает, постепенно приближаясь к человеческой точности в своих ответах. Система не идеальна, но она разработана так, чтобы учиться на каждом взаимодействии.
Обучение с подкреплением. Тип машинного обучения, при котором модель ИИ учится, получая вознаграждения или наказания за свои действия, подобно тому, как люди приобретают навыки через опыт. Система обучена максимально увеличивать количество положительных результатов путем проб и ошибок, улучшая свои способности принимать решения.

Эти методы помогают уменьшить количество неверных ответов, известных как «галлюцинации», за счет использования нескольких этапов проверки, а также более эффективно адаптироваться за счет постоянной самооценки и обучения.

Чтобы сделать ответы Grok более естественными и релевантными, разработчики внедрили циклы обратной связи с людьми (метод обучения, при котором люди оценивают точность, релевантность и полезность искусственно сгенерированного контента) и контекстное обучение (оно учит бота учитывать предыдущие взаимодействия, намерения пользователя и окружающую информацию для генерации более точных и релевантных ответов).

Уникальные черты Grok

В то время как большинство моделей ИИ придерживаются формального тона (и часто кажутся роботизированными), Grok 3 выделяется своим смелым и ироничным стилем. Он не боится использовать юмор, сарказм и нестандартные формулировки. Grok уделяет приоритетное внимание фактическим, непредвзятым ответам, часто бросая вызов популярным нарративам. В то время как другие нейронные сети избегают обсуждения сложных тем, Grok использует другой подход. Он не боится обсуждать философию, политику или этические дилеммы. Grok может учитывать несколько точек зрения и даже признавать, когда он не уверен — честность, которая редко встречается среди чат-ботов. Благодаря этому Grok воспринимается скорее как собеседник, а не как обычный автомат для ответов.

Grok 3 полезен фермерам, бизнесменам, водителям и создателям контента

Grok создан с целью предоставлять максимально полезные и правдивые ответы. Бот отлично справляется со сложными или открытыми вопросами. В то время как многие чат-боты преуспевают в предоставлении быстрых фактов или заготовленных ответов, Grok разработан для обработки сложных запросов, особенно в таких областях, как наука и критическое мышление. Он может разбить сложные темы, такие как квантовая механика или этические дилеммы, на понятные объяснения, не упрощая их. Это делает его незаменимым помощником для пользователей, которые хотят получить больше, чем поверхностные ответы, будь то студенты, исследователи или просто любознательные люди.

Кроме того, пользователи отмечают, что этот бот гораздо реже цензурирует свои ответы, чем ChatGPT или Claude. Однако Grok имеет протоколы безопасности, предотвращающие вредные или незаконные инструкции, такие как изготовление бомбы. Если вы спросите об этом, бот отклонит вопрос, возможно, объяснив науку взрывчатых веществ в общем, неинструктивном ключе или сказав: «Давайте не будем взрывать вещи; давайте исследуем что-нибудь менее... воспламеняющееся?» Это уравновешивает открытость и ответственность, в отличие от некоторых чат-ботов, которые могут полностью прекратить разговор или дать слишком расплывчатые ответы.

Будущее Grok

Илон Маск упомянул в прямом эфире, что Grok 3 скоро будет включать голосовой режим, в котором пользователи смогут общаться с чат-ботом Grok с помощью голосовых команд и получать ответы, сгенерированные ИИ. С введением голосового режима в Grok 3 пользователи смогут общаться с ИИ более естественным и интерактивным способом, стирая границы между человеческим и машинным общением.

Премиум-функции, такие как DeepSearch, Think mode и Big Brain mode, станут доступны более широкой аудитории. DeepSearch — это поисковая система Grok. Она предназначена для доступа к последним новостям в режиме реального времени, синтеза ключевой информации, анализа противоречивых фактов и мнений, а также выделения ясных моментов из сложных ситуаций. Think mode предоставляет цепочку мыслей в ответ на запрос пользователя. Результатом является пошаговое описание рассуждений модели. Он подходит для сложных вопросов, требующих тщательной логики, таких как математические задачи, философские вопросы или технические объяснения. Режим Big Brain — это более обширный, творческий или вычислительно интенсивный режим, который использует более широкий контекст, расширенное распознавание образов или более обширную базу знаний. Он идеально подходит для решения многогранных или открытых вопросов, генерации инновационных идей или соединения точек между различными областями. Этот режим может имитировать более высокий уровень абстракции или интуиции.

Что касается аппаратного обеспечения, суперкомпьютер Colossus от xAI является крупнейшей и самой мощной в мире системой обучения ИИ. Построенный всего за 122 дня — быстрее, чем кто-либо мог предсказать — он изначально работал на 100 000 графических процессорах Nvidia H100.

Срок строительства – 122 дня

За впечатляющие 92 дня xAI удвоила свою мощность до 200 000 графических процессоров, интегрировав новые и более мощные чипы Blackwell H200 от Nvidia. Этот огромный прирост мощности — только начало. xAI планирует масштабировать Colossus до 1 миллиона чипов, проложив путь для будущих моделей Grok, которые будут еще более мощными и революционными. Будущие версии Grok могут быть способны обрабатывать видео, аудио и потоки данных в реальном времени.

По мере развития эти технологии могут преобразовать отрасли, улучшить обучение и расширить наши коллективные знания способами, которые мы только начинаем понимать. Путь Grok от текстового чат-бота до мультимодального объекта, взаимодействующего в реальном времени, свидетельствует о быстром темпе инноваций в области ИИ и обещает захватывающие времена для пользователей, разработчиков и всего технологического сообщества.

Выпуск Grok 4 ожидается к концу 2025 года.