Grok: Чатботът на Илон Мъск за „максимално търсене на истината“

Grok е чатбот с генеративна изкуствена интелигентност, разработен от xAI, изследователската компания, основана от Илон Мъск. Подобно на други популярни чатботове, Grok може да генерира текст или код, да анализира данни и да решава сложни проблеми. Това, което отличава Grok, обаче, е чувството му за хумор и нестандартното мислене. В тази статия ще разгледаме историята, възможностите и отличителните характеристики на чатбота.

Историята на Grok

Илон Мъск е съосновател на OpenAI (известна с ChatGPT) през 2015 г., но напуска компанията 3 години по-късно, защото „не е съгласен с някои от плановете на екипа на OpenAI“.

През април 2023 г. Илон Мъск заяви в интервю, че ChatGPT е прекалено политически коректен, докато той има намерение да създаде „изкуствен интелект, който търси максималната истина и се опитва да разбере същността на вселената“. Временното име на този проект беше TruthGPT (производно от английската дума „truth“ – истина).

Илон Мъск представя TruthGPT

В крайна сметка името беше променено на Grok, вдъхновено от научнофантастичния роман на Робърт А. Хайнлайн от 1961 г. „Чужденец в странна земя“, където терминът „grok“ означава да разбереш нещо дълбоко и интуитивно.

Първата версия на Grok беше пусната през ноември 2023 г.
През март 2024 г. тя беше обновена до Grok-1.5, с новаторски логически възможности и по-голям контекстен прозорец от 128 000 токена.
През декември 2024 г. беше пусната Grok-2. Този модел можеше да обработва както текст, така и изображения.

Накрая, през февруари 2025 г. беше пуснат Grok 3. Илон Мъск нарече този модел „страшно умен“.

Новата версия беше обучена на суперкомпютъра Colossus с 10 пъти по-голяма изчислителна мощност от предишните модели от последно поколение.

Производителност на Grok

Илон Мъск казва, че Grok 3 е най-умният ИИ на Земята. Наистина ли е толкова добър, колкото се рекламира? Да видим:

Grok 3 показва 20% по-висока точност в сравнение с предшественика си, проверена чрез стандартни за индустрията NLP и ИИ бенчмаркове.
25% по-висока скорост на обработка и 15% по-голяма точност при разбирането на естествен език и генерирането на отговори в сравнение с ChatGPT o1 pro и DeepSeek R1.
Впечатляващи резултати в бенчмаркове по математика, науки и кодиране.

Математика, науки, програмиране

Още бенчмаркове:

математика, природни науки, програмиране, мултимодално разбиране

Както можем да видим на снимките по-горе, Grok 3 е изключително добър в:

математика (AIME'25 и AIME'24)
естествени науки, като биология, физика и химия (GPQA)
кодиране (LCB)
мултимодално разбиране (MMMU)

Само бенчмаркът MMMU включва 11 500 въпроса, обхващащи различни дисциплини, включително изкуство и дизайн, бизнес, здраве и медицина, науки, хуманитарни и социални науки, технологии и инженерство.

Пример за MMMU

Ранната версия на Grok-3 (с кодово име „Chocolate“) заема първото място в LMSYS Arena (платформа, предназначена за оценяване и сравняване на различни големи езикови модели в конкурентна среда), което го прави първият ИИ модел, който надминава резултат от 1400 точки във всички категории.

Текущи модели на Grok

Grok 3 се предлага в различни форми и размери. Флагманският модел се нарича просто Grok 3. Той притежава задълбочени познания в областта на финансите, здравеопазването, правото и науката. Олекотеният модел се нарича Grok 3 mini. Той е бърз, интелигентен и идеален за логически задачи, които не изискват задълбочени познания в дадена област.

Съществуват и бързи варианти (grok-3-fast-beta и grok-3-mini-beta), които използват същия основен модел и осигуряват идентично качество на отговора, но се обслужват от по-бърза инфраструктура, което води до значително по-бързи времена за отговор.

Технически характеристики
Скорост на обработка	1,5 петафлопа
Параметри	2,7 трилиона
Токени за обучение	12,8 трилиона
Забавяне на отговора	67 милисекунди (средно)
Контекстно прозорец	131072 токена

Grok може да анализира изображения (описва картини, идентифицира обекти, чете текст):

Максимален размер на изображението: 10MiB
Максимален брой изображения: Без ограничение
Поддържани типове файлове с изображения: jpg, jpeg, png
Приема се всякакъв ред на въвеждане на изображения/текст

Освен това Grok може да генерира висококачествени изображения, използвайки своя авторегресивен модел за генериране на изображения с кодово име Aurora.

Този модел има вградена поддръжка за мултимодален вход, което му позволява да черпи вдъхновение от изображения, предоставени от потребители, или да ги редактира директно. Моля, имайте предвид, че Aurora е наличен на платформата X, но може да не е наличен на други платформи.

Моделите Grok на официалния API не са свързани с интернет, което означава, че те нямат информация за събитията в света след 17 ноември 2024 г.

Обучението на Grok

Разработката на Grok 3 беше ускорена от суперкомпютъра Colossus на xAI, който работи на 200 000 графични процесора Nvidia H100 и H200. Новият модел премина през 200 милиона часа обучение на графични процесори – 10 пъти повече от Grok-2. Благодарение на този огромен скок в изчислителната мощност, Grok 3 може да обработва огромни масиви от данни с безпрецедентна ефективност, като същевременно постига още по-голяма точност.

Разработчиците коригираха подхода към обучението, като включиха синтетични масиви от данни, механизми за самокоригиране и усилващо обучение, за да подобрят производителността на Grok 3:

Синтетични масиви от данни. Това са изкуствено генерирани данни, създадени да имитират реални данни, без да се използва чувствителна или поверителна информация. Те се използват за обучение на езикови модели чрез симулиране на различни сценарии, като се осигурява разнообразен и контролиран масив от данни, който повишава ефективността на обучението и отговаря на изискванията за поверителност на данните.
Механизми за самокоригиране. Grok-3 има вградена способност да проверява фактите и да усъвършенства отговорите си с течение на времето. Системата сравнява отговорите си с надеждни източници, открива грешките си и коригира подхода си за следващия път. Това непрекъснато самоусъвършенстване означава, че колкото повече го използвате, толкова по-малко грешки прави, като постепенно се доближава до човешката точност в отговорите си. Не е безупречен, но е проектиран да се учи от всяко взаимодействие.
Усилващо обучение. Вид машинно обучение, при което ИИ моделът се учи, получавайки награди или наказания за действията си, подобно на начина, по който хората придобиват умения чрез опит. Системата е обучена да максимизира положителните резултати чрез проби и грешки, подобрявайки способностите си за вземане на решения.

Тези техники помагат за намаляване на неправилните отговори, известни като халюцинации, чрез използване на множество стъпки за валидиране и се адаптират по-ефективно чрез непрекъснато самооценяване и учене.

За да направят отговорите на Grok по-естествени и уместни, разработчиците въведоха цикли на обратна връзка от хора (метод на обучение, при който хората оценяват точността, уместността и полезността на изкуствено генерираното съдържание) и контекстуално обучение (то учи бота да взема предвид предишни взаимодействия, намеренията на потребителя и околната информация, за да генерира по-точни и уместни отговори).

Уникални характеристики на Grok

Докато повечето ИИ модели се придържат към формален тон (и често звучат роботизирани), Grok 3 се отличава със смелия си и ироничен стил. Той не се страхува да използва хумор, сарказъм и неконвенционални изрази. Grok дава приоритет на фактическите, безпристрастни отговори, често оспорвайки популярните нарративи. Докато други невронни мрежи избягват да обсъждат сложни теми, Grok възприема различен подход. Той не се страхува да обсъжда философия, политика или етични дилеми. Grok може да вземе предвид различни гледни точки и дори да признае, когато не е сигурен – честност, която е рядкост сред чатботовете. Това прави Grok по-скоро събеседник, отколкото обикновена машина за отговори.

Grok 3 е полезен за фермери, бизнесмени, шофьори и създатели на съдържание.

Grok е създаден с мисията да предоставя максимално полезни и верни отговори. Ботът блести при обработката на сложни или отворени въпроси. Докато много чатботове се отличават с бързи факти или предварително зададени отговори, Grok е проектиран да се справя с нюансирани запитвания, особено в области като наука и критично мислене. Той може да разбие сложни теми – като квантовата механика или етични дилеми – на лесноразбираеми обяснения, без да ги опростява. Това го прави предпочитан избор за потребители, които искат повече от повърхностни отговори, независимо дали са студенти, изследователи или просто любознателни.

Освен това, потребителите отбелязват, че този бот цензурира отговорите си в много по-малка степен от ChatGPT или Claude. Въпреки това, Grok има протоколи за безопасност, за да предотврати вредни или незаконни инструкции, като например как да се направи бомба. Ако попитате, ботът ще отклони въпроса – може би като обясни науката за взривните вещества по общ, неинструктивен начин или като каже: „Да не взривяваме неща; какво ще кажете да проучим нещо по-малко... запалимо?“ Това балансира отвореността с отговорността, за разлика от някои чатботове, които могат да прекратят разговора напълно или да дадат прекалено неясни отговори.

Бъдещето на Grok

Илон Мъск спомена в пряко предаване, че Grok 3 скоро ще включва гласов режим, в който потребителите ще могат да разговарят с чатбота Grok чрез гласови команди и да получават гласови отговори, генерирани от изкуствен интелект. С въвеждането на гласовия режим в Grok 3, потребителите ще имат по-естествен и интерактивен начин да общуват с изкуствения интелект, като границите между комуникацията между човек и машина ще се размият.

Премиум функции като DeepSearch, Think mode и Big Brain mode ще станат достъпни за по-широка аудитория. DeepSearch е търсачката на Grok. Тя е проектирана да предоставя достъп до най-новите новини в реално време, да синтезира ключова информация, да разсъждава върху противоречиви факти и мнения и да извлича яснота от сложността. Think mode предоставя подход на верига от мисли към запитването на потребителя. Резултатът е подробно описание на разсъжденията на модела стъпка по стъпка. Той е подходящ за сложни въпроси, изискващи внимателна логика, като математически задачи, философски въпроси или технически обяснения. Big Brain mode е по-разширен, творчески или изчислително интензивен режим, който използва по-широк контекст, усъвършенствано разпознаване на модели или по-голяма база от знания. Той е идеален за справяне с многостранни или отворени въпроси, генериране на иновативни идеи или свързване на точки в различни области. Този режим може да симулира по-високо ниво на абстракция или интуиция.

Що се отнася до хардуера, суперкомпютърът Colossus на xAI е най-голямата и най-мощна система за обучение на изкуствен интелект в света. Построен само за 122 дни – по-бързо, отколкото някой е предвиждал – той първоначално работеше на 100 000 графични процесора Nvidia H100.

Време за изграждане – 122 дни

За впечатляващите 92 дни xAI удвои капацитета си до 200 000 графични процесора, като интегрира новите и по-мощни чипове Blackwell H200 на Nvidia. Това огромно увеличение на мощността е само началото. xAI планира да разшири Colossus до 1 милион чипа, проправяйки пътя за бъдещи модели Grok, които ще бъдат още по-мощни и революционни. Бъдещите версии на Grok може да са способни да обработват видео, аудио и потоци от данни в реално време.

С развитието си тези технологии имат потенциал да трансформират индустрии, да подобрят обучението и да разширят колективното ни знание по начини, които едва сега започваме да разбираме. Пътят на Grok от текстови чатбот до мултимодална, взаимодействаща в реално време единица е доказателство за бързото темпо на иновациите в областта на изкуствения интелект и обещава вълнуващи времена за потребителите, разработчиците и технологичната общност като цяло.

Grok 4 се очаква да бъде пуснат в края на 2025 г.