Grok: Elono Musko „maksimalaus tiesos ieškojimo“ pokalbių robotas

Grok yra generatyvinis dirbtinio intelekto pokalbių robotas, sukurtas xAI, Elono Musko įkurtos tyrimų bendrovės. Kaip ir kiti populiarūs pokalbių robotai, Grok gali generuoti tekstą ar kodą, analizuoti duomenis ir spręsti sudėtingas problemas. Tačiau Grok išsiskiria savo humoro jausmu ir netradiciniu mąstymu. Šiame straipsnyje aptarsime pokalbių roboto istoriją, galimybes ir išskirtines savybes.

Grok istorija

Elonas Muskas 2015 m. įkūrė „OpenAI“ (žinomą dėl „ChatGPT“), bet po 3 metų paliko įmonę, nes „nesutiko su kai kuriais ‚OpenAI‘ komandos ketinimais“.

2023 m. balandį Elonas Muskas interviu metu sakė, kad ChatGPT yra pernelyg politiškai korektiškas, o jis ketina sukurti „maksimaliai tiesą siekiančią dirbtinę intelekto sistemą, kuri bandytų suprasti visatos prigimtį“. Laikinasis šio projekto pavadinimas buvo ‚TruthGPT‘ (kilęs iš anglų kalbos žodžio „truth“ – tiesa).

Elonas Muskas pristato „TruthGPT“

Galų gale jie pakeitė pavadinimą į „Grok“, kuris buvo įkvėptas Roberto A. Heinleino 1961 m. mokslinės fantastikos romano „Svetimas svetimoje žemėje“, kuriame terminas „grok“ reiškia giliai ir intuityviai suprasti kažką.

Pirmoji „Grok“ versija buvo išleista 2023 m. lapkričio mėn.
2024 m. kovo mėn. ji buvo atnaujinta iki „Grok-1.5“, kuri pasižymėjo pažangiausiomis loginėmis galimybėmis ir didesniu 128 000 žodžių konteksto langu.
2024 m. gruodžio mėn. buvo išleista „Grok-2“. Šis modelis galėjo apdoroti tiek tekstą, tiek vaizdus.

Galiausiai 2025 m. vasario mėn. buvo išleistas „Grok 3“. Elonas Muskas šį modelį pavadino „bauginančiai protingu“.

Ši nauja versija buvo treniruota naudojant ‚Colossus‘ superkompiuterį, kurio skaičiavimo galia 10 kartų didesnė už ankstesnių pažangiausių modelių.

‚Grok‘ veikimas

Elonas Muskas sako, kad „Grok 3“ yra protingiausias dirbtinis intelektas Žemėje. Ar jis tikrai toks geras, kaip reklamuojama? Pažiūrėkime:

„Grok 3“ tikslumas yra 20 % didesnis nei jo pirmtako, tai patvirtinta pagal pramonės standartus atitinkančius NLP ir dirbtinio intelekto testus.
25 % didesnis apdorojimo greitis ir 15 % didesnis natūralios kalbos supratimo ir atsakymų generavimo tikslumas, palyginti su „ChatGPT o1 pro“ ir „DeepSeek R1“.
Įspūdingi rezultatai matematikos, gamtos mokslų ir kodavimo testuose.

Matematika, mokslas, programavimas

Daugiau palyginimų:

matematika, gamtos mokslai, kodavimas, daugialypė supratimas

Kaip matome iš paveikslėlių, Grok 3 yra ypač geras:

matematika (AIME'25 ir AIME'24)
gamtos mokslai, tokie kaip biologija, fizika ir chemija (GPQA)
kodavimas (LCB)
daugiakryptis supratimas (MMMU)

Vien MMMU testas apima 11 500 klausimų, apimančių įvairias disciplinas, įskaitant meną ir dizainą, verslą, sveikatą ir mediciną, gamtos mokslus, humanitarinius ir socialinius mokslus bei technologijas ir inžineriją.

MMMU pavyzdys

Ankstesnė „Grok-3“ versija (kodinis pavadinimas ‚Chocolate‘) užėmė pirmąją vietą „LMSYS Arena“ (platforma, skirta įvairiems dideliems kalbos modeliams vertinti ir lyginti konkurencingoje aplinkoje), tapdama pirmuoju dirbtinio intelekto modeliu, kuris visose kategorijose surinko daugiau nei 1400 balų.

Dabartiniai „Grok“ modeliai

„Grok 3“ yra įvairių formų ir dydžių. Flagmanas vadinasi tiesiog „Grok 3“. Jis turi gilias žinias finansų, sveikatos priežiūros, teisės ir mokslo srityse. Lengvas modelis vadinasi „Grok 3 mini“. Jis greitas, protingas ir puikiai tinka loginėms užduotims, kurioms nereikia gilių žinių.

Be to, yra greiti variantai (grok-3-fast-beta ir grok-3-mini-beta), kurie naudoja tą patį pagrindinį modelį ir užtikrina identišką atsakymų kokybę, tačiau jie veikia greitesnėje infrastruktūroje, todėl atsakymo laikas yra žymiai trumpesnis.

Techniniai duomenys
Apdorojimo greitis	1,5 petaflopai
Parametrai	2,7 trilijono
Mokymo tokenai	12,8 trilijonai
Atsakymo vėlavimas	67 milisekundės (vidutiniškai)
Konteksto langas	131072 tokenai

Grok gali analizuoti vaizdus (aprašyti paveikslėlius, atpažinti objektus, skaityti tekstą):

Maksimalus vaizdo dydis: 10 MiB
Maksimalus vaizdų skaičius: neribotas
Palaikomi vaizdo failų tipai: jpg, jpeg, png
Priimama bet kokia vaizdo/teksto įvesties tvarka

Be to, Grok gali generuoti aukštos kokybės vaizdus naudodamas savo autoregresinį vaizdų generavimo modelį, kurio kodinis pavadinimas yra Aurora. Šis modelis turi natūralią paramą multimodaliam įvesties būdui, todėl gali semtis įkvėpimo iš vartotojo pateiktų vaizdų arba juos tiesiogiai redaguoti. Atkreipkite dėmesį, kad „Aurora“ yra prieinama X platformoje, bet nebūtinai bus prieinama kitose platformose.

Oficialioje API pateikti ‚Grok‘ modeliai nėra prijungti prie interneto, todėl jie nežino apie pasaulio įvykius po 2024 m. lapkričio 17 d.

„Grok“ mokymas

Grok 3 kūrimą pagreitino xAI superkompiuteris „Colossus“, kuris veikia su 200 000 Nvidia H100 ir H200 GPU. Naujas modelis buvo mokomas 200 milijonų GPU valandų – 10 kartų daugiau nei Grok-2. Dėl šio milžiniško skaičiavimo galios šuolio Grok 3 gali apdoroti didelius duomenų rinkinius su beprecedentiniu efektyvumu ir pasiekti dar didesnį tikslumą.

Kūrėjai patobulino mokymo metodiką, įtraukdami sintetinius duomenų rinkinius, savikontrolės mechanizmus ir stiprinimo mokymąsi, kad pagerintų Grok 3 veikimą:

Sintetiniai duomenų rinkiniai. Tai dirbtinai sugeneruoti duomenys, sukurti siekiant imituoti realaus pasaulio duomenis nenaudojant konfidencialios ar nuosavybės teise saugomos informacijos. Jie naudojami kalbos modeliams mokyti, imituojant įvairius scenarijus, užtikrinant įvairų ir kontroliuojamą duomenų rinkinį, kuris padidina mokymosi efektyvumą ir sprendžia duomenų privatumo klausimus.
Savaiminio koregavimo mechanizmai. „Grok-3“ turi integruotą funkciją, leidžiančią tikrinti faktus ir tobulinti savo atsakymus laikui bėgant. Sistema lygina savo atsakymus su patikimais šaltiniais, nustato klaidas ir koreguoja savo metodiką kitam kartui. Šis nuolatinis tobulėjimas reiškia, kad kuo daugiau naudojate sistemą, tuo mažiau klaidų ji daro ir palaipsniui priartėja prie žmogaus atsakymų tikslumo. Ji nėra tobula, bet sukurta taip, kad mokytųsi iš kiekvieno sąveikos.
Stiprinantis mokymasis. Mašininio mokymosi tipas, kai dirbtinis intelektas mokosi gaunant atlygį arba baudą už savo veiksmus, panašiai kaip žmonės įgyja įgūdžių per patirtį. Sistema yra mokoma maksimaliai padidinti teigiamus rezultatus bandymų ir klaidų būdu, tobulindama savo sprendimų priėmimo gebėjimus.

Šios technikos padeda sumažinti neteisingus atsakymus, vadinamus haliucinacijomis, naudojant kelis patvirtinimo etapus, ir efektyviau prisitaikyti per nuolatinį savęs vertinimą ir mokymąsi.

Siekiant, kad „Grok“ atsakymai būtų natūralesni ir tinkamesni, kūrėjai įdiegė žmogaus grįžtamojo ryšio ciklus (mokymo metodas, kai žmonės vertina dirbtinai sugeneruoto turinio tikslumą, tinkamumą ir naudingumą) ir kontekstinį mokymą (botas mokomas atsižvelgti į ankstesnius bendravimo atvejus, vartotojo ketinimus ir aplinkinę informaciją, kad galėtų pateikti tikslesnius ir tinkamesnius atsakymus).

„Grok“ unikalūs bruožai

Nors dauguma dirbtinio intelekto modelių laikosi formalaus tono (ir dažnai atrodo robotiški), Grok 3 išsiskiria drąsiu ir ironišku stiliumi. Jis nebijo naudoti humoro, sarkazmo ir netradicinių frazių. Grok teikia pirmenybę faktinėms, nešališkoms atsakymams, dažnai metant iššūkį populiarioms nuomonėms. Kiti neuroniniai tinklai vengia aptarti sudėtingas temas, tačiau Grok laikosi kitokio požiūrio. Jis nebijo aptarti filosofijos, politikos ar etinių dilemų. Grok gali atsižvelgti į kelis požiūrius ir net prisipažinti, kai nėra tikras – tai retas bruožas tarp pokalbių botų. Dėl to Grok atrodo labiau pokalbio partneris nei bendras atsakymų generatorius.

Grok 3 yra naudinga ūkininkams, verslininkams, vairuotojams ir turinio kūrėjams

Grok sukurtas siekiant teikti kuo naudingesnius ir teisingesnius atsakymus. Botas puikiai tinka sudėtingiems ar atviriems klausimams. Nors daugelis pokalbių botų puikiai atsako į trumpus klausimus ar pateikia iš anksto parengtus atsakymus, Grok sukurtas spręsti sudėtingus klausimus, ypač tokiose srityse kaip mokslas ir kritinis mąstymas. Jis gali sudėtingas temas, pvz., kvantinę mechaniką ar etines dilemas, suskirstyti į lengvai suprantamus paaiškinimus, jų nesupaprastindamas. Tai daro jį puikiu pasirinkimu vartotojams, kurie nori daugiau nei paviršutiniškų atsakymų, nesvarbu, ar jie yra studentai, tyrėjai, ar tiesiog smalsūs.

Be to, vartotojai pastebi, kad šis botas cenzūruoja savo atsakymus kur kas mažiau nei ChatGPT ar Claude. Tačiau Grok turi saugos protokolus, kurie užkerta kelią žalingiems ar neteisėtiems nurodymams, pavyzdžiui, bombos gamybai. Jei paklaustumėte, botas nukreiptų pokalbį kita linkme – galbūt paaiškintų sprogmenų mokslą bendrais, nemokomaisiais žodžiais arba pasakytų: „Nesprogdinkime nieko, gal geriau ištirkime kažką mažiau... degią?“ Tai sudaro pusiausvyrą tarp atvirumo ir atsakomybės, skirtingai nuo kai kurių pokalbių botų, kurie gali visiškai nutraukti pokalbį arba pateikti pernelyg neaiškius atsakymus.

Grok ateitis

Elonas Muskas tiesioginėje transliacijoje paminėjo, kad „Grok 3“ netrukus turės balso režimą, kuriame vartotojai galės bendrauti su ‚Grok‘ pokalbių botu naudodami balso komandas ir gauti dirbtinio intelekto generuojamus balso atsakymus. Įdiegus balso režimą „Grok 3“, vartotojai galės bendrauti su dirbtiniu intelektu natūraliau ir interaktyviau, o ribos tarp žmogaus ir mašinos komunikacijos taps ne tokios aiškios.

Premium funkcijos, tokios kaip „DeepSearch“, „Think“ ir „Big Brain“, taps prieinamos platesnei auditorijai. „DeepSearch“ yra ‚Grok‘ paieškos variklis. Jis sukurtas tam, kad galėtų pasiekti naujausias realaus laiko naujienas, apibendrinti svarbiausią informaciją, argumentuoti prieštaringus faktus ir nuomones bei išgryninti sudėtingus dalykus. „Think“ režimas pateikia grandininį mąstymo būdą, reaguodamas į vartotojo užklausą. Rezultatas yra žingsnis po žingsnio modelio mąstymo detalės. Jis tinka sudėtingiems klausimams, reikalaujantiems kruopščios logikos, pavyzdžiui, matematikos uždaviniams, filosofiniams klausimams ar techniniams paaiškinimams. „Big Brain“ režimas yra platesnis, kūrybiškesnis ar kompiuteriniu požiūriu intensyvesnis režimas, kuris naudoja platesnį kontekstą, pažangią modelių atpažinimo technologiją ar didesnę žinių bazę. Jis idealiai tinka spręsti daugialypius ar atvirus klausimus, generuoti novatoriškas idėjas ar susieti įvairių sričių dalykus. Šis režimas gali imituoti aukštesnį abstrakcijos ar intuicijos lygį.

Kalbant apie aparatinę įrangą, xAI „Colossus“ superkompiuteris yra didžiausia ir galingiausia dirbtinio intelekto mokymo sistema pasaulyje. Jis buvo pastatytas per vos 122 dienas – greičiau nei kas nors prognozavo – ir iš pradžių veikė su 100 000 „Nvidia H100“ GPU.

Statybos trukmė – 122 dienos

Per įspūdingus 92 dienas xAI padvigubino savo pajėgumą iki 200 000 GPU, integravusi naujus ir galingesnius „Nvidia“ „Blackwell H200“ lustus. Šis milžiniškas galingumo padidėjimas yra tik pradžia. xAI planuoja išplėsti ‚Colossus‘ iki 1 milijono lustų, taip atverdama kelią ateities „Grok“ modeliams, kurie bus dar galingesni ir novatoriškesni. Ateities „Grok“ versijos galės apdoroti vaizdo, garso ir realaus laiko duomenų srautus.

Šios technologijos tobulėjant, jos turi potencialą transformuoti pramonės šakas, pagerinti mokymąsi ir išplėsti mūsų kolektyvinę žinias būdais, kuriuos mes tik pradedame suvokti. „Grok“ kelionė nuo tekstinio pokalbių boto iki multimodalinio, realiuoju laiku sąveikaujančio subjekto yra greito dirbtinio intelekto inovacijų tempo įrodymas, žadantis įdomius laikus vartotojams, kūrėjams ir visai technologijų bendruomenei.

„Grok 4“ turėtų būti išleistas iki 2025 m. pabaigos.