Grok: el chatbot de "recerca màxima de la veritat" d'Elon Musk

Grok és un chatbot d'intel·ligència artificial generativa desenvolupat per xAI, l'empresa d'investigació fundada per Elon Musk. Com altres chatbots populars, Grok pot generar text o codi, analitzar dades i resoldre problemes complexos. Tanmateix, el que diferencia Grok és el seu sentit de l'humor i el seu pensament innovador. En aquest article, explorarem la història, les capacitats i les característiques més destacades del chatbot.

La història de Grok

Elon Musk va cofundar OpenAI (coneguda per ChatGPT) el 2015, però va deixar l'empresa 3 anys després perquè "no estava d'acord amb algunes de les coses que l'equip d'OpenAI volia fer".

L'abril de 2023, Elon Musk va dir en una entrevista que ChatGPT era massa políticament correcte, mentre que pretenia crear "una IA que busqués la veritat al màxim i que intenti entendre la naturalesa de l'univers". El nom provisional d'aquest projecte era TruthGPT (derivat de la paraula anglesa 'truth').

Elon Musk presenta TruthGPT

Finalment van canviar el nom a Grok, inspirat en la novel·la de ciència-ficció "Stranger in a Strange Land" de Robert A. Heinlein de 1961, on el terme "grok" significa entendre alguna cosa de manera profunda i intuïtiva.

La primera versió de Grok es va publicar el novembre de 2023.
El març de 2024, es va actualitzar a Grok-1.5, amb capacitats lògiques de frontera i una finestra de context més gran de 128.000 tokens.
El desembre de 2024, es va publicar Grok-2. Aquest model podia processar tant text com imatges.
Finalment, Grok 3 es va publicar el febrer de 2025. Elon Musk va qualificar aquest model d'"espantós i intel·ligent".

Aquesta nova versió es va entrenar al superordinador Colossus amb 10 vegades la potència computacional dels models d'última generació anteriors.

L'actuació de Grok

Elon Musk diu que Grok 3 és la IA més intel·ligent del món. És realment tan bona com s'anuncia? Vegem-ho:

Grok 3 mostra una precisió un 20% més alta en comparació amb el seu predecessor, verificada mitjançant proves de referència de PNL i IA estàndard de la indústria.
Velocitat de processament un 25% més ràpida i un 15% més gran de precisió en la comprensió del llenguatge natural i la generació de respostes en comparació amb ChatGPT o1 pro i DeepSeek R1.
Resultats impressionants en proves de referència de matemàtiques, ciències i codificació.

Matemàtiques, ciències, codificació

Més punts de referència:

matemàtiques, ciències naturals, codificació, comprensió multimodal

Com podem veure a les imatges de dalt, Grok 3 és extremadament bo en:

matemàtiques (AIME’25 i AIME’24)
ciències naturals, com ara biologia, física i química (GPQA)
codificació (LCB)
comprensió multimodal (MMMU)

Només el punt de referència MMMU inclou 11.500 preguntes que cobreixen matèries de diverses disciplines, com ara art i disseny, negocis, salut i medicina, ciència, humanitats i ciències socials, i tecnologia i enginyeria.

Exemple MMMU

La versió inicial de Grok-3 (amb el nom en clau "Chocolate") va aconseguir la posició número 1 a LMSYS Arena (una plataforma dissenyada per avaluar i comparar diferents models de llenguatges grans en un entorn competitiu), convertint-se en el primer model d'IA a superar una puntuació de 1400 en totes les categories.

Taula de classificació de l'arena de chatbots

Els models actuals de Grok

Grok 3 ve en diferents formes i mides. El model estrella s'anomena simplement Grok 3. Posseeix un profund coneixement del domini en finances, assistència sanitària, dret i ciència. Un model lleuger s'anomena Grok 3 mini. És ràpid, intel·ligent i ideal per a tasques basades en la lògica que no requereixen un coneixement profund del domini.

A més, hi ha variants ràpides (grok-3-fast-beta i grok-3-mini-beta) que utilitzen exactament el mateix model subjacent i ofereixen una qualitat de resposta idèntica, però es serveixen en una infraestructura més ràpida, la qual cosa resulta en temps de resposta significativament més ràpids.

Especificacions tècniques
Velocitat de processament	1,5 petaflops
Paràmetres	2,7 bilions
Tokens d'entrenament	12,8 bilions
Latència de resposta	67 mil·lisegons (de mitjana)
Finestra contextual	131072 tokens

Grok pot analitzar imatges (descriure imatges, identificar objectes, llegir text):

Mida màxima de la imatge: 10 MiB
Nombre màxim d'imatges: Sense límit
Tipus de fitxers d'imatge compatibles: jpg, jpeg, png
S'accepta qualsevol ordre d'entrada d'imatge/text

A més, Grok és capaç de generar imatges d'alta qualitat utilitzant el seu model de generació d'imatges autoregressiu, amb nom en clau Aurora. Aquest model té suport natiu per a l'entrada multimodal, cosa que li permet inspirar-se o editar directament imatges proporcionades per l'usuari. Tingueu en compte que Aurora està disponible a la plataforma X, però potser no necessàriament estigui disponible en altres plataformes.

Els models de Grok a l'API oficial no estan connectats a Internet, és a dir, no tenen coneixement dels esdeveniments mundials posteriors al 17 de novembre de 2024.

L'entrenament de Grok

El desenvolupament de Grok 3 va ser impulsat pel superordinador Colossus de xAI, que funciona amb 200.000 GPU Nvidia H100 i H200. El nou model va rebre 200 milions d'hores de GPU d'entrenament, 10 vegades més que Grok-2. Gràcies a aquest salt massiu en la potència computacional, Grok-3 pot processar grans conjunts de dades amb una eficiència sense precedents, alhora que aconseguia una precisió encara més gran.

Els desenvolupadors van ajustar l'enfocament d'entrenament incorporant conjunts de dades sintètics, mecanismes d'autocorrecció i aprenentatge per reforç per millorar el rendiment de Grok 3:

Conjunts de dades sintètics. Es tracta de dades generades artificialment creades per imitar dades del món real sense utilitzar informació sensible o pròpia. S'utilitzen per entrenar models de llenguatge simulant diversos escenaris, garantint un conjunt de dades divers i controlat que augmenta l'eficiència de l'aprenentatge i aborda les preocupacions sobre la privadesa de les dades.
Mecanismes d'autocorrecció. Grok-3 té una capacitat integrada per comprovar els fets i refinar les seves pròpies respostes al llarg del temps. El sistema compara les seves respostes amb fonts fiables, detecta on ha fallat i ajusta el seu enfocament per a la propera vegada. Aquesta autosuperació contínua significa que com més l'utilitzeu, menys errors cometrà, acostant-se gradualment a la precisió humana en les seves respostes. No és impecable, però està dissenyat per aprendre de cada interacció.
Aprenentatge per reforç. Un tipus d'aprenentatge automàtic on un model d'IA aprèn rebent recompenses o penalitzacions per les seves accions, de manera molt semblant a com els humans adquireixen habilitats a través de l'experiència. El sistema està entrenat per maximitzar els resultats positius mitjançant la prova i l'error, millorant les seves capacitats de presa de decisions.

Aquestes tècniques ajuden a reduir les respostes incorrectes, conegudes com a al·lucinacions, mitjançant l'ús de múltiples passos de validació, i s'adapten de manera més eficaç mitjançant l'autoavaluació i l'aprenentatge continus.

Per tal de fer que les respostes de Grok siguin més naturals i rellevants, els desenvolupadors van introduir bucles de retroalimentació humana (un mètode d'entrenament on els humans avaluen la precisió, la rellevància i la utilitat del contingut generat artificialment) i entrenament contextual (ensenya al bot a tenir en compte les interaccions anteriors, la intenció de l'usuari i la informació circumdant per generar respostes més precises i rellevants).

Trets únics de Grok

Mentre que la majoria de models d'IA s'adhereixen a un to formal (i sovint semblen robòtics), Grok 3 destaca pel seu estil atrevit i irònic. No té por d'utilitzar l'humor, el sarcasme i la fraseologia poc convencional. Grok prioritza respostes factuals i imparcials, sovint desafiant les narratives populars. Mentre que altres xarxes neuronals eviten discutir temes complexos, Grok adopta un enfocament diferent. No té por de discutir filosofia, política o dilemes ètics. Grok pot considerar múltiples punts de vista i fins i tot admetre quan no està segur, una honestedat que és rara entre els chatbots. Això fa que Grok sembli un company de conversa en lloc d'un contestador automàtic genèric.

Grok 3 és útil per a agricultors, empresaris, conductors i creadors de contingut

Grok està creat amb la missió de proporcionar respostes el més útils i veraces possible. El bot destaca quan gestiona preguntes complexes o obertes. Mentre que molts chatbots excel·leixen en fets ràpids o respostes amb guió, Grok està dissenyat per abordar consultes matisades, especialment en àrees com la ciència i el pensament crític. Pot desglossar temes complexos, com la mecànica quàntica o els dilemes ètics, en explicacions digeribles sense simplificar-les. Això el converteix en una eina de referència per als usuaris que volen més que respostes superficials, ja siguin estudiants, investigadors o ments curioses.

A més, els usuaris assenyalen que aquest bot censura les seves respostes molt menys que ChatGPT o Claude. Tanmateix, Grok té protocols de seguretat per evitar instruccions nocives o il·legals, com ara construir una bomba. Si ho preguntéssiu, el bot desviaria la conversa, potser explicant la ciència dels explosius d'una manera general i no instructiva o dient: "No fem explotar coses; què tal si explorem alguna cosa menys... combustible?". Això equilibra l'obertura amb la responsabilitat, a diferència d'alguns chatbots que poden finalitzar la conversa completament o proporcionar respostes massa vagues.

El futur de Grok

Elon Musk va esmentar en una transmissió en directe que Grok 3 aviat inclourà un mode de veu, on els usuaris podran conversar amb el chatbot de Grok mitjançant ordres parlades i rebre respostes vocals generades per IA. Amb la introducció del mode de veu a Grok 3, els usuaris experimentaran una manera més natural i interactiva d'interactuar amb la IA, esborrant les línies entre la comunicació humana i la màquina.

Les funcions premium, com ara DeepSearch, el mode Think i el mode Big Brain, estaran disponibles per a un públic més ampli. DeepSearch és un motor de cerca de Grok. Està dissenyat per accedir a les darreres notícies en temps real, sintetitzar informació clau, raonar sobre fets i opinions contradictòries i destil·lar claredat a partir de la complexitat. El mode Think proporciona un enfocament en cadena de pensament a la pregunta d'un usuari. El resultat és un detall pas a pas del raonament del model. És adequat per a preguntes complexes que requereixen una lògica acurada, com ara problemes matemàtics, consultes filosòfiques o explicacions tècniques. El mode Big Brain és un mode més ampli, creatiu o computacionalment intensiu que aprofita un context més ampli, un reconeixement avançat de patrons o una base de coneixement més gran. És ideal per abordar preguntes multifacètiques o obertes, generar idees innovadores o connectar punts a través de diversos dominis. Aquest mode podria simular un nivell més alt d'abstracció o intuïció.

Pel que fa al maquinari, el superordinador Colossus de xAI és el sistema d'entrenament d'IA més gran i potent del món. Construït en només 122 dies, més ràpid del que ningú havia previst, inicialment funcionava amb 100.000 GPU Nvidia H100.

Temps de construcció: 122 dies

En uns impressionants 92 dies, xAI va duplicar la seva capacitat a 200.000 GPU integrant els nous i més potents xips Blackwell H200 d'Nvidia. Aquest augment massiu de potència és només el començament. xAI té previst escalar Colossus a 1 milió de xips, preparant el camí per a futurs models Grok que seran encara més potents i innovadors. Les futures iteracions de Grok poden ser capaces de gestionar fluxos de dades de vídeo, àudio i en temps real.

A mesura que aquestes tecnologies evolucionen, tenen el potencial de transformar indústries, millorar l'aprenentatge i ampliar el nostre coneixement col·lectiu de maneres que tot just comencem a comprendre. El viatge de Grok des d'un chatbot basat en text fins a una entitat multimodal i interactiva en temps real és un testimoni del ràpid ritme de la innovació en IA, que promet temps emocionants per als usuaris, desenvolupadors i la comunitat tecnològica en general.

Es preveu que Grok 4 es publiqui a finals del 2025.