Una anàlisi comparativa dels millors models lingüístics: ChatGPT, Gemini, Claude i Llama

El mercat de la intel·ligència artificial generativa està creixent a un ritme ràpid, atraient desenes de milers de milions de dòlars en inversió i centenars de milions d'usuaris. ChatGPT segueix sent el chatbot més popular, però està lluny de ser l'únic. En aquest article, considerarem quines alternatives a ChatGPT existeixen.

Quins són els chatbots més populars?

Cada dia hi ha més chatbots diferents, però no val la pena prestar atenció a tots. Hi ha quatre opcions més populars que destaquen per les seves característiques, rendiment i qualitat:

ChatGPT per OpenAI
Gemini de Google
Claude per Anthropic
Llama de Meta

Fem una ullada més de prop a cadascun d'ells.

ChatGPT

De lluny, el chatbot més popular i reeixit fins ara. Inicialment llançat per OpenAI el novembre de 2022. Al gener de 2023, ChatGPT s'havia convertit en l'aplicació de programari de consum més ràpid de la història, guanyant més de 100 milions d'usuaris en només dos mesos.

L'últim model de base, que és GPT-4o, es va llançar el 13 de maig de 2024. Un parell de mesos després, el 18 de juliol de 2024, OpenAI va llançar una versió més petita i econòmica, GPT-4o mini.

Especificacions tècniques
Recompte de paràmetres	200 mil milions (8 mil milions per a Mini)
Mida de la finestra de context	128 mil tokens
Data de tall de coneixement	Octubre 2023

Els paràmetres són com enllaços neuronals en un cervell, com més, millor. El mateix passa amb la mida de la finestra de context, serveix com a memòria del chatbot, ajudant-lo a fer un seguiment de la conversa. La data de tall de coneixement mostra la data fins a la qual es van utilitzar les dades i la informació d'entrenament per crear el model d'intel·ligència artificial. El model no té coneixement dels esdeveniments mundials després de la data de tall.

Característiques destacables: alta velocitat de processament i eficiència en tasques repetitives com la codificació; consciència contextual avançada per entendre millor la intenció de l'usuari i oferir respostes més adaptades i adequades a la conversa específica.

Casos d'ús:

comunicació en temps real i traducció d'idiomes,
aprenentatge interactiu d'idiomes,
atenció al client en banca i sanitat,
personalització de continguts per a campanyes de màrqueting digital.

ChatGPT ofereix assessorament mèdic útil (p. ex., què fer per a un mal de cap o una erupció), però sempre destaca la importància de consultar un professional. És crucial recordar que el chatbot no pot substituir completament un metge humà.

Gemini

Gemini, abans conegut com a Bard, es va presentar el febrer de 2023 com a resposta de Google a l'augment del ChatGPT d'OpenAI.

Gemini 1.5 Flash i 1.5 Pro van estar disponibles generalment el 23 de maig de 2024 i des de llavors han rebut nombroses actualitzacions.

Especificacions tècniques
Recompte de paràmetres	Fins a 500 mil milions
Mida de la finestra de context	1 milió de tokens
Data de tall de coneixement	Novembre 2023

Característiques destacables: els models 1.5 Pro i 1.5 Flash tenen una finestra de context predeterminada de fins a 1 milió de tokens, que és la finestra de context més llarga de qualsevol model a gran escala; això desbloqueja la capacitat de processar documents llargs, milers de línies de codi, etc.

Casos d'ús:

analitzar les dades financeres juntament amb les tendències visuals del mercat,
interpretar conjunts de dades científiques complexes,
crear materials de màrqueting multimèdia que combinen text i imatges,
ràpida interpretació i resum de dades.

Gràcies a la integració amb el servei de cerca de Google, el model pot comprovar les seves respostes amb els resultats de la cerca perquè la informació estigui sempre actualitzada.

Claude

Claude és una família de grans models lingüístics desenvolupats per Anthropic, una startup d'intel·ligència artificial, fundada el 2021 per set antics empleats d'OpenAI (l'empresa que va crear ChatGPT), inclòs Dario Amodei, l'antic vicepresident d'investigació d'OpenAI.

El primer model de Claude es va llançar el març de 2021 i l'últim model, Claude 3.5 Sonnet, es va llançar el 20 de juny de 2024.

Especificacions tècniques
Recompte de paràmetres	175 mil milions
Mida de la finestra de context	200 mil tokens (aproximadament 150 mil paraules)
Data de tall de coneixement	Abril 2024

Característiques destacables: Claude és un escriptor excepcional capaç de crear històries realment emotives; el chatbot també és conegut per ser el més inofensiu i segur possible, va ser entrenat per no triar respostes tòxiques, racistes o masclistes, o que fomenten o recolzen comportaments il·legals, violents o poc ètics. Pots obtenir-ne més informació aquí.

Casos d'ús:

analitzar la literatura mèdica i donar suport a la presa de decisions basada en l'evidència,
anàlisi d'informes financers i avaluació de riscos,
tutoria intel·ligent, proporcionant explicacions i comentaris personalitzats,
generar contingut d'alta qualitat i optimitzat per a SEO.

En Claude només va trigar 4 minuts a resoldre un problema tècnicament complex que normalment trigaria entre 2 i 8 hores a un desenvolupador mitjà.

Llama

Llama és una família de grans models de llenguatge autoregressius desenvolupats per Meta AI, una divisió de Meta (propietari de Facebook). La primera versió de Llama es va publicar el 2023.

Els dos models més actuals són Llama 3.1 (publicat el 23 de juliol de 2024) i Llama 3.2 (publicat el 25 de setembre de 2024).

Especificacions tècniques
Recompte de paràmetres	D'1 a 405 mil milions
Mida de la finestra de context	128 mil tokens
Data de tall de coneixement	Desembre 2023

Característiques destacables: Llama ve en diferents mides, d'aquí el recompte de paràmetres variables; Llama 3.1 405B és el model d'intel·ligència artificial de codi obert més gran amb capacitats d'última generació que rivalitzen amb els millors models de codi tancat.

Casos d'ús:

modelització i predicció financera,
recuperació i resum del coneixement,
ajuda per a l'escriptura de text i codi,
informàtica científica, projectes de recerca i anàlisi de dades.

Llama és gratuït per a ús comercial i de recerca; està pensat per servir a tothom i per treballar per a una àmplia gamma de casos d'ús. Meta creu que fer que la intel·ligència artificial estigui disponible obertament és bo per al món.

Punts de referència

Massive Multitask Language Understanding (MMLU) és un dels punts de referència més populars i versàtils. MMLU cobreix 57 tasques de diverses matèries, com ara dret, filosofia, història, medicina i matemàtiques. Amb una puntuació del 90,0%, Gemini Ultra és el primer model que supera els experts humans en MMLU.

Aquests són els resultats de referència proporcionats pels desenvolupadors de Gemini:

Un altre punt de referència important és la generació de codi (HumanEval). En donar a un gran model de llenguatge diversos problemes de programació, podeu mesurar la freqüència amb què produeix el codi correcte. Claude és tradicionalment bo per generar codi. Aquests són els resultats de referència proporcionats pels desenvolupadors de Claude:

Claude 3.5 Sonnet vs GPT-4o vs Gemini 1.5 Pro vs Llama-400b

Tingueu en compte que en gairebé totes les categories excepte en matemàtiques (on sobresurt GPT-4o), Claude supera els seus competidors.

Finalment, mirem els resultats de referència proporcionats pels desenvolupadors de Llama:

Llama 3.1 vs GPT-4o vs Claude 3.5 Sonnet

Claude també està al capdavant del seu joc aquí, però Llama no es queda enrere. Resulta que si voleu, podeu mostrar qualsevol model d'idioma amb una llum favorable. Al cap i a la fi, tots estan força a prop quant a números.

Punts forts clau

A partir dels resultats de la prova, vam veure que el model Claude 3.5 Sonnet és el millor per generar codi. El model GPT-4o està una mica endarrerit, però també és fantàstic per generar i explicar codi, trobar-hi i corregir errors.

A més, Claude produeix constantment alguns dels continguts escrits de més alta qualitat que hi ha. Molta gent comenta com se sent el llenguatge natural i humà: és gairebé com si l'hagués escrit una persona, no una màquina. I Claude destaca en tots els sentits, ja sigui abordant peces creatives i literàries com contes breus o contingut més pràctic i utilitari com descripcions de productes. De fet, el text que genera Claude està sovint llest per a la publicació i requereix poca o cap edició.

Un altre punt fort de Claude és la correcció de textos. El chatbot troba i explica errors de fet i gramaticals. Altres robots també ho poden fer, és clar, però Claude ho fa millor: passa a faltar menys errors i els explica més a fons.

Gemini té la finestra de context més àmplia, que permet al chatbot generar i analitzar textos més llargs i fer un seguiment de la conversa durant més temps sense oblidar el context.

Gràcies a la integració amb els serveis de Google, inclòs el motor de cerca, Gemini té accés a la informació més actualitzada.

GPT-4o destaca per analitzar i comprendre text. Això inclou la capacitat de trobar relacions, extreure conclusions lògiques, fer analogies i extreure conclusions vàlides.

Llama lidera les proves de matemàtiques, mostra una alta velocitat de sortida (els models de Llama es troben entre els més ràpids a l'hora de mostrar respostes a la pantalla) i és l'únic model de llenguatge de codi obert que es té en compte.

Model	Punts forts
Claude 3.5 Sonnet	Generació de codi, escriptura creativa, correcció de proves
Gemini 1.5	Finestra de context més gran, comprensió lingüística, cerca de Google
GPT-4o	Raonament, matemàtiques, generació de codi i text
Llama 3.1	Matemàtiques, velocitat de sortida, codi obert

Conclusió

En conclusió, els quatre chatbots que es discuteixen en aquest article tenen tots els seus punts forts i capacitats únics. Tot i que cada model pot excel·lir en determinades àrees, generalment són força similars en rendiment i funcionalitat generals.

Us animem a explorar i experimentar amb tots aquests models directament per determinar quin s'adapta millor a les vostres necessitats i preferències específiques. Cada model té els seus propis matisos i pot funcionar de manera diferent segons la tasca a realitzar.

Creiem que l'elecció es redueix, en última instància, a la vostra experiència personal i quin chatbot ressona més amb vosaltres i els vostres requisits. Proveu vosaltres mateixos els models i decidiu quin és l'adequat òptim.