Tornar al principal

DeepSeek: un nou capítol en intel·ligència artificial

DeepSeek és un autèntic fenomen. Pocs dies després del seu llançament, el chatbot xinès es va disparar a la part superior de les aplicacions més baixades a l'App Store d'Apple, destronant ChatGPT. Per a molts, va ser un xoc que una empresa relativament desconeguda amb una inversió mínima (el seu pressupost és aproximadament 14 vegades més petit que el d'OpenAI) aconsegueixi superar, encara que sigui temporalment, el líder indiscutible del mercat.

Història de DeepSeek

DeepSeek va ser fundada pel multimilionari xinès Liang Wengfeng. Educat a la Universitat de Zhejiang, Liang va rebre una llicenciatura en enginyeria de la informació electrònica el 2007 i un màster en enginyeria en enginyeria de la informació i la comunicació el 2010.

El 2008, Liang va formar un equip amb els seus companys d'universitat per acumular dades relacionades amb els mercats financers i explorar el comerç quantitatiu mitjançant l'aprenentatge automàtic. El febrer de 2016, Liang i dos companys d'enginyeria més van cofundar High-Flyer, una empresa centrada a aprofitar la intel·ligència artificial per a algorismes comercials (fer inversions, detectar patrons en els preus de les accions, etc.).

L'abril de 2023, High-Flyer va establir un laboratori d'intel·ligència general artificial dedicat a desenvolupar eines d'intel·ligència artificial que no s'utilitzarien per fer negociació d'accions. El maig de 2023, aquest laboratori es va convertir en una entitat independent anomenada DeepSeek.

El gener de 2025, DeepSeek va fer notícia amb el llançament de DeepSeek-R1, un model d'IA de raonament de codi obert de 671.000 milions de paràmetres. El model va guanyar popularitat ràpidament, convertint-se en l'aplicació gratuïta número u a l'App Store d'Apple dels Estats Units.

Liang Wengfeng

Liang Wengfeng

Fites clau:

  • 2016. Fundació High-Flyer. Aquesta empresa es va centrar inicialment en algorismes de comerç d'IA va establir les bases per a DeepSeek.
  • 2023. Fundació DeepSeek. Fundat a l'abril com a laboratori d'intel·ligència general artificial sota High-Flyer, DeepSeek es va independitzar al maig.
  • 2025. Llançament de DeepSeek-R1. Ràpidament es va convertir en una sensació mundial, encapçalant les llistes com un dels chatbots més populars.

El viatge de DeepSeek cap al cim ha estat qualsevol cosa menys fàcil. En els seus inicis, l'empresa confiava en xips gràfics Nvidia A100, que més tard van ser prohibits per l'exportació a la Xina per l'administració dels Estats Units. Els desenvolupadors van passar als xips H800 menys potents, però també es van restringir poc després. Malgrat aquests reptes, DeepSeek va aconseguir crear el seu model R1 avançat utilitzant només 5,6 milions de dòlars en xips H800. Per posar-ho en perspectiva, s'estima que la formació GPT-4 costarà entre 50 i 100 milions de dòlars.

"El nostre major repte no ha estat mai els diners, és l'embargament dels xips de gamma alta", ha dit Liang.

DeepSeek R1

Característiques de DeepSeek i tecnologies clau

A diferència de molts altres chatbots populars, els models DeepSeek són de codi obert, el que significa que els usuaris poden explorar com funciona la tecnologia sota el capó. Aquesta transparència genera confiança, ja que assegura que el chatbot no és una misteriosa "caixa negra": la comunitat pot examinar i entendre el seu comportament.

Els components de codi obert permeten als desenvolupadors i investigadors aportar millores, corregir errors o adaptar la tecnologia a necessitats específiques. És per això que els projectes de codi obert tendeixen a evolucionar ràpidament a causa de les contribucions de la comunitat. Veureu noves funcions, millores i aplicacions que sorgeixen més ràpidament que amb els sistemes propietaris.

Algunes de les solucions tècniques importants que fan que els models DeepSeek funcionin de la manera més eficient possible:

  • MoE (Mixture of Experts)
  • MLA (Multi-head Latent Attention)
  • MTP (Multi-Token Prediction)
MoE (Mixture of Experts)

Mixture of Experts (MoE) és una tècnica d'aprenentatge automàtic que consisteix a combinar les prediccions de múltiples models especialitzats (els "experts") per millorar el rendiment global del chatbot.

A continuació es mostra com funciona a DeepSeek:

  • DeepSeek probablement té un gran grup de 256 xarxes neuronals especialitzades (experts). Cada expert és un model més petit format per gestionar patrons o característiques específiques de les dades. Per exemple, en el processament del llenguatge natural, un expert podria especialitzar-se en sintaxi, un altre en semàntica, un altre en coneixements específics del domini, etc.
  • Una xarxa de gating decideix quins experts activar per a cada token d'entrada. Avalua l'entrada i assigna pesos als experts, seleccionant els 8 millors experts més rellevants per al token actual. Això garanteix que només s'utilitza un petit subconjunt del total d'experts en un moment donat.
  • En lloc d'executar els 256 experts per cada token (cosa que seria computacionalment car), només s'activen els 8 millors experts. Això redueix dràsticament el cost computacional alhora que aprofita tota la capacitat del model.

En activar només un petit subconjunt d'experts, DeepSeek aconsegueix l'eficiència dels recursos. El model pot escalar a una mida molt gran (en termes de paràmetres) sense un augment proporcional en el càlcul.

MLA (Multi-head Latent Attention)

L'atenció latent multicapçal (MLA) és un mecanisme potent que combina els punts forts de l'atenció multicapçal i les representacions d'espai latent per millorar l'eficiència i el rendiment.

A continuació es mostra com funciona a DeepSeek:

  • En l'atenció estàndard de diversos caps, l'entrada es divideix en múltiples "caps", cadascun dels quals aprèn a centrar-se en diferents aspectes de les dades.
  • Les dades d'entrada (per exemple, text, imatges o altres dades estructurades) es codifiquen primer en una representació d'alta dimensió.
  • La representació d'entrada es projecta en un espai latent de dimensions inferiors mitjançant una transformació apresa (per exemple, una capa de xarxa neuronal).
  • La representació latent es divideix en diversos caps, cadascun dels quals calcula puntuacions d'atenció a l'espai latent. Això permet al model centrar-se en diferents aspectes de les dades de manera eficient.
  • En operar en un espai latent, l'MLA redueix el cost computacional dels mecanismes d'atenció, fent que sigui factible processar grans conjunts de dades o seqüències llargues.

La combinació d'atenció multicaps i representacions latents permet que el model capturi patrons i relacions complexes a les dades, donant lloc a un millor rendiment en tasques com el processament del llenguatge natural, els sistemes de recomanació o l'anàlisi de dades.

MTP (Multi-Token Prediction)

Variant de predicció multitoken a DeepSeek

La predicció multitoken (MTP) és una tècnica que s'utilitza en models de llenguatge per predir múltiples tokens (paraules o subparaules) per endavant en una seqüència, en lloc de només la següent. Aquest enfocament pot millorar la capacitat del model de generar text coherent i contextualment precís, ja que anima el model a considerar les dependències i l'estructura a llarg termini de les dades.

A continuació es mostra com funciona a DeepSeek:

  • La seqüència d'entrada (per exemple, una frase o un paràgraf) es codifica mitjançant una arquitectura basada en transformadors, que captura informació contextual sobre cada token de la seqüència.
  • Els models DeepSeek tenen diversos capçals de sortida, cadascun entrenat per predir un token futur diferent.
  • El cap 1 prediu la següent token. El cap 2 prediu la token després d'això. El cap 3 prediu la token dues posicions per davant.
  • En el moment de la inferència, el model genera text de manera autoregressiva, però l'entrenament multitoken garanteix que cada predicció estigui informada per un context més ampli, donant lloc a una generació de text més coherent i precisa.

DeepSeek aplica predicció multitoken per millorar la qualitat dels seus models d'idioma, fent-los més efectius en tasques com la generació de text, la traducció i el resum.

Models actuals

Dos dels models DeepSeek més recents són DeepSeek-V3 llançat el desembre de 2024 i DeepSeek-R1 llançat el gener de 2025.

V3 és un competidor directe de GPT 4o mentre que R1 es pot comparar amb el model o1 d'OpenAI:

GPT 4o, o1, V3, R1

DeepSeek-V3 és una opció fiable per a la majoria de les tasques quotidianes, capaç de respondre preguntes sobre qualsevol tema. Brilla en mantenir converses naturals i mostrar creativitat. Aquest model és bo per escriure, crear contingut o respondre preguntes genèriques que probablement s'han respost moltes vegades abans.

DeepSeek-R1, en canvi, brilla quan es tracta de tasques complexes de resolució de problemes, lògica i raonament pas a pas. R1 va ser dissenyat per fer front a consultes difícils que requereixen una anàlisi exhaustiva i solucions estructurades. Aquest model és ideal per a reptes de codificació i preguntes pesades en lògica.

ModelPunts fortsPunts febles
DeepSeek-V3Ajuda general a la codificació i explicació de conceptes en termes més senzillsPot sacrificar una mica d'experiència en nínxol per la versatilitat
 Escriptura creativa amb una profunda comprensió del contextPot generalitzar-se excessivament en dominis altament tècnics
 Adequat per a la generació ràpida de contingutManca de capacitat de raonament
DeepSeek-R1Pot gestionar tasques tècniques de nínxolLluites amb un context més ampli o consultes ambigües
 Alta precisió en dominis especialitzats (matemàtiques o codi, per exemple)Sortida rígida i formulada en tasques creatives
 Optimitzat per a la redacció tècnica, com ara documents legals o resums acadèmicsMenys adaptable als canvis d'estil i de to

Tots dos models tenen especificacions tècniques semblants:

 DeepSeek-V3DeepSeek-R1
Model baseDeepSeek-V3-BaseDeepSeek-V3-Base
TipusModel d'ús generalModel de raonament
Paràmetres671 mil milions (37 mil milions activats)671 mil milions (37 mil milions activats)
Longitud del context128 mil128 mil

La diferència clau està en la seva formació. A continuació es mostra com es va entrenar DeepSeek-R1 a V3:

  • Ajustament de l'inici en fred: en lloc d'aclaparar el model amb grans volums de dades immediatament, comença amb un conjunt de dades més petit i d'alta qualitat per refinar les seves respostes des del principi.
  • Aprenentatge de reforç sense etiquetes humanes: a diferència de la V3, DeepSeek-R1 es basa completament en RL, el que significa que aprèn a raonar de manera independent en lloc de només imitar les dades d'entrenament.
  • Mostreig de rebuig per a dades sintètiques: el model genera múltiples respostes i només es seleccionen les respostes de millor qualitat per entrenar-se encara més.
  • Combinació de dades supervisades i sintètiques: les dades d'entrenament fusionen les millors respostes generades per IA amb les dades ajustades supervisades de DeepSeek-V3.
  • Procés final de RL: una ronda final d'aprenentatge de reforç garanteix que el model es generalitzi bé a una gran varietat d'indicacions i pugui raonar amb eficàcia sobre els temes.

Ara, mirem alguns punts de referència per veure com es comparen tant el V3 com el R1 amb altres models populars:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 i MATH-500 són punts de referència matemàtics, GPQA Diamond i MMLU són proves de coneixement general i, finalment, Codeforces i SWE-bench Verified són punts de referència de codificació.

Models DeepSeek destil·lats

La destil·lació en intel·ligència artificial és el procés de creació de models més petits i eficients a partir de models més grans, preservant gran part del seu poder de raonament alhora que redueixen les demandes computacionals.

La implementació de V3 i R1 no és pràctic per a tothom, ja que requereixen 8 GPU NVIDIA H200 amb 141 GB de memòria cadascuna. És per això que DeepSeek va crear 6 models destil·lats que van des dels 1.500 milions fins als 70.000 milions de paràmetres:

  • Van començar amb sis models de codi obert de Llama 3.1/3.3 i Qwen 2.5.
  • A continuació, es van generar 800.000 mostres de raonament d'alta qualitat mitjançant R1.
  • I, finalment, van ajustar els models més petits amb aquestes dades de raonament sintètic.

A continuació s'explica com es van comportar aquests sis models en els punts de referència clau, demostrant les seves habilitats en matemàtiques (AIME 2024 i MATH-500), coneixements generals (GPQA Diamond) i codificació (LiveCode Bench i CodeForces):

Models destil·lats DeepSeek-R1 en punts de referència

Com era previsible, a mesura que augmentava el nombre de paràmetres, els resultats milloraven. El model més petit amb 1.500 milions de paràmetres va tenir el pitjor rendiment, mentre que el model més gran amb 70.000 milions de paràmetres va tenir el millor rendiment. Curiosament, el model més equilibrat sembla el Qwen-32B, que és gairebé tan bo com el Llama-70B, tot i que té la meitat de paràmetres.

El futur de DeepSeek

DeepSeek ha aconseguit un èxit notable en poc temps, guanyant un reconeixement mundial gairebé de la nit al dia. El chatbot semblava aparèixer del no-res, però hi ha el risc que s'esvaeixi amb la mateixa rapidesa. Mantenir la visibilitat i la confiança de la marca a llarg termini és un repte important, sobretot en un mercat tan competitiu. Els gegants tecnològics com Google i OpenAI tenen pressupostos que superen amb escreix els recursos financers de DeepSeek i també tenen un avantatge tècnic.

Un dels principals obstacles als quals s'enfronta DeepSeek és la bretxa de càlcul. En comparació amb els seus homòlegs nord-americans, DeepSeek funciona amb un desavantatge important en termes de potència computacional. Aquesta bretxa es veu agreujada pels controls d'exportació dels Estats Units sobre xips avançats, que limiten l'accés de DeepSeek al maquinari més recent necessari per desenvolupar i desplegar models d'IA més potents.

Tot i que DeepSeek ha mostrat una eficiència impressionant en les seves operacions, l'accés a recursos computacionals més avançats podria accelerar significativament el seu progrés i reforçar la seva competitivitat davant les empreses amb més capacitats. Tancar aquesta bretxa informàtica és crucial perquè DeepSeek escala les seves innovacions i s'estableixi com un competidor més fort a l'escenari global.

Dit això, és important no pintar una imatge massa desolada, perquè DeepSeek ja ha aconseguit alguna cosa notable. La companyia ha demostrat que fins i tot amb recursos limitats, és possible crear un producte de classe mundial, cosa que molts creien que només es podia aconseguir amb pressupostos de mil milions de dòlars i una infraestructura massiva. És probable que l'èxit de DeepSeek inspiri molts altres i acceleri encara més l'avenç ja ràpid de les tecnologies d'IA.