Înapoi la pagina principală

DeepSeek: Un nou capitol în inteligența artificială

DeepSeek este un adevărat fenomen. La doar câteva zile de la lansarea sa, chatbotul chinezesc a urcat în topul celor mai descărcate aplicații de pe Apple App Store, detronând ChatGPT. Pentru mulți, a fost un șoc faptul că o companie relativ necunoscută cu investiții minime - bugetul său este de aproximativ 14 ori mai mic decât cel al OpenAI - a reușit să depășească, chiar dacă temporar, liderul incontestabil al pieței.

Istoria DeepSeek

DeepSeek a fost fondată de miliardarul chinez Liang Wengfeng. Educat la Universitatea Zhejiang, Liang a obținut o diplomă de licență în ingineria informației electronice în 2007 și un master în ingineria informației și comunicațiilor în 2010.

În 2008, Liang a format o echipă cu colegii săi de la universitate pentru a acumula date legate de piețele financiare și a explora tranzacționarea cantitativă folosind învățarea automată. În februarie 2016, Liang și alți doi colegi de facultate de inginerie au co-fondat High-Flyer, o companie axată pe valorificarea inteligenței artificiale pentru algoritmi de tranzacționare (realizarea de investiții, detectarea modelelor în prețurile acțiunilor etc.).

În aprilie 2023, High-Flyer a înființat un laborator de inteligență artificială generală dedicat dezvoltării instrumentelor de inteligență artificială care nu ar fi utilizate pentru tranzacționarea acțiunilor. În mai 2023, acest laborator a devenit o entitate independentă denumită DeepSeek.

În ianuarie 2025, DeepSeek a ținut prima pagină a ziarelor cu lansarea DeepSeek-R1, un model open-source de inteligență artificială raționamentală cu 671 de miliarde de parametri. Modelul a câștigat rapid popularitate, devenind aplicația gratuită numărul unu pe Apple App Store din SUA.

Liang Wengfeng

Liang Wengfeng

Principalele etape:

  • 2016. Fundația High-Flyer. Această companie axată inițial pe algoritmi de tranzacționare cu inteligență artificială a pus bazele DeepSeek.
  • 2023. Fondarea DeepSeek. Fondată în aprilie ca laborator de inteligență generală artificială în cadrul High-Flyer, DeepSeek a devenit independentă în mai.
  • 2025. Lansarea DeepSeek-R1. A devenit rapid o senzație la nivel mondial, ocupând primul loc în topuri ca fiind unul dintre cele mai populare chatbots.

Drumul lui DeepSeek până în vârf nu a fost deloc ușor. La începuturile sale, compania s-a bazat pe cipurile grafice Nvidia A100, al căror export în China a fost ulterior interzis de administrația americană. Dezvoltatorii au trecut apoi la cipurile mai puțin puternice H800, dar și acestea au fost restricționate la scurt timp după aceea. În ciuda acestor provocări, DeepSeek a reușit să își creeze modelul R1 avansat folosind cipuri H800 în valoare de doar 5,6 milioane de dolari. Pentru a pune acest lucru în perspectivă, se estimează că pregătirea GPT-4 costă între 50 și 100 de milioane de dolari.

„Cea mai mare provocare a noastră nu au fost niciodată banii, ci embargoul asupra cipurilor high-end”, a declarat Liang.

DeepSeek R1

Caracteristicile și tehnologiile-cheie ale DeepSeek

Spre deosebire de multe alte chatbots populare, modelele DeepSeek sunt open-source, ceea ce înseamnă că utilizatorii pot explora modul în care funcționează tehnologia sub capotă. Această transparență sporește încrederea, deoarece asigură că chatbotul nu este o „cutie neagră” misterioasă - comportamentul său poate fi examinat și înțeles de comunitate.

Componentele open-source permit dezvoltatorilor și cercetătorilor să contribuie cu îmbunătățiri, să corecteze erori sau să adapteze tehnologia pentru nevoi specifice. Acesta este motivul pentru care proiectele open-source tind să evolueze rapid datorită contribuțiilor comunității. Veți vedea noi caracteristici, îmbunătățiri și aplicații apărând mai rapid decât în cazul sistemelor proprietare.

Unele dintre soluțiile tehnice importante care fac ca modelele DeepSeek să funcționeze cât mai eficient posibil:

  • MoE („Mixture of Experts”)
  • MLA („Multi-head Latent Attention”)
  • MTP („Multi-Token Prediction”)
MoE (Mixture of Experts)

Mixtura de experți (MoE) este o tehnică de învățare automată care implică combinarea predicțiilor mai multor modele specializate („experții”) pentru a îmbunătăți performanța generală a chatbotului.

Iată cum funcționează în DeepSeek:

  • DeepSeek are probabil un bazin mare de 256 de rețele neuronale specializate (experți). Fiecare expert este un model mai mic antrenat să gestioneze anumite tipare sau caracteristici din date. De exemplu, în prelucrarea limbajului natural, un expert s-ar putea specializa în sintaxă, altul în semantică, altul în cunoștințe specifice domeniului etc.
  • O rețea gating decide ce experți să activeze pentru fiecare token de intrare. Aceasta evaluează datele de intrare și atribuie ponderi experților, selectând primii 8 experți cei mai relevanți pentru tokenul curent. Astfel, se asigură că numai un mic subset din numărul total de experți este utilizat la un moment dat.
  • În loc să se ruleze toți cei 256 de experți pentru fiecare token (ceea ce ar fi costisitor din punct de vedere computațional), se activează doar primii 8 experți. Acest lucru reduce drastic costul de calcul, valorificând în același timp întreaga capacitate a modelului.

Prin activarea doar a unui mic subset de experți, DeepSeek atinge eficiența resurselor. Modelul poate fi extins la o dimensiune foarte mare (în termeni de parametri) fără o creștere proporțională a calculului.

MLA (Multi-head Latent Attention)

Atenția latentă multi-head (MLA) este un mecanism puternic care combină punctele forte ale atenției multi-head și ale reprezentărilor spațiale latente pentru a îmbunătăți eficiența și performanța.

Iată cum funcționează în DeepSeek:

  • În atenția standard pe mai multe capete, datele de intrare sunt împărțite în mai multe „capete”, fiecare dintre acestea învățând să se concentreze pe diferite aspecte ale datelor.
  • Datele de intrare (de exemplu, text, imagini sau alte date structurate) sunt mai întâi codificate într-o reprezentare înalt-dimensională.
  • Reprezentarea de intrare este proiectată într-un spațiu latent cu dimensiuni mai mici utilizând o transformare învățată (de exemplu, un strat de rețea neuronală).
  • Reprezentarea latentă este împărțită în mai multe capete, fiecare dintre acestea calculând scoruri de atenție în spațiul latent. Acest lucru permite modelului să se concentreze eficient asupra diferitelor aspecte ale datelor.
  • Prin operarea într-un spațiu latent, MLA reduce costul de calcul al mecanismelor de atenție, făcând posibilă prelucrarea unor seturi mari de date sau a unor secvențe lungi.

Combinația dintre atenția pe mai multe capete și reprezentările latente permite modelului să capteze modele și relații complexe în date, ceea ce conduce la o performanță mai bună în sarcini precum prelucrarea limbajului natural, sistemele de recomandare sau analiza datelor.

MTP (Multi-Token Prediction)

Variantă de predicție cu mai multe tokenuri în DeepSeek

Predicția multi-token (MTP) este o tehnică utilizată în modelele lingvistice pentru a prezice mai multe token-uri (cuvinte sau subparole) înainte într-o secvență, mai degrabă decât doar următorul token. Această abordare poate îmbunătăți capacitatea modelului de a genera text coerent și precis din punct de vedere contextual, deoarece încurajează modelul să ia în considerare dependențele pe termen lung și structura datelor.

Iată cum funcționează aceasta în DeepSeek:

  • Secvența de intrare (de exemplu, o propoziție sau un paragraf) este codificată utilizând o arhitectură bazată pe transformare, care captează informații contextuale despre fiecare simbol din secvență.
  • Modelele DeepSeek au mai multe capete de ieșire, fiecare fiind antrenat să prezică un token viitor diferit.
  • Capul 1 prezice următorul token. Capul 2 prezice tokenul următor. Capul 3 prezice tokenul cu două poziții înainte.
  • La momentul inferenței, modelul generează textul în mod autoregresiv, însă formarea pe mai multe token-uri asigură faptul că fiecare predicție este informată de un context mai larg, ceea ce duce la generarea unui text mai coerent și mai precis.

DeepSeek aplică predicția multi-token pentru a îmbunătăți calitatea modelelor sale lingvistice, făcându-le mai eficiente în sarcini precum generarea, traducerea și rezumarea textului.

Modele actuale

Două dintre cele mai recente modele DeepSeek sunt DeepSeek-V3 lansat în decembrie 2024 și DeepSeek-R1 lansat în ianuarie 2025.

V3 este un concurent direct al GPT 4o, în timp ce R1 poate fi comparat cu modelul o1 al OpenAI:

GPT 4o, o1, V3, R1

DeepSeek-V3 este o alegere fiabilă pentru majoritatea sarcinilor zilnice, capabilă să răspundă la întrebări pe orice subiect. Acesta strălucește în a avea conversații care sună natural și în a etala creativitatea. Acest model este bun pentru scriere, crearea de conținut sau pentru a răspunde la întrebări generice la care probabil s-a mai răspuns de multe ori.

DeepSeek-R1, pe de altă parte, strălucește atunci când vine vorba de rezolvarea de probleme complexe, logică și sarcini de raționament pas cu pas. R1 a fost conceput pentru a aborda interogări dificile care necesită o analiză aprofundată și soluții structurate. Acest model este excelent pentru provocările de codare și pentru întrebările care necesită multă logică.

ModelPuncte fortePuncte slabe
DeepSeek-V3Asistență generală pentru codificare și explicarea conceptelor în termeni mai simpliPoate sacrifica o anumită expertiză de nișă pentru versatilitate
 Scriere creativă cu înțelegere profundă a contextuluiPoate generaliza excesiv în domenii foarte tehnice
 Potrivite pentru generarea rapidă de conținutÎi lipsește capacitatea de raționament
DeepSeek-R1Se poate ocupa de sarcini tehnice de nișăDificultăți cu contextul mai larg sau cu interogările ambigue
 Precizie ridicată în domenii specializate (matematică sau cod, de exemplu)Rezultat rigid și formulaic în sarcinile creative
 Optimizat pentru scriere tehnică, cum ar fi documente juridice sau rezumate academiceMai puțin adaptabil la schimbările de stil și ton

Ambele modele au specificații tehnice similare:

 DeepSeek-V3DeepSeek-R1
Model de bazăDeepSeek-V3-BaseDeepSeek-V3-Base
TipModel cu scop generalModel de raționament
Parametrii671 miliarde (37 miliarde activate)671 miliarde (37 miliarde activate)
Lungimea contextului128 mii128 mii

Diferența esențială constă în pregătirea lor. Iată cum a fost antrenat DeepSeek-R1 pe V3:

  • Ajustarea la rece: În loc să copleșească imediat modelul cu volume mari de date, acesta începe cu un set de date mai mic, de înaltă calitate, pentru a-și rafina răspunsurile de la început.
     
  • Învățarea prin consolidare fără etichete umane: Spre deosebire de V3, DeepSeek-R1 se bazează în întregime pe RL, ceea ce înseamnă că învață să raționeze independent în loc să imite doar datele de antrenament.
  • Eșantionarea de respingere a datelor sintetice: Modelul generează răspunsuri multiple și numai răspunsurile de cea mai bună calitate sunt selectate pentru a se antrena în continuare.
  • Îmbinarea datelor supravegheate și sintetice: Datele de formare îmbină cele mai bune răspunsuri generate de inteligența artificială cu datele supervizate cu reglaj fin de la DeepSeek-V3.
  • Procesul final RL: O rundă finală de învățare prin consolidare asigură că modelul se generalizează bine la o mare varietate de solicitări și poate raționa eficient pe mai multe subiecte.

Acum, să ne uităm la câteva repere pentru a vedea cum se compară V3 și R1 cu alte modele populare:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 și MATH-500 sunt repere matematice, GPQA Diamond și MMLU sunt teste de cunoștințe generale și, în sfârșit, Codeforces și SWE-bench Verified sunt repere de codificare.

Modele DeepSeek distilate

Distilarea în inteligența artificială este procesul de creare a unor modele mai mici, mai eficiente, pornind de la modele mai mari, păstrând o mare parte din puterea lor de raționament și reducând în același timp cerințele de calcul.

Implementarea V3 și R1 nu este practică pentru toată lumea, deoarece acestea necesită 8 GPU NVIDIA H200 cu 141 GB de memorie fiecare. Acesta este motivul pentru care DeepSeek a creat 6 modele distilate, variind de la 1,5 miliarde la 70 de miliarde de parametri:

  • Au început cu șase modele open-source din Llama 3.1/3.3 și Qwen 2.5.
  • Apoi, au generat 800.000 de eșantioane de raționament de înaltă calitate folosind R1.
  • Și, în cele din urmă, au ajustat modelele mai mici pe aceste date sintetice de raționament.

Iată cum s-au descurcat aceste șase modele în testele de referință cheie, demonstrându-și abilitățile în matematică (AIME 2024 și MATH-500), cunoștințe generale (GPQA Diamond) și programare (LiveCode Bench și CodeForces):

Modele distilate DeepSeek-R1 în benchmark-uri

În mod previzibil, odată cu creșterea numărului de parametri, rezultatele s-au îmbunătățit. Cel mai mic model cu 1,5 miliarde de parametri a avut cele mai slabe rezultate, în timp ce cel mai mare model cu 70 de miliarde de parametri a avut cele mai bune rezultate. În mod curios, cel mai echilibrat model seamănă cu Qwen-32B, care este aproape la fel de bun ca Llama-70B, deși are jumătate din numărul de parametri.

Viitorul DeepSeek

DeepSeek a obținut un succes remarcabil într-un timp scurt, câștigând recunoaștere globală aproape peste noapte. Chatbot-ul pare să fi apărut de nicăieri, dar există riscul să dispară la fel de repede. Menținerea vizibilității mărcii și a încrederii pe termen lung este o provocare semnificativă, mai ales pe o piață atât de competitivă. Giganți ai tehnologiei precum Google și OpenAI au bugete care depășesc cu mult resursele financiare ale DeepSeek și, de asemenea, dețin un avantaj tehnic.

Unul dintre obstacolele majore cu care se confruntă DeepSeek este deficitul de calculatoare. În comparație cu omologii săi americani, DeepSeek operează cu un dezavantaj semnificativ în ceea ce privește puterea de calcul. Acest decalaj este exacerbat de controalele americane la exportul de cipuri avansate, care limitează accesul DeepSeek la cele mai recente echipamente necesare pentru a dezvolta și implementa modele de inteligență artificială mai puternice.

Deși DeepSeek a dat dovadă de o eficiență impresionantă în operațiunile sale, accesul la resurse de calcul mai avansate i-ar putea accelera semnificativ progresul și i-ar putea consolida competitivitatea în fața companiilor cu capacități mai mari. Închiderea acestui decalaj în materie de calcul este esențială pentru ca DeepSeek să își dezvolte inovațiile și să se impună ca un concurent mai puternic pe scena mondială.

Acestea fiind spuse, este important să nu prezentăm un tablou prea sumbru, deoarece DeepSeek a realizat deja ceva remarcabil. Compania a demonstrat că, chiar și cu resurse limitate, este posibil să se creeze un produs de clasă mondială - ceea ce mulți credeau că se poate realiza doar cu bugete de miliarde de dolari și infrastructură masivă. Succesul DeepSeek este de natură să inspire nenumărate alte companii și să accelereze și mai mult progresul deja rapid al tehnologiilor de inteligență artificială.