DeepSeek: Naujas dirbtinio intelekto skyrius

„DeepSeek“ yra tikras reiškinys. Praėjus vos kelioms dienoms po išleidimo, šis kinų pokalbių robotas pakilo į „Apple App Store“ labiausiai atsisiunčiamų programėlių viršūnę, išstumdamas „ChatGPT“. Daugeliui buvo šokas, kad palyginti nežinoma įmonė, turinti minimalias investicijas - jos biudžetas maždaug 14 kartų mažesnis nei „OpenAI“ - sugebėjo aplenkti, nors ir laikinai, neginčijamą rinkos lyderį.

„DeepSeek“ istorija

Bendrovę „DeepSeek“ įkūrė kinų milijardierius Liangas Wengfengas. Išsilavinimą Liangas įgijo Džedziango universitete. 2007 m. jam suteiktas elektroninės informacijos inžinerijos bakalauro laipsnis, o 2010 m. - informacijos ir ryšių inžinerijos magistro laipsnis.

2008 m. Liangas kartu su universiteto bendrakursiais subūrė komandą, kuri kaupė su finansų rinkomis susijusius duomenis ir tyrinėjo kiekybinę prekybą naudodama mašininį mokymąsi. 2016 m. vasarį Liangas kartu su dar dviem inžinerijos klasės draugais įkūrė bendrovę „High-Flyer“, kurios pagrindinis tikslas - panaudoti dirbtinį intelektą prekybos algoritmams (investuoti, pastebėti akcijų kainų dėsningumus ir kt.).

2023 m. balandį „High-Flyer“ įkūrė dirbtinio bendrojo intelekto laboratoriją, skirtą dirbtinio intelekto priemonėms, kurios nebūtų naudojamos prekybai akcijomis vykdyti, kurti. Iki 2023 m. gegužės mėn. ši laboratorija tapo nepriklausomu subjektu, pavadintu „DeepSeek“.

2025 m. sausį „DeepSeek“ pateko į laikraščių antraštes, išleidusi „DeepSeek-R1“ - 671 mlrd. parametrų atvirojo kodo samprotavimo dirbtinio intelekto modelį. Modelis greitai išpopuliarėjo ir tapo nemokama programėle Nr. 1 JAV „Apple App Store“ parduotuvėje.

Liangas Wengfengas

Pagrindiniai etapai:

2016. „High-Flyer“ fondas. Ši bendrovė, iš pradžių daugiausia dėmesio skyrusi dirbtinio intelekto prekybos algoritmams, padėjo pagrindą „DeepSeek“.
2023. DeepSeek įkūrimas. Įkurta balandžio mėn. kaip dirbtinio bendrojo intelekto laboratorija prie „High-Flyer“, gegužės mėn. bendrovė „DeepSeek“ tapo nepriklausoma.
2025. DeepSeek-R1 išleidimas. Jis greitai tapo pasauline sensacija, užimdamas vieną populiariausių pokalbių robotų sąrašų viršūnių.

„DeepSeek“ kelionė į viršūnę nebuvo lengva. Savo veiklos pradžioje bendrovė rėmėsi „Nvidia A100“ grafikos lustais, kuriuos vėliau JAV administracija uždraudė eksportuoti į Kiniją. Tada kūrėjai perėjo prie mažiau galingų H800 lustų, tačiau netrukus ir jų naudojimas buvo apribotas. Nepaisant šių sunkumų, „DeepSeek“ pavyko sukurti pažangų R1 modelį naudojant tik 5,6 mln. dolerių vertės H800 lustus. Palyginimui, manoma, kad GPT-4 mokymas kainavo 50-100 mln. dolerių.

„Didžiausias mūsų iššūkis niekada nebuvo pinigai, o aukščiausios klasės lustų embargas“, - sakė Liangas.

„DeepSeek“ funkcijos ir pagrindinės technologijos

Skirtingai nuo daugelio kitų populiarių pokalbių robotų, „DeepSeek“ modeliai yra atvirojo kodo, t. y. naudotojai gali tyrinėti, kaip veikia technologija po gaubtu. Šis skaidrumas didina pasitikėjimą, nes užtikrina, kad pokalbių robotas nėra paslaptinga „juodoji dėžė“ - jo elgesį gali ištirti ir suprasti bendruomenė.

Atvirojo kodo komponentai leidžia kūrėjams ir tyrėjams prisidėti prie patobulinimų, taisyti klaidas arba pritaikyti technologiją konkretiems poreikiams. Todėl atvirojo kodo projektai paprastai greitai vystosi dėl bendruomenės indėlio. Naujos funkcijos, patobulinimai ir taikomosios programos atsiranda greičiau nei naudojant nuosavybines sistemas.

Keletas svarbių techninių sprendimų, dėl kurių „DeepSeek“ modeliai veikia kuo efektyviau:

MoE (Mixture of Experts)
MLA (Multi-head Latent Attention)
MTP (Multi-Token Prediction)

Ekspertų mišinys (angl. Mixture of Experts, MoE) - tai mašininio mokymosi metodas, kurį taikant derinamos kelių specializuotų modelių („ekspertų“) prognozės, siekiant pagerinti bendrą pokalbių roboto našumą.

Štai kaip jis veikia „DeepSeek“:

Tikėtina, kad „DeepSeek“ turi didelį 256 specializuotų neuroninių tinklų (ekspertų) fondą. Kiekvienas ekspertas yra mažesnis modelis, apmokytas apdoroti tam tikrus duomenų modelius ar savybes. Pavyzdžiui, natūralios kalbos apdorojimo srityje vienas ekspertas gali specializuotis sintaksės srityje, kitas - semantikos srityje, trečias - srities specifinių žinių srityje ir t. t.
Valdymo tinklas nusprendžia, kuriuos ekspertus aktyvuoti kiekvienam įvesties tokeni. Jis įvertina įvesties duomenis ir priskiria ekspertams svorius, atrinkdamas 8 geriausius ekspertus, labiausiai susijusius su dabartiniu token'u. Taip užtikrinama, kad bet kuriuo metu būtų naudojamas tik nedidelis visų ekspertų poaibis.
Vietoj to, kad kiekvieną tokeną išbandytų visi 256 ekspertai (o tai būtų skaičiavimo požiūriu brangu), aktyvuojami tik 8 geriausi ekspertai. Tai smarkiai sumažina skaičiavimo sąnaudas ir kartu išnaudoja visą modelio pajėgumą.

Aktyvindama tik nedidelį ekspertų poaibį, „DeepSeek“ užtikrina efektyvų išteklių naudojimą. Modelį galima išplėsti iki labai didelio dydžio (parametrų atžvilgiu) proporcingai nedidinant skaičiavimų apimties.

Daugiagalvis latentinis dėmesys (angl. Multi-head Latent Attention, MLA) - tai galingas mechanizmas, kuris sujungia daugiagalvio dėmesio ir latentinės erdvės atvaizdavimo privalumus, kad padidintų efektyvumą ir našumą.

Štai kaip jis veikia „DeepSeek“:

Standartinio kelių galvų dėmesio atveju įvestis padalijama į kelias „galvas“, kurių kiekviena mokosi sutelkti dėmesį į skirtingus duomenų aspektus.
Įvesties duomenys (pvz., tekstas, vaizdai ar kiti struktūrizuoti duomenys) pirmiausia užkoduojami į didelio matmens atvaizdavimą.
Naudojant išmoktą transformaciją (pvz., neuronų tinklo sluoksnį), įvesties atvaizdavimas projektuojamas į mažesnio matmens latentinę erdvę.
Latentinė reprezentacija padalijama į kelias galvas, kurių kiekviena apskaičiuoja dėmesio balus latentinėje erdvėje. Tai leidžia modeliui efektyviai sutelkti dėmesį į skirtingus duomenų aspektus.
Veikdamas latentinėje erdvėje, MLA sumažina dėmesio mechanizmų skaičiavimo sąnaudas, todėl galima apdoroti didelius duomenų rinkinius arba ilgas sekas.

Daugiagalvio dėmesio ir latentinių reprezentacijų derinys leidžia modeliui fiksuoti sudėtingus duomenų modelius ir ryšius, o tai padeda geriau atlikti tokias užduotis, kaip natūralios kalbos apdorojimas, rekomendacijų sistemos ar duomenų analizė.

Daugiažodžių prognozavimo variantas „DeepSeek“ sistemoje

Daugelio ženklų prognozavimas (angl. Multi-token prediction, MTP) - tai kalbos modeliuose naudojamas metodas, skirtas ne tik kitam tokenui, bet ir keliems sekos ženklams (žodžiams ar posakiams) numatyti. Šis metodas gali pagerinti modelio gebėjimą kurti nuoseklų ir kontekstualiai tikslų tekstą, nes skatina modelį atsižvelgti į ilgesnio laikotarpio priklausomybes ir duomenų struktūrą.

Štai kaip tai veikia „DeepSeek“:

Įvesties seka (pvz., sakinys ar pastraipa) koduojama naudojant transformatoriumi pagrįstą architektūrą, kuri fiksuoja kontekstinę informaciją apie kiekvieną sekos tokeną.
DeepSeek modeliai turi keletą išvesties galvučių, kurių kiekviena apmokyta prognozuoti skirtingą būsimą tokeną.
1 galvutė prognozuoja kitą tokeną. 2 galvutė prognozuoja po to einantį tokeną. 3 galvutė prognozuoja tokeną, esantį dviem pozicijomis į priekį.
Išvados darymo metu modelis generuoja tekstą autoregresiniu būdu, tačiau kelių galvučių mokymas užtikrina, kad kiekviena prognozė būtų paremta platesniu kontekstu, todėl tekstas generuojamas nuosekliau ir tiksliau.

DeepSeek taiko kelių tokenų prognozavimą, kad pagerintų savo kalbos modelių kokybę, todėl jie veiksmingiau atlieka tokias užduotis, kaip teksto generavimas, vertimas ir apibendrinimas.

Dabartiniai modeliai

Du iš naujausių „DeepSeek“ modelių yra „DeepSeek-V3“, išleistas 2024 m. gruodį, ir „DeepSeek-R1“, išleistas 2025 m. sausį.

V3 yra tiesioginis GPT 4o konkurentas, o R1 galima palyginti su OpenAI modeliu o1:

„DeepSeek-V3“ yra patikimas pasirinkimas daugeliui kasdienių užduočių, galintis atsakyti į klausimus bet kokia tema. Jis puikiai tinka natūraliai skambantiems pokalbiams ir kūrybiškumo demonstravimui. Šis modelis tinka rašymui, turinio kūrimui arba atsakymams į bendrus klausimus, į kuriuos greičiausiai jau daug kartų buvo atsakyta.

Kita vertus, „DeepSeek-R1“ spindi, kai reikia spręsti sudėtingas problemų sprendimo, logikos ir laipsniško samprotavimo užduotis. R1 buvo sukurtas sudėtingoms užklausoms, kurioms reikia išsamios analizės ir struktūrizuotų sprendimų, spręsti. Šis modelis puikiai tinka kodavimo iššūkiams ir daug logikos reikalaujantiems klausimams spręsti.

Modelis	Stipriosios pusės	Silpnosios pusės
DeepSeek-V3	Bendroji pagalba koduojant ir paprastesnis sąvokų paaiškinimas	Dėl universalumo gali būti aukojamos tam tikros nišinės žinios
	Kūrybinis rašymas su giliu konteksto supratimu	Gali pernelyg apibendrinti labai techniškose srityse
	Tinkamas greitam turinio kūrimui	Trūksta mąstymo gebėjimų
DeepSeek-R1	Gali atlikti nišines technines užduotis	Sunkumai, susiję su platesniu kontekstu arba dviprasmiškomis užklausomis
	Didelis tikslumas specializuotose srityse (pvz., matematikos ar kodų)	Griežtas ir šabloniškas kūrybinių užduočių atlikimas
	Optimizuotas techniniam rašymui, pavyzdžiui, teisiniams dokumentams ar akademinėms santraukoms	Mažiau prisitaiko prie stiliaus ir tono pokyčių

Abiejų modelių techninės specifikacijos panašios:

	DeepSeek-V3	DeepSeek-R1
Bazinis modelis	DeepSeek-V3-Base	DeepSeek-V3-Base
Tipas	Bendrosios paskirties modelis	Argumentavimo modelis
Parametrai	671 mlrd. (37 mlrd. aktyvuotų)	671 mlrd. (37 mlrd. aktyvuotų)
Konteksto ilgis	128 tūkst.	128 tūkst.

Esminis skirtumas - jų mokymas. Štai kaip „DeepSeek-R1“ buvo apmokyta dirbti su V3:

Šaltosios pradžios derinimas: Vietoj to, kad modelis iš karto būtų apkrautas dideliais duomenų kiekiais, jis pradedamas nuo mažesnio, aukštos kokybės duomenų rinkinio, kad iš pat pradžių patikslintų savo atsakymus.
Mokymasis be žmogaus etikečių: Priešingai nei V3, „DeepSeek-R1“ remiasi vien tik RL, t. y. mokosi savarankiškai, o ne tik imituoja mokymo duomenis.
Sintetinių duomenų atmetimo atranka: Modelis generuoja daugybę atsakymų, o tolesniam mokymui atrenkami tik geriausios kokybės atsakymai.
Prižiūrimų ir sintetinių duomenų derinimas: Mokymo duomenys sujungia geriausius dirbtinio intelekto generuojamus atsakymus su prižiūrimais tiksliai sureguliuotais „DeepSeek-V3“ duomenimis.
Galutinis RL procesas: Galutinis sustiprinto mokymosi etapas užtikrina, kad modelis gerai apibendrintų įvairias užklausas ir galėtų veiksmingai samprotauti įvairiomis temomis.

Dabar pažvelkime į keletą lyginamųjų testų, kad pamatytume, kaip V3 ir R1 lyginami su kitais populiariais modeliais:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 ir MATH-500 yra matematikos lyginamieji testai, GPQA Diamond ir MMLU - bendrųjų žinių testai, o Codeforces ir SWE-bench Verified - kodavimo lyginamieji testai.

Distiliuoti „DeepSeek“ modeliai

Distiliavimas dirbtinio intelekto srityje - tai procesas, kai iš didesnių modelių sukuriami mažesni, efektyvesni modeliai, išsaugant didžiąją dalį jų argumentavimo galios ir kartu sumažinant skaičiavimo reikalavimus.

V3 ir R1 diegimas nėra praktiškas visiems, nes jiems reikia 8 NVIDIA H200 grafikos procesorių, turinčių po 141 GB atminties. Todėl „DeepSeek“ sukūrė 6 distiliuotus modelius, kurių parametrai svyruoja nuo 1,5B iki 70B:

Jie pradėjo nuo šešių atvirojo kodo modelių iš „Llama 3.1/3.3“ ir „Qwen 2.5“.
Tada, naudodami R1, sukūrė 800 000 aukštos kokybės samprotavimo pavyzdžių.
Ir galiausiai, remdamiesi šiais sintetiniais samprotavimo duomenimis, jie patikslino mažesnius modelius.

Štai kaip šie šeši modeliai pasirodė pagrindiniuose lyginamuosiuose testuose, parodančiuose jų gebėjimus matematikos (AIME 2024 ir MATH-500), bendrųjų žinių (GPQA Diamond) ir kodavimo (LiveCode Bench ir CodeForces) srityse:

„DeepSeek-R1“ distiliuoti modeliai lyginamuosiuose tyrimuose

Numatoma, kad didėjant parametrų skaičiui, rezultatai gerėjo. Mažiausias modelis su 1,5 mlrd. parametrų pasirodė prasčiausiai, o didžiausias modelis su 70 mlrd. parametrų - geriausiai. Įdomu, kad labiausiai subalansuotas modelis atrodo Qwen-32B, kuris yra beveik toks pat geras kaip Llama-70B, nors turi perpus mažiau parametrų.

DeepSeek ateitis

Per trumpą laiką „DeepSeek“ pasiekė nepaprastą sėkmę ir beveik per naktį pelnė pasaulinį pripažinimą. Pokalbių robotas atrodė atsiradęs tarsi iš niekur, tačiau yra rizika, kad jis gali taip pat greitai išnykti. Ilgalaikis prekės ženklo žinomumo ir pasitikėjimo išlaikymas yra nemenkas iššūkis, ypač tokioje itin konkurencingoje rinkoje. Tokie technologijų gigantai kaip „Google“ ir „OpenAI“ turi biudžetus, gerokai viršijančius „DeepSeek“ finansinius išteklius, be to, jie turi techninį pranašumą.

Viena iš pagrindinių kliūčių, su kuriomis susiduria „DeepSeek“, yra skaičiavimo atotrūkis. Palyginti su JAV kolegomis, „DeepSeek“ turi daug mažiau skaičiavimo galios. Šį atotrūkį didina JAV pažangių lustų eksporto kontrolė, kuri riboja „DeepSeek“ prieigą prie naujausios techninės įrangos, reikalingos galingesniems dirbtinio intelekto modeliams kurti ir diegti.

Nors „DeepSeek“ parodė įspūdingą savo veiklos efektyvumą, galimybė naudotis pažangesniais skaičiavimo ištekliais galėtų gerokai paspartinti jos pažangą ir sustiprinti jos konkurencingumą prieš didesnius pajėgumus turinčias bendroves. Kad „DeepSeek“ galėtų išplėsti savo inovacijas ir įsitvirtinti kaip stipresnis varžovas pasaulinėje arenoje, labai svarbu pašalinti šį skaičiavimo atotrūkį.

Vis dėlto svarbu, kad vaizdas nebūtų pernelyg niūrus, nes „DeepSeek“ jau pasiekė kai ką nepaprasto. Įmonė įrodė, kad net ir turint ribotus išteklius galima sukurti pasaulinio lygio produktą - tai, kas, daugelio nuomone, įmanoma tik turint milijardinius biudžetus ir didžiulę infrastruktūrą. Tikėtina, kad „DeepSeek“ sėkmė įkvėps daugybę kitų ir dar labiau paspartins ir taip sparčią dirbtinio intelekto technologijų pažangą.