DeepSeek: Jauna nodaļa mākslīgajā intelektā
DeepSeek ir patiess fenomens. Tikai dažas dienas pēc iznākšanas šis ķīniešu tērzēšanas robots ierindojās Apple App Store visvairāk lejupielādēto lietotņu topa augšgalā, apsteidzot ChatGPT. Daudziem tas bija šoks, ka salīdzinoši nezināmam uzņēmumam ar minimālām investīcijām - tā budžets ir aptuveni 14 reižu mazāks nekā OpenAI - izdevās apsteigt, kaut arī uz laiku, neapstrīdamo tirgus līderi.
DeepSeek vēsture
Uzņēmumu DeepSeek dibināja ķīniešu miljardieris Liangs Vengfengs. Liangs ir ieguvis izglītību Džedzjanas Universitātē, 2007. gadā viņš ieguva inženierzinātņu bakalaura grādu elektroniskās informācijas inženierijā, bet 2010. gadā - inženierzinātņu maģistra grādu informācijas un komunikāciju inženierijā.
2008. gadā Liangs kopā ar saviem universitātes klasesbiedriem izveidoja komandu, lai uzkrātu datus, kas saistīti ar finanšu tirgiem, un izpētītu kvantitatīvo tirdzniecību, izmantojot mašīnmācīšanos. 2016. gada februārī Liangs un vēl divi inženierijas klasesbiedri līdzdibināja uzņēmumu High-Flyer, kas koncentrējas uz mākslīgā intelekta izmantošanu tirdzniecības algoritmu izstrādē (investīciju veikšana, akciju cenu modeļu pamanīšana utt.).
2023. gada aprīlī High-Flyer izveidoja mākslīgā vispārējā intelekta laboratoriju, kas veltīta mākslīgā intelekta rīku izstrādei netiktu izmantota akciju tirdzniecības veikšanai. Līdz 2023. gada maijam šī laboratorija kļuva par neatkarīgu vienību ar nosaukumu DeepSeek.
2025. gada janvārī DeepSeek parādījās ziņu virsrakstos, publicējot DeepSeek-R1 - 671 miljardu parametru atvērto kodu argumentācijas mākslīgā intelekta modeli. Modelis ātri ieguva popularitāti, kļūstot par pirmo bezmaksas lietotni ASV Apple App Store.

Liangs Vengfengs
Galvenie atskaites punkti:
- 2016. High-Flyer fonds. Šis uzņēmums, kas sākotnēji koncentrējās uz mākslīgā intelekta tirdzniecības algoritmiem, lika pamatus DeepSeek.
- 2023. DeepSeek dibināšana. Dibināts aprīlī kā mākslīgā vispārējā intelekta laboratorija High-Flyer ietvaros, DeepSeek līdz maijam kļuva neatkarīgs.
- 2025. DeepSeek-R1 iznākšana. Tas ātri kļuva par sensāciju visā pasaulē, ieņemot vienu no populārākajiem tērzēšanas robotiem.
DeepSeek ceļš uz virsotni ir bijis nebūt ne viegls. Savos pirmsākumos uzņēmums paļāvās uz Nvidia A100 grafikas mikroshēmām, kuras ASV administrācija vēlāk aizliedza eksportēt uz Ķīnu. Pēc tam izstrādātāji pārgāja uz mazāk jaudīgām H800 mikroshēmām, bet arī tās drīz pēc tam tika ierobežotas. Neraugoties uz šiem izaicinājumiem, DeepSeek izdevās izveidot savu progresīvo R1 modeli, izmantojot tikai H800 mikroshēmas 5,6 miljonu ASV dolāru vērtībā. Salīdzinājumam - GPT-4 apmācības izmaksas tiek lēstas no 50 līdz 100 miljoniem ASV dolāru.
“Mūsu lielākais izaicinājums nekad nav bijusi nauda, bet gan augstas klases mikroshēmu embargo,” teica Liangs.

DeepSeek funkcijas un galvenās tehnoloģijas
Atšķirībā no daudziem citiem populāriem tērzēšanas robotiem DeepSeek modeļi ir atvērtā koda modeļi, kas nozīmē, ka lietotāji var izpētīt, kā tehnoloģija darbojas zem pārsega. Šī pārredzamība vairo uzticību, jo tā nodrošina, ka tērzēšanas robots nav noslēpumaina “melnā kaste” - tā uzvedību var pārbaudīt un saprast kopiena.
Atvērtā koda komponenti ļauj izstrādātājiem un pētniekiem veicināt uzlabojumus, novērst kļūdas vai pielāgot tehnoloģiju konkrētām vajadzībām. Tāpēc atvērtā koda projekti mēdz strauji attīstīties, pateicoties kopienas ieguldījumam. Jaunas funkcijas, uzlabojumi un lietojumprogrammas parādās ātrāk nekā patentētās sistēmās.
Daži no svarīgākajiem tehniskajiem risinājumiem, kas nodrošina pēc iespējas efektīvāku DeepSeek modeļu darbību:
- MoE (Mixture of Experts)
- MLA (Multi-head Latent Attention)
- MTP (Multi-Token Prediction)

Ekspertu sajaukums (Mixture of Experts, MoE) ir mašīnmācīšanās metode, kas ietver vairāku specializētu modeļu (“ekspertu”) prognožu apvienošanu, lai uzlabotu tērzēšanas robota vispārējo veiktspēju.
Lūk, kā tas darbojas DeepSeek:
- DeepSeek, visticamāk, ir liels 256 specializētu neironu tīklu (ekspertu) kopums. Katrs eksperts ir mazāks modelis, kas apmācīts apstrādāt konkrētus datu modeļus vai iezīmes. Piemēram, dabiskās valodas apstrādē viens eksperts var specializēties sintaksē, cits - semantikā, vēl cits - specifiskās zināšanas par domēnu utt.
- Sliežu tīkls nosaka, kurus ekspertus aktivizēt katram ievades tokenam. Tas novērtē ievades datus un piešķir ekspertiem svarus, izvēloties 8 labākos ekspertus, kas ir visatbilstošākie pašreizējam tokenam. Tādējādi tiek nodrošināts, ka jebkurā brīdī tiek izmantota tikai neliela apakškopa no kopējā ekspertu skaita.
- Tā vietā, lai darbinātu visus 256 ekspertus katram tokenam (kas būtu skaitliski dārgi), tiek aktivizēti tikai 8 labākie eksperti. Tas krasi samazina skaitļošanas izmaksas, vienlaikus izmantojot visu modeļa jaudu.
Aktivizējot tikai nelielu ekspertu apakškopu, DeepSeek panāk resursu efektivitāti. Modeli var mērogot līdz ļoti lielam izmēram (parametru ziņā), proporcionāli nepalielinot skaitļošanas apjomu.

Vairāku galvu latentā uzmanība (MLA) ir spēcīgs mehānisms, kas apvieno vairāku galvu uzmanības un latentās telpas reprezentācijas priekšrocības, lai uzlabotu efektivitāti un veiktspēju.
Lūk, kā tas darbojas DeepSeek:
- Standarta vairāku galvu uzmanības režīmā ievades dati tiek sadalīti vairākās “galvās”, no kurām katra mācās koncentrēties uz dažādiem datu aspektiem.
- Ieejas dati (piemēram, teksts, attēli vai citi strukturēti dati) vispirms tiek kodēti lieldimensiju attēlojumā.
- Ieejas attēlojums tiek projicēts zemāka izmēra latentajā telpā, izmantojot apgūtu transformāciju (piemēram, neironu tīkla slāni).
- Latentā reprezentācija tiek sadalīta vairākās galvās, no kurām katra aprēķina uzmanības rādītājus latentajā telpā. Tas ļauj modelim efektīvi koncentrēties uz dažādiem datu aspektiem.
- Darbojoties latentajā telpā, MLA samazina uzmanības mehānismu skaitļošanas izmaksas, padarot iespējamu lielu datu kopu vai garu secību apstrādi.
Daudzgalviņu uzmanības un latentās reprezentācijas kombinācija ļauj modelim uztvert sarežģītus datu modeļus un sakarības, tādējādi nodrošinot labāku veiktspēju tādos uzdevumos kā dabiskās valodas apstrāde, ieteikumu sistēmas vai datu analīze.

Vairāku vārdu paredzēšanas variants programmā DeepSeek
Vairāku tokenu prognozēšana (MTP) ir metode, ko izmanto valodas modeļos, lai prognozētu vairākus tokenus (vārdus vai apakšvārdus) secībā uz priekšu, nevis tikai nākamo tokenu. Šī pieeja var uzlabot modeļa spēju ģenerēt saskaņotu un kontekstuāli precīzu tekstu, jo tā mudina modeli ņemt vērā ilgtermiņa atkarības un datu struktūru.
Lūk, kā tas darbojas programmā DeepSeek:
- Ievades secība (piemēram, teikums vai rindkopa) tiek kodēta, izmantojot uz transformatoru balstītu arhitektūru, kas ietver kontekstuālo informāciju par katru secības marķieri.
- DeepSeek modeļiem ir vairākas izejas galvas, no kurām katra ir apmācīta prognozēt atšķirīgu nākotnes token.
- 1. galviņa prognozē nākamo tokenu. 2. galviņa prognozē nākamo tokenu. 3. galviņa prognozē token, kas atrodas divas pozīcijas uz priekšu.
- Secināšanas laikā modelis ģenerē tekstu autoregresīvi, bet vairāku galviņu apmācība nodrošina, ka katra prognoze ir balstīta uz plašāku kontekstu, tādējādi nodrošinot saskaņotāku un precīzāku teksta ģenerēšanu.
DeepSeek izmanto vairāku tokenu prognozēšanu, lai uzlabotu savu valodas modeļu kvalitāti, padarot tos efektīvākus tādos uzdevumos kā teksta ģenerēšana, tulkošana un apkopošana.
Pašreizējie modeļi
Divi no jaunākajiem DeepSeek modeļiem ir DeepSeek-V3, kas izdots 2024. gada decembrī, un DeepSeek-R1, kas izdots 2025. gada janvārī.
V3 ir tiešs GPT 4o konkurents, savukārt R1 var salīdzināt ar OpenAI o1 modeli:

DeepSeek-V3 ir uzticama izvēle vairumam ikdienas uzdevumu, kas spēj atbildēt uz jautājumiem par jebkuru tēmu. Tas izceļas ar dabiski izklausītām sarunām un demonstrē radošumu. Šis modelis ir piemērots rakstīšanai, satura veidošanai vai atbildēm uz vispārīgiem jautājumiem, uz kuriem, visticamāk, jau daudzkārt ir sniegtas atbildes.
Savukārt DeepSeek-R1 spīd, kad runa ir par sarežģītiem problēmu risināšanas, loģikas un pakāpeniskas spriešanas uzdevumiem. R1 tika izstrādāts, lai risinātu sarežģītus vaicājumus, kas prasa rūpīgu analīzi un strukturētus risinājumus. Šis modelis ir lieliski piemērots kodēšanas uzdevumiem un loģikas jautājumiem.
| Modelis | Stiprās puses | Vājās puses |
| DeepSeek-V3 | Vispārēja palīdzība kodēšanas jomā un jēdzienu skaidrošana vienkāršākos terminos. | Var upurēt dažas nišas zināšanas, lai iegūtu daudzpusību. |
| Radošā rakstīšana ar dziļu izpratni par kontekstu | Var pārspīlēt vispārinājumus ļoti tehniskās jomās. | |
| Labi piemērots ātrai satura ģenerēšanai | Trūkst spriešanas spējas | |
| DeepSeek-R1 | Spēj veikt nišas tehniskos uzdevumus | Grūtības ar plašāku kontekstu vai neskaidrus vaicājumus. |
| Augsta precizitāte specializētās jomās (piemēram, matemātikā vai kodēšanā). | Stingra un šabloniska radošo uzdevumu izpilde | |
| Optimizēts tehniskai rakstīšanai, piemēram, juridiskiem dokumentiem vai akadēmiskiem kopsavilkumiem. | Mazāk pielāgojas stila un toņu izmaiņām |
Abiem modeļiem ir līdzīgas tehniskās specifikācijas:
| DeepSeek-V3 | DeepSeek-R1 | |
| Bāzes modelis | DeepSeek-V3-Base | DeepSeek-V3-Base |
| Tips | Vispārējas nozīmes modelis | Pamatojuma modelis |
| Parametri | 671 miljards (37 miljardi aktivizēti) | 671 miljards (37 miljardi aktivizēti) |
| Konteksta garums | 128 tūkstoši | 128 tūkstoši |
Galvenā atšķirība ir viņu apmācībā. Lūk, kā DeepSeek-R1 tika apmācīts V3:
- Aukstā sākuma precizēšana: Tā vietā, lai uzreiz pārslogotu modeli ar lieliem datu apjomiem, tas sāk ar mazāku, augstas kvalitātes datu kopu, lai jau no paša sākuma precizētu savas atbildes.
- Pastiprinājuma mācīšanās bez cilvēka marķējuma: Atšķirībā no V3, DeepSeek-R1 pilnībā paļaujas uz RL, kas nozīmē, ka tas mācās spriest patstāvīgi, nevis tikai atdarina mācību datus.
- Sinētisko datu noraidīšanas izlase: Modelis ģenerē vairākas atbildes, un tālākai apmācībai tiek atlasītas tikai viskvalitatīvākās atbildes.
- Uzraudzīto un sintētisko datu apvienošana: Mācību dati apvieno labākās mākslīgā intelekta ģenerētās atbildes ar uzraudzītiem, precīzi noregulētiem datiem no DeepSeek-V3.
- Galīgais RL process: Pēdējā pastiprinātas mācīšanās kārta nodrošina, ka modelis labi ģeneralizējas uz visdažādākajiem ieteikumiem un spēj efektīvi spriest par dažādām tēmām.
Tagad aplūkosim dažus etalonus, lai redzētu, kā V3 un R1 var salīdzināt ar citiem populāriem modeļiem:

AIME 2024 un MATH-500 ir matemātikas etaloni, GPQA Diamond un MMLU ir vispārējo zināšanu testi, un, visbeidzot, Codeforces un SWE-bench Verified ir kodēšanas etaloni.
Distilētie DeepSeek modeļi
Destilācija mākslīgajā intelektā ir process, kurā no lielākiem modeļiem tiek izveidoti mazāki, efektīvāki modeļi, saglabājot lielu daļu to argumentācijas jaudas un vienlaikus samazinot skaitļošanas prasības.
V3 un R1 izvietošana nav praktiska visiem, jo tiem nepieciešami 8 NVIDIA H200 GPU ar 141 GB atmiņas katram. Tāpēc DeepSeek izveidoja 6 destilētus modeļus, kuru parametri ir no 1,5 miljardiem līdz 70 miljardiem:
- Viņi sāka ar sešiem atvērtā koda modeļiem no Llama 3.1/3.3 un Qwen 2.5.
- Pēc tam izveidoja 800 000 augstas kvalitātes spriešanas paraugu, izmantojot R1.
- Visbeidzot, viņi precizēja mazākos modeļus, izmantojot šos sintētiskos spriešanas datus.
Lūk, kā šiem sešiem modeļiem veicās galvenajos kritērijos, demonstrējot savas spējas matemātikā (AIME 2024 un MATH-500), vispārējās zināšanās (GPQA Diamond) un kodēšanā (LiveCode Bench un CodeForces):

Paredzams, ka, palielinoties parametru skaitam, rezultāti uzlabojās. Mazākais modelis ar 1,5 miljardiem parametru uzrādīja vissliktākos rezultātus, savukārt lielākais modelis ar 70 miljardiem parametru uzrādīja vislabākos rezultātus. Interesanti, ka vislīdzsvarotākais modelis izskatās Qwen-32B, kas ir gandrīz tikpat labs kā Llama-70B, lai gan tam ir uz pusi mazāk parametru.
DeepSeek nākotne
DeepSeek īsā laikā ir guvis ievērojamus panākumus, iegūstot globālu atpazīstamību gandrīz vienā naktī. Šķita, ka šis tērzēšanas robots parādījās no nekurienes, taču pastāv risks, ka tas var tikpat ātri izzust. Zīmola atpazīstamības un uzticības saglabāšana ilgtermiņā ir ievērojams izaicinājums, jo īpaši tik ļoti konkurētspējīgā tirgū. Tādiem tehnoloģiju gigantiem kā Google un OpenAI ir budžets, kas ievērojami pārsniedz DeepSeek finanšu resursus, turklāt tiem ir arī tehniskā pārsvars.
Viens no galvenajiem šķēršļiem, ar ko saskaras DeepSeek, ir skaitļošanas resursu trūkums. Salīdzinot ar ASV partneriem, DeepSeek ir ievērojami neizdevīgākā situācijā skaitļošanas jaudas ziņā. Šo plaisu saasina ASV eksporta kontrole attiecībā uz moderniem mikroshēmām, kas ierobežo DeepSeek piekļuvi jaunākajai aparatūrai, kas nepieciešama, lai izstrādātu un ieviestu jaudīgākus mākslīgā intelekta modeļus.
Lai gan DeepSeek ir parādījis iespaidīgu darbības efektivitāti, piekļuve modernākiem skaitļošanas resursiem varētu ievērojami paātrināt tā progresu un stiprināt tā konkurētspēju pret uzņēmumiem ar lielākām iespējām. Lai DeepSeek varētu paplašināt savas inovācijas un kļūt par spēcīgāku konkurentu pasaules mērogā, ir ļoti svarīgi novērst šo skaitļošanas jaudu trūkumu.
Tomēr ir svarīgi nerot pārāk drūmu ainu, jo DeepSeek jau ir sasniedzis kaut ko ievērojamu. Uzņēmums ir pierādījis, ka pat ar ierobežotiem resursiem ir iespējams radīt pasaules līmeņa produktu - kaut ko tādu, ko daudzi uzskatīja par sasniedzamu tikai ar miljardu dolāru budžetu un milzīgu infrastruktūru. DeepSeek panākumi, visticamāk, iedvesmos neskaitāmus citus un vēl vairāk paātrinās jau tā straujo mākslīgā intelekta tehnoloģiju attīstību.