Tagasi pealehele

DeepSeek: Uus peatükk tehisintellektis

DeepSeek on tõeline nähtus. Vaid mõned päevad pärast selle avaldamist tõusis Hiina juturobot Apple App Store'i enim allalaaditud rakenduste tippu, kukutades ChatGPT. Paljudele oli šokk, et suhteliselt tundmatu ettevõte, mille investeeringud on minimaalsed - selle eelarve on ligikaudu 14 korda väiksem kui OpenAI oma - suutis isegi ajutiselt edestada vaieldamatut turuliidrit.

DeepSeeki ajalugu

DeepSeeki asutas Hiina miljardär Liang Wengfeng. Zhejiangi ülikoolis õppinud Liang sai 2007. aastal bakalaureusekraadi elektroonilise infotehnoloogia erialal ja 2010. aastal magistrikraadi info- ja kommunikatsioonitehnika erialal.

2008. aastal moodustas Liang koos oma ülikoolikaaslastega meeskonna, et koguda finantsturgudega seotud andmeid ja uurida kvantitatiivset kauplemist masinõppe abil. 2016. aasta veebruaris asutas Liang koos kahe teise inseneriklassikaaslasega ettevõtte High-Flyer, mis keskendub tehisintellekti kasutamisele kauplemisalgoritmide jaoks (investeeringute tegemine, aktsiahindade mustrite tuvastamine jne).

2023. aasta aprillis asutas High-Flyer tehisintellekti üldlaboratooriumi, mis on pühendatud tehisintellekti vahendite arendamisele, mida ei kasutataks aktsiatega kauplemise teostamiseks. Mais 2023 sai sellest laborist iseseisev üksus nimega DeepSeek.

Jaanuaris 2025 jõudis DeepSeek pealkirjadesse, kui avaldas 671 miljardi parameetriga avatud lähtekoodiga arutleva tehisintellekti mudeli DeepSeek-R1. Mudel saavutas kiiresti populaarsuse, olles USAs Apple App Store'i tasuta rakenduse number üks.

Liang Wengfeng

Liang Wengfeng

Peamised verstapostid:

  • 2016. High-Flyer sihtasutus. See algselt tehisintellekti kauplemisalgoritmidele keskendunud ettevõte pani aluse DeepSeekile.
  • 2023. DeepSeeki asutamine. Aprillis High-Flyeri alluvuses tehisliku üldintellekti laborina asutatud DeepSeek sai mais iseseisvaks.
  • 2025. DeepSeek-R1 väljalase. Sellest sai kiiresti ülemaailmne sensatsioon, mis tõusis ühe populaarseima juturobotina edetabelite tippu.

DeepSeeki teekond tippu on olnud kõike muud kui lihtne. Oma algusaegadel tugines ettevõte Nvidia A100 graafikakiipidele, mille eksport Hiinasse USA administratsioon hiljem keelas. Seejärel läksid arendajad üle vähem võimsatele H800 kiipidele, kuid ka nende kasutamist piirati varsti. Neist probleemidest hoolimata suutis DeepSeek luua oma täiustatud R1-mudeli, kasutades vaid 5,6 miljoni dollari väärtuses H800 kiipe. Et seda võrrelda, maksab GPT-4 väljaõpe hinnanguliselt 50-100 miljonit dollarit.

„Meie suurimaks väljakutseks ei ole kunagi olnud raha, vaid kõrgekvaliteediliste kiipide embargo,“ ütles Liang.

DeepSeek R1

DeepSeek funktsioonid ja põhitehnoloogiad

Erinevalt paljudest teistest populaarsetest juturobotitest on DeepSeeki mudelid avatud lähtekoodiga, mis tähendab, et kasutajad saavad uurida, kuidas tehnoloogia kapoti all töötab. Selline läbipaistvus suurendab usaldust, sest see tagab, et juturobot ei ole salapärane „must kast“ - selle käitumist saab kogukond uurida ja mõista.

Avatud lähtekoodiga komponendid võimaldavad arendajatel ja teadlastel teha parandusi, parandada vigu või kohandada tehnoloogiat konkreetsetele vajadustele. Seepärast kipuvadki avatud lähtekoodiga projektid kogukonna panuse tõttu kiiresti arenema. Uued funktsioonid, parandused ja rakendused ilmuvad kiiremini kui patenteeritud süsteemide puhul.

Mõned olulised tehnilised lahendused, mis muudavad DeepSeeki mudelid võimalikult tõhusaks:

  • MoE (Mixture of Experts).
  • MLA (Multi-head Latent Attention)
  • MTP (Multi-Token Prediction)
MoE (Mixture of Experts)

Mixture of Experts (MoE) on masinõppe tehnika, mis hõlmab mitme spetsialiseeritud mudeli („ekspertide“) prognooside kombineerimist, et parandada vestlusroboti üldist tulemuslikkust.

Siin on näha, kuidas see DeepSeekis töötab:

  • DeepSeekil on tõenäoliselt suur 256 spetsialiseeritud närvivõrgu (ekspertide) kogum. Iga ekspert on väiksem mudel, mis on koolitatud konkreetsete mustrite või tunnuste käsitlemiseks andmetes. Näiteks loomuliku keele töötlemisel võib üks ekspert spetsialiseeruda süntaksile, teine semantikale, kolmas valdkondlikele teadmistele jne.
  • Gating-võrk otsustab, milliseid eksperte iga sisendmärgi puhul aktiveerida. See hindab sisendmaterjali ja määrab ekspertidele kaalud, valides välja 8 parimat eksperti, kes on praeguse tokeni jaoks kõige asjakohasemad. See tagab, et igal ajahetkel kasutatakse ainult väikest osa ekspertide koguarvust.
  • Selle asemel, et käivitada kõik 256 eksperti iga tokeni jaoks (mis oleks arvutuslikult kulukas), aktiveeritakse ainult 8 parimat eksperti. See vähendab oluliselt arvutuskulusid, kasutades samal ajal mudeli täielikku võimekust.

DeepSeek saavutab ressursitõhususe, kuna ta aktiveerib ainult väikese osa ekspertidest. Mudel võib skaleeruda väga suureks (parameetrite poolest) ilma arvutuste proportsionaalse suurenemiseta.

MLA (Multi-head Latent Attention)

Multi-head Latent Attention (MLA) on võimas mehhanism, mis ühendab mitme pea tähelepanu ja latentse ruumi kujutamise tugevused, et parandada tõhusust ja jõudlust.

DeepSeekis töötab see järgmiselt:

  • Tavalise mitmepealise tähelepanu puhul jagatakse sisend mitmeks „peaks“, millest igaüks õpib keskenduma andmete erinevatele aspektidele.
  • Sisendandmed (nt tekst, pildid või muud struktureeritud andmed) kodeeritakse kõigepealt kõrgmõõtmelisse esitusviisi.
  • Sisendkujutis projitseeritakse madalamamõõtmelisse latentsesse ruumi, kasutades selleks õpitud teisendust (nt närvivõrgu kiht).
  • Latentne esitus jagatakse mitmeks peaks, millest igaüks arvutab tähelepanu hindeid latentses ruumis. See võimaldab mudelil tõhusalt keskenduda andmete erinevatele aspektidele.
  • MLA vähendab latentses ruumis töötades tähelepanu mehhanismide arvutuskulusid, muutes selle teostatavaks suurte andmekogumite või pikkade jadade töötlemiseks.

Mitme peaga tähelepanu ja latentsete representatsioonide kombinatsioon võimaldab mudelil tabada andmetes olevaid keerulisi mustreid ja seoseid, mis viib parema tulemuslikkuse selliste ülesannete puhul nagu loomuliku keele töötlemine, soovitussüsteemid või andmeanalüüs.

MTP (Multi-Token Prediction)

Multi-Token Prediction variant DeepSeekis

Multi-token prediction (MTP) on tehnika, mida kasutatakse keelemudelites, et ennustada mitme tokeni (sõnade või allsõnade) ennustamine järjestuses, mitte ainult järgmise tokeni ennustamine. See lähenemisviis võib parandada mudeli võimet genereerida sidusat ja kontekstiliselt täpset teksti, kuna see julgustab mudelit arvestama pikemaajalisi sõltuvusi ja struktuuri andmetes.

DeepSeekis töötab see järgmiselt:

  • Sisendjärjestus (nt lause või lõik) kodeeritakse transformaatoripõhise arhitektuuri abil, mis võtab kontekstiandmeid iga järjestuse tokeni kohta.
  • DeepSeeki mudelitel on mitu väljundpead, millest igaüks on treenitud ennustama erinevat tulevast tokenit.
  • Pea 1 ennustab järgmist tokenit. Pea 2 ennustab sellele järgnevat tokeni. Pea 3 ennustab kaks positsiooni eespool asuvat tokeni.
  • Järeldamise ajal genereerib mudel teksti autoregressiivselt, kuid mitme tokeni treenimine tagab, et iga ennustus põhineb laiemal kontekstil, mis viib ühtsema ja täpsema teksti genereerimiseni.

DeepSeek rakendab multi-token ennustamist, et parandada oma keelemudelite kvaliteeti, muutes need tõhusamaks sellistes ülesannetes nagu teksti genereerimine, tõlkimine ja kokkuvõtete tegemine.

Praegused mudelid

Kaks kõige uuemat DeepSeeki mudelit on 2024. aasta detsembris avaldatud DeepSeek-V3 ja 2025. aasta jaanuaris avaldatud DeepSeek-R1.

V3 on otsene konkurent GPT 4o mudelile, samas kui R1 on võrreldav OpenAI o1 mudeliga:

GPT 4o, o1, V3, R1

DeepSeek-V3 on usaldusväärne valik enamiku igapäevaste ülesannete jaoks, mis suudab vastata küsimustele mis tahes teemal. See paistab silma loomuliku kõlaga vestluste pidamisel ja loovuse näitamisel. See mudel sobib hästi kirjutamiseks, sisu loomiseks või üldistele küsimustele vastamiseks, millele on tõenäoliselt juba korduvalt vastatud.

DeepSeek-R1 seevastu paistab silma keeruliste probleemide lahendamise, loogika ja samm-sammult arutlemise ülesannete puhul. R1 on loodud keeruliste päringute lahendamiseks, mis nõuavad põhjalikku analüüsi ja struktureeritud lahendusi. See mudel sobib suurepäraselt kodeerimisülesannete ja loogikaraskete küsimuste lahendamiseks.

MudelTugevusedNõrkused
DeepSeek-V3Üldine kodeerimisabi ja mõistete selgitamine lihtsamate terminite abilVõib ohverdada mõned niššiteadmised mitmekülgsuse kasuks
 Loominguline kirjutamine koos konteksti sügava mõistmisegaVõib väga tehnilistes valdkondades liigselt üldistada
 Sobib hästi kiireks sisu genereerimiseksPuudub arutlusvõime
DeepSeek-R1Saab hakkama nišitehniliste ülesannetegaProbleemid laiema konteksti või mitmetimõistetavate päringutega
 Kõrge täpsus spetsialiseeritud valdkondades (näiteks matemaatika või koodid)Loovtööde jäik ja vormelirohke väljund
 Optimeeritud tehniliseks kirjutamiseks, näiteks juriidilised dokumendid või akadeemilised kokkuvõttedVähem kohandatav stiili- ja toonimuutustega

Mõlemal mudelil on sarnased tehnilised näitajad:

 DeepSeek-V3DeepSeek-R1
BaasmudelDeepSeek-V3-BaseDeepSeek-V3-Base
TüüpÜldotstarbeline mudelPõhjendusmudel
Parameetrid671 miljardit (37 miljardit aktiveeritud)671 miljardit (37 miljardit aktiveeritud)
Konteksti pikkus128 tuhat128 tuhat

Peamine erinevus seisneb nende väljaõppes. Siin on näha, kuidas DeepSeek-R1 treeniti V3-l:

  • Külmkäivituse peenhäälestus: Selle asemel, et mudeli kohe suurte andmemahtudega üle koormata, alustatakse väiksema, kvaliteetse andmekogumiga, et algusest peale oma vastuseid täpsustada.
  • Tugevdamise õppimine ilma inimese siltideta: Erinevalt V3-st tugineb DeepSeek-R1 täielikult RL-le, mis tähendab, et see õpib iseseisvalt arutlema, selle asemel et lihtsalt jäljendada treeningandmeid.
  • Sünteetiliste andmete tagasilükkamine: Mudel genereerib mitu vastust ja ainult parima kvaliteediga vastused valitakse välja, et end edasi treenida.
  • Juhendatud ja sünteetiliste andmete ühendamine: Koolitusandmed ühendavad parimad tehisintellekti loodud vastused DeepSeek-V3 järelevalve all olevate peenhäälestatud andmetega.
  • Lõplik RL-protsess: Lõplik tugevdava õppimise voor tagab, et mudel üldistab hästi mitmesuguste küsimuste puhul ja suudab tõhusalt arutleda erinevate teemade üle.

Nüüd vaatame mõned võrdlusnäitajad, et näha, kuidas nii V3 kui ka R1 on võrreldavad teiste populaarsete mudelitega:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 ja MATH-500 on matemaatika võrdlustestid, GPQA Diamond ja MMLU on üldteadmiste testid ning Codeforces ja SWE-bench Verified on kodeerimise võrdlustestid.
 

Destilleeritud DeepSeek-mudelid

Destillatsioon on tehisintellekti puhul protsess, mille käigus luuakse suurematest mudelitest väiksemaid, tõhusamaid mudeleid, säilitades suure osa nende arutlusvõimest, vähendades samal ajal arvutuslikke nõudmisi.

V3 ja R1 kasutuselevõtt ei ole kõigi jaoks praktiline, kuna need nõuavad 8 NVIDIA H200 GPU-d, millest igaühel on 141 GB mälu. Seepärast lõi DeepSeek 6 destilleeritud mudelit, mille parameetrite arv ulatub 1,5 miljardist kuni 70 miljardi parameetrini:

  • Nad alustasid kuuest avatud lähtekoodiga mudelist Llama 3.1/3.3 ja Qwen 2.5.
  • Seejärel genereeriti 800 000 kvaliteetset arutlusproovi, kasutades R1.
  • Ja lõpuks häälestasid nad väiksemaid mudeleid nende sünteetiliste arutlusandmete põhjal.

Siin on näha, kuidas need kuus mudelit said hakkama peamistes võrdlusuuringutes, näidates oma võimeid matemaatikas (AIME 2024 ja MATH-500), üldteadmistes (GPQA Diamond) ja kodeerimises (LiveCode Bench ja CodeForces):

DeepSeek-R1 destilleeritud mudelid võrdlusuuringutes

Parameetrite arvu kasvades paranesid tulemused ootuspäraselt. Kõige kehvemini esines 1,5 miljardi parameetriga väikseim mudel, samas kui kõige paremini esines 70 miljardi parameetriga suurim mudel. Huvitaval kombel tundub kõige tasakaalustatum mudel olevat Qwen-32B, mis on peaaegu sama hea kui Llama-70B, kuigi tal on poole vähem parameetreid.

DeepSeeki tulevik

DeepSeek on lühikese ajaga saavutanud märkimisväärset edu, saavutades peaaegu üleöö ülemaailmse tunnustuse. Vestlusrobot näis ilmuvat tühjalt kohalt, kuid on oht, et see võib sama kiiresti hääbuda. Brändi nähtavuse ja usalduse säilitamine pikemas perspektiivis on märkimisväärne väljakutse, eriti sellisel tiheda konkurentsiga turul. Tehnoloogiahiiglastel nagu Google ja OpenAI on eelarved, mis ületavad kaugelt DeepSeeki rahalisi vahendeid, ning neil on ka tehniline eelis.

Üks peamisi takistusi, millega DeepSeek silmitsi seisab, on arvutuslõhe. Võrreldes oma USA kolleegidega on DeepSeek arvutusvõimsuse poolest oluliselt ebasoodsamas olukorras. Seda lõhet süvendab USA ekspordikontroll täiustatud kiipide üle, mis piirab DeepSeeki juurdepääsu kõige uuemale riistvarale, mida on vaja võimsamate tehisintellekti mudelite arendamiseks ja kasutuselevõtuks.

Kuigi DeepSeek on näidanud oma tegevuses muljetavaldavat tõhusust, võiks juurdepääs arenenumatele arvutusressurssidele oluliselt kiirendada tema edusamme ja tugevdada tema konkurentsivõimet suuremate võimetega ettevõtete suhtes. Arvutilõhe kaotamine on DeepSeekile hädavajalik, et ta saaks oma uuendusi laiendada ja kehtestada end tugevama konkurendina globaalsel tasandil.

Sellegipoolest on oluline mitte maalida liiga sünget pilti, sest DeepSeek on juba saavutanud midagi märkimisväärset. Ettevõte on tõestanud, et isegi piiratud ressurssidega on võimalik luua maailmatasemel toode - paljud arvasid, et see on võimalik vaid miljardite dollarite suuruse eelarve ja tohutu infrastruktuuri abil. DeepSeeki edu inspireerib tõenäoliselt lugematuid teisi ja kiirendab veelgi tehisintellekti tehnoloogiate niigi kiiret arengut.