DeepSeek: Novo poglavje v umetni inteligenci
DeepSeek je pravi fenomen. Kitajski klepetalni robot se je le nekaj dni po izidu povzpel na vrh najbolj prenesenih aplikacij v trgovini Apple App Store in izrinil ChatGPT. Za mnoge je bilo šokantno, da je razmeroma neznanemu podjetju z minimalnimi naložbami - njegov proračun je približno 14-krat manjši od proračuna podjetja OpenAI - uspelo prehiteti, četudi začasno, nespornega vodilnega na trgu.
Zgodovina podjetja DeepSeek
Podjetje DeepSeek je ustanovil kitajski milijarder Liang Wengfeng. Liang se je izobraževal na univerzi Zhejiang in leta 2007 diplomiral iz elektronskega informacijskega inženirstva ter leta 2010 magistriral iz informacijskega in komunikacijskega inženirstva.
Leta 2008 je Liang s sošolci na univerzi ustanovil ekipo, ki je zbirala podatke, povezane s finančnimi trgi, in raziskovala kvantitativno trgovanje z uporabo strojnega učenja. Februarja 2016 je Liang s še dvema sošolcema iz inženirstva soustanovil podjetje High-Flyer, ki se osredotoča na izkoriščanje umetne inteligence za algoritme trgovanja (izvajanje naložb, odkrivanje vzorcev v cenah delnic itd.).
Podjetje High-Flyer je aprila 2023 ustanovilo laboratorij za splošno umetno inteligenco, namenjen razvoju orodij umetne inteligence, ki se ne bi uporabljala za trgovanje z delnicami. Do maja 2023 je ta laboratorij postal neodvisna enota z imenom DeepSeek.
Januarja 2025 se je podjetje DeepSeek znašlo na naslovnicah z objavo DeepSeek-R1, odprtokodnega modela umetne inteligence za utemeljevanje s 671 milijardami parametrov. Model je hitro pridobil na priljubljenosti in postal brezplačna aplikacija številka ena v ameriški trgovini Apple App Store.

Liang Wengfeng
Ključni mejniki:
- 2016. Fundacija High-Flyer. To podjetje, ki se je sprva osredotočalo na algoritme za trgovanje z umetno inteligenco, je postavilo temelje za DeepSeek.
- 2023. Ustanovitev podjetja DeepSeek. Družba DeepSeek, ustanovljena aprila kot laboratorij za splošno umetno inteligenco v okviru podjetja High-Flyer, je maja postala samostojna.
- 2025. Izdaja DeepSeek-R1. Hitro je postal svetovna senzacija in se kot eden najbolj priljubljenih klepetalnih robotov zavihtel na vrh lestvic.
Pot DeepSeeka na vrh ni bila enostavna. V svojih začetkih se je podjetje zanašalo na grafične čipe Nvidia A100, katerih izvoz na Kitajsko je ameriška administracija pozneje prepovedala. Razvijalci so nato prešli na manj zmogljive čipe H800, vendar so bili tudi ti kmalu zatem omejeni. Kljub tem izzivom je podjetju DeepSeek uspelo ustvariti svoj napredni model R1 z uporabo čipov H800 v vrednosti le 5,6 milijona dolarjev. Za primerjavo: usposabljanje GPT-4 naj bi stalo od 50 do 100 milijonov dolarjev.
„Naš največji izziv nikoli ni bil denar, temveč embargo na vrhunske čipe,“ je dejal Liang.

Funkcije in ključne tehnologije storitve DeepSeek
Za razliko od številnih drugih priljubljenih klepetalnih robotov so modeli DeepSeek odprtokodni, kar pomeni, da lahko uporabniki raziskujejo, kako tehnologija deluje pod pokrovom. Ta preglednost povečuje zaupanje, saj zagotavlja, da klepetalni robot ni skrivnostna „črna skrinjica“ - njegovo vedenje lahko skupnost preuči in razume.
Odprtokodne komponente omogočajo razvijalcem in raziskovalcem, da prispevajo izboljšave, odpravijo napake ali prilagodijo tehnologijo za posebne potrebe. Zato se odprtokodni projekti zaradi prispevkov skupnosti običajno hitro razvijajo. Nove funkcije, izboljšave in aplikacije se pojavljajo hitreje kot pri lastniških sistemih.
Nekatere od pomembnih tehničnih rešitev, ki omogočajo čim bolj učinkovito delovanje modelov DeepSeek:
- MoE (Mixture of Experts)
- MLA (Multi-head Latent Attention)
- MTP (Multi-Token Prediction)

Mešanica strokovnjakov (Mixture of Experts - MoE) je tehnika strojnega učenja, ki vključuje združevanje napovedi več specializiranih modelov („strokovnjakov“) za izboljšanje splošne učinkovitosti klepetalnega robota.
Tukaj je opisano, kako deluje v aplikaciji DeepSeek:
- DeepSeek ima verjetno velik nabor 256 specializiranih nevronskih mrež (strokovnjakov). Vsak strokovnjak je manjši model, ki je usposobljen za obravnavo določenih vzorcev ali značilnosti v podatkih. Na primer pri obdelavi naravnega jezika je lahko en strokovnjak specializiran za sintakso, drugi za semantiko, tretji za domensko specifično znanje itd.
- Omrežje, ki deluje na podlagi vhodnih tokenov, odloča, katere strokovnjake bo aktiviralo za vsak vhodni token. Ocenjuje vhodne podatke in dodeli uteži strokovnjakom ter izbere 8 najboljših strokovnjakov, ki so najbolj pomembni za trenutni žeton. To zagotavlja, da se v danem trenutku uporabi le majhna podmnožica vseh strokovnjakov.
- Namesto da bi se za vsak token uporabilo vseh 256 strokovnjakov (kar bi bilo računsko drago), se aktivira le 8 najboljših strokovnjakov. S tem se drastično zmanjšajo računski stroški, hkrati pa se še vedno izkoristi celotna zmogljivost modela.
Z aktiviranjem le majhne podskupine strokovnjakov DeepSeek doseže učinkovito rabo virov. Model se lahko poveča na zelo veliko velikost (v smislu parametrov), ne da bi se sorazmerno povečalo število izračunov.

Večglava latentna pozornost (MLA) je učinkovit mehanizem, ki združuje prednosti večglave pozornosti in predstavitve latentnega prostora za izboljšanje učinkovitosti in uspešnosti.
Tukaj je opisano, kako deluje v aplikaciji DeepSeek:
- Pri standardni večglavni pozornosti je vhodni podatek razdeljen na več „glav“, od katerih se vsaka nauči osredotočiti na različne vidike podatkov.
- Vhodni podatki (npr. besedilo, slike ali drugi strukturirani podatki) se najprej kodirajo v visokodimenzionalno predstavitev.
- Vhodna predstavitev se s pomočjo naučene transformacije (npr. sloja nevronske mreže) projicira v manjrazsežni latentni prostor.
- Latentna predstavitev se razdeli na več glav, od katerih vsaka izračuna ocene pozornosti v latentnem prostoru. To modelu omogoča, da se učinkovito osredotoči na različne vidike podatkov.
- Z delovanjem v latentnem prostoru MLA zmanjša računske stroške mehanizmov pozornosti, zaradi česar je mogoče obdelovati velike nabore podatkov ali dolga zaporedja.
Kombinacija večglave pozornosti in latentnih predstavitev omogoča modelu, da zajame zapletene vzorce in odnose v podatkih, kar vodi k boljši učinkovitosti pri nalogah, kot so obdelava naravnega jezika, priporočilni sistemi ali analiza podatkov.

Različica napovedovanja več tokenov v storitvi DeepSeek
Napovedovanje več tokenov (MTP) je tehnika, ki se v jezikovnih modelih uporablja za napovedovanje več tokenov (besed ali podbesedil) v zaporedju in ne le naslednjega tokenov. Ta pristop lahko izboljša zmožnost modela, da ustvari koherentno in kontekstualno natančno besedilo, saj model spodbuja k upoštevanju dolgoročnih odvisnosti in strukture v podatkih.
Tukaj je prikazano, kako to deluje v aplikaciji DeepSeek:
- Vhodno zaporedje (npr. stavek ali odstavek) se kodira z uporabo arhitekture, ki temelji na transformatorju, ki zajema kontekstualne informacije o vsakem žetonu v zaporedju.
- Modeli DeepSeek imajo več izhodnih glav, od katerih je vsaka usposobljena za napovedovanje drugega prihodnjega tokena.
- Glava 1 napoveduje naslednji token. Glava 2 napoveduje naslednji token. Glava 3 napoveduje token za dve poziciji naprej.
- V času sklepanja model generira besedilo avtoregresivno, vendar usposabljanje z več glavo zagotavlja, da je vsaka napoved podprta s širšim kontekstom, kar vodi k bolj usklajenemu in natančnemu generiranju besedila.
DeepSeek uporablja napovedovanje z več žetoni za izboljšanje kakovosti svojih jezikovnih modelov, zaradi česar so ti učinkovitejši pri nalogah, kot so generiranje besedil, prevajanje in povzemanje.
Trenutni modeli
Dva najnovejša modela DeepSeek sta DeepSeek-V3, izdan decembra 2024, in DeepSeek-R1, izdan januarja 2025.
Model V3 je neposredni konkurent modelu GPT 4o, model R1 pa lahko primerjamo z modelom o1 podjetja OpenAI:

DeepSeek-V3 je zanesljiva izbira za večino vsakodnevnih opravil, saj lahko odgovori na vprašanja o vseh temah. Odlikuje se z naravno zvenečimi pogovori in prikazom ustvarjalnosti. Ta model je dober za pisanje, ustvarjanje vsebin ali odgovarjanje na splošna vprašanja, na katera je bilo verjetno že večkrat odgovorjeno.
DeepSeek-R1 pa blesti pri zahtevnih nalogah reševanja problemov, logike in postopnega sklepanja. R1 je bil zasnovan za reševanje zahtevnih poizvedb, ki zahtevajo temeljito analizo in strukturirane rešitve. Ta model je odličen za izzive kodiranja in vprašanja, zahtevna z vidika logike.
| Model | Prednosti | Slabosti |
| DeepSeek-V3 | Splošna pomoč pri kodiranju in pojasnjevanje konceptov s preprostejšimi izrazi | Lahko žrtvujete nekaj nišnega strokovnega znanja za vsestranskost |
| Ustvarjalno pisanje z globokim razumevanjem konteksta | Lahko pretirano posplošuje na visoko strokovnih področjih | |
| Primerno za hitro ustvarjanje vsebine | Nima razumskih sposobnosti | |
| DeepSeek-R1 | Lahko opravljate nišne tehnične naloge | Težave s širšim kontekstom ali dvoumnimi poizvedbami |
| Visoka natančnost na specializiranih področjih (na primer matematika ali koda) | Strogi in šablonski rezultati pri ustvarjalnih nalogah | |
| Optimizirano za tehnično pisanje, kot so pravni dokumenti ali akademski povzetki | Manj se prilagaja spremembam sloga in tona |
Oba modela imata podobne tehnične specifikacije:
| DeepSeek-V3 | DeepSeek-R1 | |
| Osnovni model | DeepSeek-V3-Base | DeepSeek-V3-Base |
| Tip | Model za splošne namene | Model utemeljevanja |
| Parametri | 671 milijard (37 milijard aktiviranih) | 671 milijard (37 milijard aktiviranih) |
| Dolžina konteksta | 128 tisoč | 128 tisoč |
Glavna razlika je v njihovem usposabljanju. Tukaj je prikazano, kako je bil DeepSeek-R1 usposobljen za V3:
- Natančna nastavitev ob hladnem zagonu: Namesto da bi model takoj preobremenili z velikimi količinami podatkov, začne z manjšim, visokokakovostnim naborom podatkov, da bi že na začetku izpopolnil svoje odzive.
- Učenje z okrepitvijo brez človeških oznak: DeepSeek-R1 se v nasprotju z V3 v celoti zanaša na RL, kar pomeni, da se uči samostojnega razmišljanja in ne le posnema podatke za usposabljanje.
- Vzorčenje zavrnitve za sintetične podatke: Model ustvari več odgovorov in izbere le najkakovostnejše odgovore za nadaljnje usposabljanje.
- Mešanje nadzorovanih in sintetičnih podatkov: Podatki za usposabljanje združujejo najboljše odgovore, ki jih generira umetna inteligenca, z nadzorovanimi natančno nastavljenimi podatki iz sistema DeepSeek-V3.
- Končni postopek RL: Zadnji krog učenja z ojačitvijo zagotavlja, da se model dobro posplošuje na najrazličnejše pozive in da lahko učinkovito razmišlja o različnih temah.
Zdaj si oglejmo nekaj primerjalnih meril, da vidimo, kako se V3 in R1 primerjata z drugimi priljubljenimi modeli:

AIME 2024 in MATH-500 sta primerjalni testi iz matematike, GPQA Diamond in MMLU sta testa splošnega znanja, Codeforces in SWE-bench Verified pa sta primerjalna testa za kodiranje.
Destilirani modeli DeepSeek
Destilacija v umetni inteligenci je postopek ustvarjanja manjših, učinkovitejših modelov iz večjih, pri čemer se ohrani veliko njihove argumentacijske moči, hkrati pa se zmanjšajo računske zahteve.
Uvajanje modelov V3 in R1 ni praktično za vsakogar, saj zahtevata 8 grafičnih procesorjev NVIDIA H200 s po 141 GB pomnilnika. Zato je podjetje DeepSeek ustvarilo 6 destiliranih modelov z razponom od 1,5 milijarde do 70 milijard parametrov:
- Začeli so s šestimi odprtokodnimi modeli Llama 3.1/3.3 in Qwen 2.5.
- Nato so ustvarili 800.000 visokokakovostnih vzorcev sklepanja z uporabo modela R1.
- Nazadnje so na teh sintetičnih podatkih o utemeljevanju natančno uglasili manjše modele.
Tukaj je prikazano, kako se je teh šest modelov odrezalo v ključnih primerjalnih testih, ki so pokazali njihove sposobnosti pri matematiki (AIME 2024 in MATH-500), splošnem znanju (GPQA Diamond) in kodiranju (LiveCode Bench in CodeForces):

Po pričakovanjih so se z večanjem števila parametrov rezultati izboljševali. Najmanjši model z 1,5 milijarde parametrov se je odrezal najslabše, največji model s 70 milijardami parametrov pa najbolje. Zanimivo je, da je najbolj uravnotežen model videti kot Qwen-32B, ki je skoraj tako dober kot Llama-70B, čeprav ima pol manj parametrov.
Prihodnost podjetja DeepSeek
DeepSeek je v kratkem času dosegel izjemen uspeh in skoraj čez noč pridobil svetovno prepoznavnost. Zdi se, da se je klepetalni robot pojavil od nikoder, vendar obstaja nevarnost, da bo prav tako hitro ugasnil. Dolgoročno ohranjanje prepoznavnosti in zaupanja v blagovno znamko je velik izziv, zlasti na tako zelo konkurenčnem trgu. Tehnološki velikani, kot sta Google in OpenAI, imajo proračune, ki močno presegajo finančna sredstva podjetja DeepSeek, poleg tega pa imajo tudi tehnično prednost.
Ena glavnih ovir, s katerimi se sooča DeepSeek, je računalniška vrzel. V primerjavi s svojimi ameriškimi kolegi je DeepSeek v precej slabšem položaju glede računske moči. To vrzel še povečuje ameriški izvozni nadzor nad naprednimi čipi, ki podjetju DeepSeek omejuje dostop do najnovejše strojne opreme, potrebne za razvoj in uporabo zmogljivejših modelov umetne inteligence.
Čeprav je podjetje DeepSeek pri svojem delovanju pokazalo impresivno učinkovitost, bi dostop do naprednejših računalniških virov lahko znatno pospešil njegov napredek in okrepil njegovo konkurenčnost v primerjavi s podjetji z večjimi zmogljivostmi. Odpravljanje te računalniške vrzeli je ključnega pomena, da bi DeepSeek lahko razširil svoje inovacije in se uveljavil kot močnejši tekmec na svetovnem prizorišču.
Kljub temu pa je pomembno, da se slika ni preveč črna, saj je DeepSeek že dosegel nekaj izjemnega. Podjetje je dokazalo, da je tudi z omejenimi sredstvi mogoče ustvariti izdelek svetovnega razreda - nekaj, za kar so mnogi verjeli, da je dosegljivo le z milijardnimi proračuni in ogromno infrastrukturo. Uspeh podjetja DeepSeek bo verjetno navdihnil nešteto drugih in še pospešil že tako hiter razvoj tehnologij umetne inteligence.