DeepSeek: Nová kapitola v umelej inteligencii
DeepSeek je skutočný fenomén. Len niekoľko dní po svojom vydaní sa čínsky chatbot dostal na vrchol rebríčka najsťahovanejších aplikácií v Apple App Store a zosadil z trónu ChatGPT. Pre mnohých bolo šokom, že relatívne neznáma spoločnosť s minimálnymi investíciami - jej rozpočet je približne 14-krát menší ako rozpočet OpenAI - dokázala predbehnúť, aj keď len dočasne, nesporného lídra na trhu.
História spoločnosti DeepSeek
Spoločnosť DeepSeek založil čínsky miliardár Liang Wengfeng. Liang vyštudoval na Zhejiangskej univerzite, v roku 2007 získal bakalársky titul v oblasti elektronického informačného inžinierstva a v roku 2010 magisterský titul v oblasti informačného a komunikačného inžinierstva.
V roku 2008 Liang vytvoril so svojimi spolužiakmi z univerzity tím, ktorý zhromažďoval údaje týkajúce sa finančných trhov a skúmal kvantitatívne obchodovanie pomocou strojového učenia. Vo februári 2016 Liang spolu s ďalšími dvoma spolužiakmi z inžinierskeho štúdia spoluzaložil spoločnosť High-Flyer, ktorá sa zameriava na využívanie umelej inteligencie pre obchodné algoritmy (realizácia investícií, rozpoznávanie vzorov v cenách akcií atď.)
V apríli 2023 spoločnosť High-Flyer založila laboratórium umelej všeobecnej inteligencie, ktoré sa venuje vývoju nástrojov umelej inteligencie by sa nepoužívalo na vykonávanie obchodovania s akciami. V máji 2023 sa toto laboratórium stalo nezávislým subjektom s názvom DeepSeek.
V januári 2025 sa spoločnosť DeepSeek dostala na titulné stránky novín vydaním modelu DeepSeek-R1, ktorý má 671 miliárd parametrov a je otvoreným zdrojovým kódom uvažujúcej umelej inteligencie. Model si rýchlo získal popularitu a stal sa bezplatnou aplikáciou číslo jeden v americkom obchode Apple App Store.

Liang Wengfeng
Kľúčové míľniky:
- 2016. Nadácia High-Flyer. Táto spoločnosť pôvodne zameraná na algoritmy obchodovania s umelou inteligenciou položila základy spoločnosti DeepSeek.
- 2023. Založenie spoločnosti DeepSeek. Spoločnosť DeepSeek bola založená v apríli ako laboratórium umelej všeobecnej inteligencie v rámci spoločnosti High-Flyer a v máji sa osamostatnila.
- 2025. Vydanie softvéru DeepSeek-R1. Rýchlo sa stal celosvetovou senzáciou a dostal sa na vrchol rebríčkov ako jeden z najpopulárnejších chatbotov.
Cesta DeepSeek na vrchol bola všetko, len nie jednoduchá. Vo svojich začiatkoch sa spoločnosť spoliehala na grafické čipy Nvidia A100, ktorých vývoz do Číny neskôr zakázala americká administratíva. Vývojári potom prešli na menej výkonné čipy H800, ale aj tie boli čoskoro obmedzené. Napriek týmto problémom sa spoločnosti DeepSeek podarilo vytvoriť svoj pokročilý model R1 s použitím čipov H800 v hodnote len 5,6 milióna dolárov. Pre porovnanie, náklady na výcvik GPT-4 sa odhadujú na 50 až 100 miliónov dolárov.
„Našou najväčšou výzvou nikdy neboli peniaze, ale embargo na špičkové čipy,“ povedal Liang.

Funkcie a kľúčové technológie DeepSeek
Na rozdiel od mnohých iných populárnych chatbotov sú modely DeepSeek s otvoreným zdrojovým kódom, čo znamená, že používatelia môžu preskúmať, ako technológia funguje pod kapotou. Táto transparentnosť buduje dôveru, pretože zaručuje, že chatbot nie je záhadná „čierna skrinka“ - jeho správanie môže komunita preskúmať a pochopiť.
Komponenty s otvoreným zdrojovým kódom umožňujú vývojárom a výskumníkom prispievať k zlepšeniam, opravovať chyby alebo prispôsobovať technológiu konkrétnym potrebám. Preto majú open-source projekty tendenciu rýchlo sa vyvíjať vďaka príspevkom komunity. Nové funkcie, vylepšenia a aplikácie sa objavujú rýchlejšie ako v prípade proprietárnych systémov.
Niektoré z dôležitých technických riešení, vďaka ktorým modely DeepSeek fungujú čo najefektívnejšie:
- MoE (Mixture of Experts)
- MLA (Multi-head Latent Attention)
- MTP (Multi-Token Prediction)

Mixture of Experts (MoE) je technika strojového učenia, ktorá zahŕňa kombináciu predpovedí viacerých špecializovaných modelov („expertov“) s cieľom zlepšiť celkový výkon chatbota.
Tu sa dozviete, ako funguje v aplikácii DeepSeek:
- DeepSeek má pravdepodobne veľký fond 256 špecializovaných neurónových sietí (expertov). Každý expert je menší model vycvičený na spracovanie špecifických vzorov alebo funkcií v údajoch. Napríklad pri spracovaní prirodzeného jazyka sa jeden expert môže špecializovať na syntax, iný na sémantiku, ďalší na špecifické doménové znalosti atď.
- Sieť brány rozhoduje o tom, ktorí experti sa aktivujú pre každý vstupný token. Vyhodnocuje vstup a priraďuje váhy expertom, pričom vyberá 8 najlepších expertov, ktorí sú pre aktuálny token najrelevantnejší. Tým sa zabezpečí, že v danom čase sa použije len malá podmnožina všetkých expertov.
- Namiesto spustenia všetkých 256 expertov pre každý token (čo by bolo výpočtovo náročné) sa aktivuje len 8 najlepších expertov. Tým sa drasticky znižujú výpočtové náklady a zároveň sa stále využíva plná kapacita modelu.
Aktiváciou len malej podmnožiny expertov dosahuje DeepSeek efektívnosť využívania zdrojov. Model možno škálovať na veľmi veľkú veľkosť (z hľadiska parametrov) bez úmerného zvýšenia výpočtovej náročnosti.

Latentná pozornosť s viacerými hlavami (MLA) je výkonný mechanizmus, ktorý kombinuje silné stránky pozornosti s viacerými hlavami a reprezentácie latentného priestoru s cieľom zlepšiť efektívnosť a výkonnosť.
Tu sa dozviete, ako funguje v aplikácii DeepSeek:
- Pri štandardnej pozornosti viacerých hláv je vstup rozdelený do viacerých „hláv“, z ktorých každá sa učí zamerať na rôzne aspekty údajov.
- Vstupné údaje (napr. text, obrázky alebo iné štruktúrované údaje) sa najprv zakódujú do vysokorozmernej reprezentácie.
- Vstupná reprezentácia sa premietne do menej rozmerného latentného priestoru pomocou naučenej transformácie (napr. vrstvy neurónovej siete).
- Latentná reprezentácia sa rozdelí na viacero hláv, z ktorých každá vypočíta skóre pozornosti v latentnom priestore. To umožňuje modelu efektívne sa zamerať na rôzne aspekty údajov.
- Tým, že MLA pracuje v latentnom priestore, znižuje výpočtové náklady mechanizmov pozornosti, vďaka čomu je možné spracovať veľké súbory údajov alebo dlhé sekvencie.
Kombinácia viachlavej pozornosti a latentných reprezentácií umožňuje modelu zachytiť komplexné vzory a vzťahy v údajoch, čo vedie k lepšiemu výkonu pri úlohách, ako je spracovanie prirodzeného jazyka, odporúčacie systémy alebo analýza údajov.

Variant predikcie viacerých tokenov v DeepSeek
Predpovedanie viacerých tokenov (MTP) je technika používaná v jazykových modeloch na predpovedanie viacerých tokenov (slov alebo podhesiel) v poradí, a nie len nasledujúceho tokenu. Tento prístup môže zlepšiť schopnosť modelu generovať súvislý a kontextovo presný text, pretože podporuje model, aby zohľadňoval dlhodobejšie závislosti a štruktúru v údajoch.
Tu sa dozviete, ako to funguje v aplikácii DeepSeek:
- Vstupná sekvencia (napr. veta alebo odsek) sa kóduje pomocou architektúry založenej na transformátore, ktorá zachytáva kontextové informácie o každom tokene v sekvencii.
- Modely DeepSeek majú viacero výstupných hláv, z ktorých každá je vyškolená na predpovedanie iného budúceho tokenu.
- Hlava 1 predpovedá nasledujúci token. Hlava 2 predpovedá nasledujúci token. Hlava 3 predpovedá token o dve pozície dopredu.
- V čase inferencie model generuje text autoregresívne, ale trénovanie viacerých tokenov zabezpečuje, že každá predikcia je informovaná širším kontextom, čo vedie k súvislejšiemu a presnejšiemu generovaniu textu.
DeepSeek používa predikciu viacerých tokenov na zvýšenie kvality svojich jazykových modelov, vďaka čomu sú efektívnejšie pri úlohách, ako je generovanie textu, preklad a sumarizácia.
Súčasné modely
Dva z najnovších modelov DeepSeek sú DeepSeek-V3 vydaný v decembri 2024 a DeepSeek-R1 vydaný v januári 2025.
Model V3 je priamym konkurentom modelu GPT 4o, zatiaľ čo model R1 možno porovnať s modelom o1 spoločnosti OpenAI:

DeepSeek-V3 je spoľahlivá voľba na väčšinu každodenných úloh, ktorá dokáže odpovedať na otázky na akúkoľvek tému. Zažiari pri vedení prirodzene znejúcich rozhovorov a prezentovaní kreativity. Tento model je vhodný na písanie, tvorbu obsahu alebo odpovedanie na všeobecné otázky, ktoré už boli pravdepodobne mnohokrát zodpovedané.
DeepSeek-R1, naopak, zažiari, keď ide o komplexné úlohy na riešenie problémov, logiku a postupné uvažovanie. R1 bol navrhnutý na riešenie náročných otázok, ktoré si vyžadujú dôkladnú analýzu a štruktúrované riešenia. Tento model je skvelý na kódovacie úlohy a otázky náročné na logiku.
| Model | Silné stránky | Slabé stránky |
| DeepSeek-V3 | Všeobecná pomoc pri kódovaní a vysvetľovanie pojmov jednoduchším spôsobom | Môže obetovať niektoré odborné znalosti v prospech univerzálnosti |
| Tvorivé písanie s hlbokým porozumením kontextu | Môže príliš zovšeobecňovať vo vysoko odborných oblastiach | |
| Vhodné na rýchle generovanie obsahu | Chýba schopnosť uvažovania | |
| DeepSeek-R1 | Dokáže zvládnuť špecializované technické úlohy | Problémy so širším kontextom alebo nejednoznačnými otázkami |
| Vysoká presnosť v špecializovaných oblastiach (napríklad matematika alebo kód) | Rigidný a šablónovitý výstup pri tvorivých úlohách | |
| Optimalizované pre technické písanie, ako sú právne dokumenty alebo akademické zhrnutia | Menšia prispôsobivosť zmenám štýlu a tónu |
Oba modely majú podobné technické parametre:
| DeepSeek-V3 | DeepSeek-R1 | |
| Základný model | DeepSeek-V3-Base | DeepSeek-V3-Base |
| Typ | Model na všeobecné použitie | Model uvažovania |
| Parametre | 671 miliárd (37 miliárd aktivovaných) | 671 miliárd (37 miliárd aktivovaných) |
| Dĺžka kontextu | 128 tisíc | 128 tisíc |
Kľúčový rozdiel je v ich výcviku. Tu je spôsob, akým bol DeepSeek-R1 vycvičený na V3:
- Jemné ladenie pri studenom štarte: Namiesto toho, aby model hneď zahltil veľkým objemom údajov, začal s menším, vysokokvalitným súborom údajov, aby hneď od začiatku spresnil svoje reakcie.
- Učenie posilňovania bez ľudských značiek: Na rozdiel od V3 sa DeepSeek-R1 spolieha výlučne na RL, čo znamená, že sa učí samostatne uvažovať namiesto toho, aby len napodobňoval tréningové dáta.
- Vzorkovanie odmietnutia pre syntetické dáta: Model generuje viacero odpovedí a na ďalšie trénovanie sa vyberú len tie najkvalitnejšie.
- Miešanie supervidovaných a syntetických údajov: Tréningové údaje spájajú najlepšie odpovede vygenerované umelou inteligenciou s dohliadanými vyladenými údajmi z DeepSeek-V3.
- Záverečný proces RL: Záverečné kolo posilneného učenia zabezpečuje, že model sa dobre zovšeobecňuje na širokú škálu podnetov a dokáže efektívne uvažovať v rôznych témach.
Teraz sa pozrime na niekoľko referenčných hodnôt, aby sme zistili, ako sa modely V3 aj R1 dajú porovnať s inými populárnymi modelmi:

AIME 2024 a MATH-500 sú matematické benchmarky, GPQA Diamond a MMLU sú všeobecné vedomostné testy a Codeforces a SWE-bench Verified sú kódovacie benchmarky.
Distribuované modely DeepSeek
Destilácia v umelej inteligencii je proces vytvárania menších, efektívnejších modelov z väčších, pričom sa zachováva veľká časť ich argumentačnej sily a zároveň sa znižujú výpočtové nároky.
Nasadenie modelov V3 a R1 nie je praktické pre každého, pretože si vyžadujú 8 grafických procesorov NVIDIA H200, každý so 141 GB pamäte. Preto spoločnosť DeepSeek vytvorila 6 destilovaných modelov s rozsahom od 1,5 miliardy do 70 miliárd parametrov:
- Začali so šiestimi modelmi s otvoreným zdrojovým kódom Llama 3.1/3.3 a Qwen 2.5.
- Potom vygenerovali 800 000 vysokokvalitných vzoriek uvažovania pomocou R1.
- A nakoniec na týchto syntetických údajoch o uvažovaní doladili menšie modely.
Tu sa dozviete, ako si týchto šesť modelov počínalo v kľúčových porovnávacích testoch, v ktorých preukázali svoje schopnosti v matematike (AIME 2024 a MATH-500), všeobecných znalostiach (GPQA Diamond) a kódovaní (LiveCode Bench a CodeForces):

S rastúcim počtom parametrov sa výsledky predvídateľne zlepšovali. Najmenší model s 1,5 miliardy parametrov dosiahol najhoršie výsledky, zatiaľ čo najväčší model so 70 miliardami parametrov dosiahol najlepšie výsledky. Zaujímavé je, že najvyváženejší model vyzerá ako Qwen-32B, ktorý je takmer rovnako dobrý ako Llama-70B, hoci má o polovicu menej parametrov.
Budúcnosť DeepSeek
DeepSeek dosiahol v krátkom čase pozoruhodný úspech a takmer cez noc získal celosvetové uznanie. Chatbot sa zdanlivo objavil z ničoho nič, ale existuje riziko, že by mohol rovnako rýchlo zaniknúť. Udržať si dlhodobo viditeľnosť a dôveru značky je značná výzva, najmä na takomto vysoko konkurenčnom trhu. Technologickí giganti ako Google a OpenAI majú rozpočty, ktoré ďaleko prevyšujú finančné zdroje spoločnosti DeepSeek, a majú aj technický náskok.
Jednou z hlavných prekážok, ktorým spoločnosť DeepSeek čelí, je nedostatok výpočtovej kapacity. V porovnaní so svojimi americkými kolegami je DeepSeek výrazne znevýhodnený z hľadiska výpočtového výkonu. Túto priepasť prehlbujú americké kontroly vývozu pokročilých čipov, ktoré obmedzujú prístup spoločnosti DeepSeek k najnovšiemu hardvéru potrebnému na vývoj a nasadenie výkonnejších modelov umelej inteligencie.
Hoci spoločnosť DeepSeek preukázala pôsobivú efektívnosť svojej činnosti, prístup k pokročilejším výpočtovým zdrojom by mohol výrazne urýchliť jej pokrok a posilniť jej konkurencieschopnosť voči spoločnostiam s väčšími schopnosťami. Odstránenie tejto výpočtovej medzery je pre spoločnosť DeepSeek kľúčové, aby mohla rozšíriť svoje inovácie a presadiť sa ako silnejší súper na globálnej scéne.
Napriek tomu je dôležité, aby sme si nevytvárali príliš pochmúrny obraz, pretože spoločnosť DeepSeek už dosiahla niečo pozoruhodné. Spoločnosť dokázala, že aj s obmedzenými zdrojmi je možné vytvoriť produkt svetovej úrovne - niečo, o čom sa mnohí domnievali, že je dosiahnuteľné len s miliardovými rozpočtami a obrovskou infraštruktúrou. Úspech spoločnosti DeepSeek pravdepodobne inšpiruje nespočetné množstvo ďalších a ďalej urýchli už aj tak rýchly rozvoj technológií umelej inteligencie.