Zpět na hlavní stránku

DeepSeek: Nová kapitola v umělé inteligenci

DeepSeek je skutečný fenomén. Jen několik dní po svém vydání se čínský chatbot vyšplhal na vrchol nejstahovanějších aplikací v Apple App Store a sesadil z trůnu ChatGPT. Pro mnohé bylo šokem, že relativně neznámá společnost s minimálními investicemi - její rozpočet je zhruba 14krát menší než rozpočet OpenAI - dokázala předstihnout, byť jen dočasně, nesporného lídra trhu.

Historie společnosti DeepSeek

Společnost DeepSeek založil čínský miliardář Liang Wengfeng. Liang získal vzdělání na Zhejiang University, v roce 2007 získal bakalářský titul v oboru elektronického informačního inženýrství a v roce 2010 magisterský titul v oboru informačního a komunikačního inženýrství.

V roce 2008 Liang vytvořil se svými spolužáky z univerzity tým, který shromažďoval data týkající se finančních trhů a zkoumal kvantitativní obchodování pomocí strojového učení. V únoru 2016 Liang spolu s dalšími dvěma spolužáky z inženýrského oboru založil společnost High-Flyer, která se zaměřuje na využití umělé inteligence pro obchodní algoritmy (provádění investic, rozpoznávání vzorců v cenách akcií atd.).

V dubnu 2023 společnost High-Flyer založila laboratoř umělé obecné inteligence, která se věnuje vývoji nástrojů umělé inteligence, které by se nepoužívaly k provádění obchodování s akciemi. V květnu 2023 se tato laboratoř stala samostatným subjektem s názvem DeepSeek.

V lednu 2025 se společnost DeepSeek dostala na titulní stránky novin, když vydala DeepSeek-R1, model uvažující umělé inteligence s otevřeným zdrojovým kódem o 671 miliardách parametrů. Model si rychle získal popularitu a stal se první bezplatnou aplikací v americkém Apple App Store.

Liang Wengfeng

Liang Wengfeng

Hlavní milníky:

  • 2016. Nadace High-Flyer. Tato společnost původně zaměřená na algoritmy obchodování s umělou inteligencí položila základy společnosti DeepSeek.
  • 2023. Založení společnosti DeepSeek. Společnost DeepSeek byla založena v dubnu jako laboratoř umělé obecné inteligence pod společností High-Flyer a v květnu se osamostatnila.
  • 2025. Vydání softwaru DeepSeek-R1. Rychle se stal celosvětovou senzací a obsadil první příčky žebříčků jako jeden z nejoblíbenějších chatbotů.

Cesta DeepSeeku na vrchol nebyla nijak snadná. Ve svých začátcích se společnost spoléhala na grafické čipy Nvidia A100, jejichž vývoz do Číny později americká administrativa zakázala. Vývojáři pak přešli na méně výkonné čipy H800, ale i ty byly brzy poté omezeny. I přes tyto problémy se společnosti DeepSeek podařilo vytvořit svůj pokročilý model R1 s použitím čipů H800 v hodnotě pouhých 5,6 milionu dolarů. Pro představu, náklady na výcvik GPT-4 se odhadují na 50-100 milionů dolarů.

„Naší největší výzvou nikdy nebyly peníze, ale embargo na špičkové čipy,“ řekl Liang.aid.

DeepSeek R1

Funkce a klíčové technologie DeepSeek

Na rozdíl od mnoha jiných populárních chatbotů jsou modely DeepSeek open-source, což znamená, že uživatelé mohou zkoumat, jak technologie funguje pod kapotou. Tato transparentnost buduje důvěru, protože zajišťuje, že chatbot není tajemnou „černou skříňkou“ - jeho chování může komunita zkoumat a pochopit.

Komponenty s otevřeným zdrojovým kódem umožňují vývojářům a výzkumným pracovníkům přispívat ke zlepšení, opravovat chyby nebo přizpůsobovat technologii konkrétním potřebám. Proto mají open-source projekty tendenci se díky příspěvkům komunity rychle vyvíjet. Nové funkce, vylepšení a aplikace se objevují rychleji než u proprietárních systémů.

Některá důležitá technická řešení, díky nimž modely DeepSeek fungují co nejefektivněji:

  • MoE (Mixture of Experts)
  • MLA (Multi-head Latent Attention)
  • MTP (Multi-Token Prediction)
MoE (Mixture of Experts)

Mixture of Experts (MoE) je technika strojového učení, která zahrnuje kombinaci předpovědí několika specializovaných modelů („expertů“) s cílem zlepšit celkový výkon chatbota.

Zde je popsáno, jak funguje v aplikaci DeepSeek:

  • DeepSeek pravděpodobně disponuje velkým fondem 256 specializovaných neuronových sítí (expertů). Každý expert je menší model vycvičený pro zpracování specifických vzorů nebo funkcí v datech. Například při zpracování přirozeného jazyka se jeden expert může specializovat na syntax, jiný na sémantiku, další na znalosti specifické pro danou oblast atd.
  • O tom, které experty aktivovat pro každý vstupní token, rozhoduje bránící síť. Vyhodnotí vstup a přiřadí váhy expertům, přičemž vybere 8 nejlepších expertů, kteří jsou pro aktuální token nejrelevantnější. Tím je zajištěno, že v daném okamžiku je použita pouze malá podmnožina všech expertů.
  • Místo toho, aby se pro každý token spustilo všech 256 expertů (což by bylo výpočetně náročné), aktivuje se pouze 8 nejlepších expertů. Tím se výrazně sníží výpočetní náklady a zároveň se využije plná kapacita modelu.

Aktivací pouze malé podmnožiny expertů dosahuje DeepSeek efektivního využití zdrojů. Model lze škálovat na velmi velkou velikost (z hlediska parametrů) bez úměrného nárůstu výpočetních nákladů.

MLA (Multi-head Latent Attention)

Latentní pozornost s více hlavami (MLA) je výkonný mechanismus, který kombinuje silné stránky pozornosti s více hlavami a reprezentace latentního prostoru, aby se zvýšila efektivita a výkonnost.

Zde je popsáno, jak funguje v systému DeepSeek:

  • Při standardní vícehlavé pozornosti je vstup rozdělen do několika „hlav“, z nichž každá se učí zaměřovat na různé aspekty dat.
  • Vstupní data (např. text, obrázky nebo jiná strukturovaná data) jsou nejprve zakódována do vysokorozměrné reprezentace.
  • Vstupní reprezentace je promítnuta do méně rozměrného latentního prostoru pomocí naučené transformace (např. vrstvy neuronové sítě).
  • Latentní reprezentace je rozdělena do několika hlav, z nichž každá počítá skóre pozornosti v latentním prostoru. To umožňuje modelu efektivně se zaměřit na různé aspekty dat.
  • Tím, že MLA pracuje v latentním prostoru, snižuje výpočetní náklady mechanismů pozornosti, což umožňuje zpracovávat velké soubory dat nebo dlouhé sekvence.

Kombinace vícehlavé pozornosti a latentní reprezentace umožňuje modelu zachytit složité vzorce a vztahy v datech, což vede k lepšímu výkonu v úlohách, jako je zpracování přirozeného jazyka, doporučovací systémy nebo analýza dat.

Varianta predikce více tokenů v aplikaci DeepSeek

Varianta predikce více tokenů v aplikaci DeepSeek

Predikce více tokenů je technika používaná v jazykových modelech k předpovídání více tokenů (slov nebo podhesel) před sebou v sekvenci, nikoli pouze následujícího tokenu. Tento přístup může zlepšit schopnost modelu generovat souvislý a kontextově přesný text, protože podněcuje model k tomu, aby bral v úvahu dlouhodobější závislosti a strukturu v datech.

Zde je uvedeno, jak to funguje v aplikaci DeepSeek:

  • Vstupní sekvence (např. věta nebo odstavec) je kódována pomocí architektury založené na transformátorech, která zachycuje kontextové informace o každém tokenu v sekvenci.
  • Modely DeepSeek mají více výstupních hlav, z nichž každá je vyškolena k předpovídání jiného budoucího tokenu.
  • Hlava 1 předpovídá následující token. Hlava 2 předpovídá následující token. Hlava 3 předpovídá token o dvě pozice dopředu.
  • V době inference model generuje text autoregresivně, ale trénování více tokenů zajišťuje, že každá predikce je informována širším kontextem, což vede k ucelenějšímu a přesnějšímu generování textu.

DeepSeek používá multi-tokenovou predikci ke zvýšení kvality svých jazykových modelů, díky čemuž jsou efektivnější v úlohách, jako je generování textu, překlad a sumarizace.

Současné modely

Dva nejnovější modely DeepSeek jsou DeepSeek-V3 vydaný v prosinci 2024 a DeepSeek-R1 vydaný v lednu 2025.

Model V3 je přímým konkurentem modelu GPT 4o, zatímco model R1 lze přirovnat k modelu o1 společnosti OpenAI:

GPT 4o, o1, V3, R1

DeepSeek-V3 je spolehlivou volbou pro většinu každodenních úkolů a dokáže odpovědět na otázky na jakékoli téma. Vyniká přirozeně znějícími rozhovory a projevem kreativity. Tento model je vhodný pro psaní, tvorbu obsahu nebo odpovídání na obecné otázky, které již byly pravděpodobně mnohokrát zodpovězeny.

DeepSeek-R1 naopak zazáří při řešení složitých problémů, logických úloh a při uvažování krok za krokem. R1 byl navržen pro řešení náročných dotazů, které vyžadují důkladnou analýzu a strukturované řešení. Tento model je skvělý pro kódovací výzvy a logicky náročné otázky.

ModelSilné stránkySlabé stránky
DeepSeek-V3Obecná pomoc při kódování a vysvětlování pojmů jednoduššími slovyMůže obětovat některé odborné znalosti ve prospěch všestrannosti
 Tvůrčí psaní s hlubokým porozuměním souvislostemMůže příliš zobecňovat ve vysoce odborných oblastech
 Vhodné pro rychlé generování obsahuChybí schopnost uvažování
DeepSeek-R1Zvládne technické úkoly ve výklenkuProblémy s širším kontextem nebo nejednoznačnými dotazy
 Vysoká přesnost ve specializovaných oblastech (například matematika nebo kód)Rigidní a šablonovitý výstup při tvůrčích úkolech
 Optimalizováno pro psaní odborných textů, jako jsou právní dokumenty nebo akademická shrnutíHůře se přizpůsobuje změnám stylu a tónu

Oba modely mají podobné technické parametry:

 DeepSeek-V3DeepSeek-R1
Základní modelDeepSeek-V3-BaseDeepSeek-V3-Base
TypModel pro všeobecné použitíModel uvažování
Parametry671 miliard (37 miliard aktivovaných)671 miliard (37 miliard aktivovaných)
Délka kontextu128 tisíc128 tisíc

Klíčový rozdíl je v jejich výcviku. Zde je uvedeno, jak byl DeepSeek-R1 vyškolen na V3:

  • Doladění při studeném startu: Místo toho, aby byl model hned zahlcen velkým objemem dat, začíná s menším, vysoce kvalitním souborem dat, aby se jeho reakce od začátku zpřesnily.
  • Učení posilováním bez lidských značek: Na rozdíl od V3 se DeepSeek-R1 spoléhá výhradně na RL, což znamená, že se učí samostatně uvažovat, místo aby pouze napodoboval tréninková data.
  • Vzorkování odmítnutí pro syntetická data: Model generuje více odpovědí a pouze nejkvalitnější odpovědi jsou vybrány k dalšímu tréninku.
  • Prolínání supervidovaných a syntetických dat: Tréninková data spojují nejlepší odpovědi vygenerované umělou inteligencí s dozorovanými vyladěnými daty z DeepSeek-V3.
  • Závěrečný proces RL: Závěrečné kolo posilovacího učení zajišťuje, že model se dobře zobecňuje na širokou škálu podnětů a dokáže efektivně uvažovat napříč tématy.

Nyní se podívejme na několik srovnávacích testů, abychom zjistili, jak si modely V3 i R1 vedou ve srovnání s jinými populárními modely:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 a MATH-500 jsou matematické benchmarky, GPQA Diamond a MMLU jsou testy obecných znalostí a Codeforces a SWE-bench Verified jsou kódovací benchmarky.

Destilované modely DeepSeek

Destilace v oblasti umělé inteligence je proces vytváření menších, efektivnějších modelů z větších, přičemž se zachovává velká část jejich argumentační síly a zároveň se snižují výpočetní nároky.

Nasazení modelů V3 a R1 není praktické pro každého, protože vyžadují 8 grafických procesorů NVIDIA H200, každý se 141 GB paměti. Proto společnost DeepSeek vytvořila 6 destilovaných modelů s rozsahem od 1,5 miliardy do 70 miliard parametrů:

  • Vycházeli ze šesti modelů s otevřeným zdrojovým kódem Llama 3.1/3.3 a Qwen 2.5.
  • Poté vygenerovali 800 000 vysoce kvalitních vzorků uvažování pomocí R1.
  • A nakonec na těchto syntetických rozumových datech doladili menší modely.

Zde je uvedeno, jak si těchto šest modelů vedlo v klíčových srovnávacích testech, které prokázaly jejich schopnosti v matematice (AIME 2024 a MATH-500), obecných znalostech (GPQA Diamond) a kódování (LiveCode Bench a CodeForces):

Destilované modely DeepSeek-R1 v benchmarcích

S rostoucím počtem parametrů se výsledky předvídatelně zlepšovaly. Nejhorší výsledky měl nejmenší model s 1,5 miliardy parametrů, zatímco nejlepší výsledky měl největší model se 70 miliardami parametrů. Zajímavé je, že nejvyváženěji vypadá model Qwen-32B, který je téměř stejně dobrý jako Llama-70B, přestože má o polovinu méně parametrů.

Budoucnost DeepSeek

Společnost DeepSeek dosáhla v krátké době pozoruhodného úspěchu a téměř přes noc získala celosvětové uznání. Chatbot se zdánlivě objevil z ničeho nic, ale existuje riziko, že by mohl stejně rychle zaniknout. Udržet si dlouhodobě viditelnost a důvěru značky je značná výzva, zejména na tak vysoce konkurenčním trhu. Technologičtí giganti jako Google a OpenAI mají rozpočty, které daleko převyšují finanční zdroje společnosti DeepSeek, a navíc mají technický náskok.

Jednou z hlavních překážek, kterým společnost DeepSeek čelí, je nedostatek výpočetní techniky. Ve srovnání se svými americkými protějšky je DeepSeek z hlediska výpočetního výkonu značně znevýhodněn. Tuto propast ještě prohlubují americké kontroly vývozu pokročilých čipů, které omezují přístup společnosti DeepSeek k nejnovějšímu hardwaru potřebnému k vývoji a nasazení výkonnějších modelů umělé inteligence.

Ačkoli společnost DeepSeek vykazuje při své činnosti působivou efektivitu, přístup k pokročilejším výpočetním zdrojům by mohl výrazně urychlit její pokrok a posílit její konkurenceschopnost vůči společnostem s většími schopnostmi. Překlenutí této výpočetní mezery je pro společnost DeepSeek klíčové, aby mohla rozšířit své inovace a prosadit se jako silnější uchazeč na globální scéně.

Přesto je důležité, abychom si nemalovali příliš chmurný obrázek, protože společnost DeepSeek již dosáhla něčeho pozoruhodného. Společnost dokázala, že i s omezenými zdroji je možné vytvořit produkt světové úrovně - něco, o čem se mnozí domnívali, že je dosažitelné pouze s miliardovými rozpočty a obrovskou infrastrukturou. Úspěch společnosti DeepSeek pravděpodobně inspiruje nespočet dalších a dále urychlí již tak rychlý vývoj technologií umělé inteligence.