DeepSeek: A mesterséges intelligencia új fejezete
A DeepSeek egy igazi jelenség. Alig néhány nappal a megjelenése után a kínai chatbot az Apple App Store legtöbbet letöltött alkalmazásainak listáján az élre ugrott, letaszítva a ChatGPT-t. Sokak számára sokkoló volt, hogy egy viszonylag ismeretlen, minimális befektetéssel rendelkező vállalat - költségvetése nagyjából 14-szer kisebb, mint az OpenAI-é -, ha csak ideiglenesen is, de megelőzte a vitathatatlan piacvezetőt.
A DeepSeek története
A DeepSeek-et a kínai milliárdos Liang Wengfeng alapította. A Zhejiang Egyetemen tanult Liang 2007-ben mérnöki diplomát szerzett elektronikus információs mérnöki szakon, 2010-ben pedig mérnöki mesterdiplomát információs és kommunikációs mérnöki szakon.
Liang 2008-ban egyetemi évfolyamtársaival egy csapatot hozott létre, hogy a pénzügyi piacokkal kapcsolatos adatokat gyűjtsék össze, és gépi tanulással vizsgálják a kvantitatív kereskedést. 2016 februárjában Liang és két másik mérnök évfolyamtársa közösen alapította meg a High-Flyer nevű vállalatot, amely a mesterséges intelligencia kereskedési algoritmusok (befektetések készítése, a részvényárfolyamokban lévő minták kiszűrése stb.) kihasználására összpontosít.
2023 áprilisában a High-Flyer létrehozott egy mesterséges általános intelligencia laboratóriumot, amely a mesterséges intelligencia eszközeinek fejlesztésére szakosodott, nem a tőzsdei kereskedés végrehajtására használnák. Ez a laboratórium 2023 májusára önálló egységgé vált DeepSeek néven.
2025 januárjában a DeepSeek címlapokra került a DeepSeek-R1, egy 671 milliárd paraméteres nyílt forráskódú következtető mesterséges intelligenciamodell kiadásával. A modell gyorsan népszerűvé vált, és az amerikai Apple App Store első számú ingyenes alkalmazásává vált.

Liang Wengfeng
Főbb mérföldkövek:
- 2016. High-Flyer alapítvány. Ez a kezdetben mesterséges intelligencia kereskedési algoritmusokra összpontosító vállalat fektette le a DeepSeek alapjait.
- 2023. A DeepSeek megalapítása. Áprilisban a High-Flyer alatt mesterséges általános intelligencia laboratóriumként alapították, a DeepSeek májusra függetlenné vált.
- 2025. A DeepSeek-R1 kiadása. Gyorsan világszenzációvá vált, és az egyik legnépszerűbb chatbotként vezette a listákat.
A DeepSeek útja a csúcsra minden volt, csak nem könnyű. A kezdeti időkben a vállalat az Nvidia A100-as grafikus chipekre támaszkodott, amelyeket később az amerikai kormányzat betiltott a Kínába irányuló exportból. A fejlesztők ezután áttértek a kisebb teljesítményű H800-as chipekre, de nem sokkal később ezeket is korlátozták. E kihívások ellenére a DeepSeek-nek sikerült létrehoznia a fejlett R1 modellt mindössze 5,6 millió dollár értékű H800-as chipek felhasználásával. Hogy ezt perspektívába helyezzük, a GPT-4 kiképzése a becslések szerint 50-100 millió dollárba kerül.
„A legnagyobb kihívásunk sosem a pénz volt, hanem a csúcskategóriás chipekre vonatkozó embargó” - mondta Liang.

A DeepSeek jellemzői és kulcsfontosságú technológiái
Sok más népszerű chatrobottal ellentétben a DeepSeek modellek nyílt forráskódúak, ami azt jelenti, hogy a felhasználók felfedezhetik, hogyan működik a technológia a motorháztető alatt. Ez az átláthatóság növeli a bizalmat, mivel biztosítja, hogy a chatbot nem egy titokzatos „fekete doboz” - viselkedése a közösség számára vizsgálható és érthető.
A nyílt forráskódú komponensek lehetővé teszik a fejlesztők és kutatók számára, hogy hozzájáruljanak a fejlesztésekhez, kijavítsák a hibákat, vagy a technológiát egyedi igényekhez igazítsák. Ezért van az, hogy a nyílt forráskódú projektek a közösségi hozzájárulásoknak köszönhetően általában gyorsan fejlődnek. Az új funkciók, fejlesztések és alkalmazások gyorsabban jelennek meg, mint a szabadalmaztatott rendszerek esetében.
Néhány fontos technikai megoldás, amelyek a DeepSeek modelleket a lehető leghatékonyabbá teszik:
- MoE (Mixture of Experts)
- MLA (Multi-head Latent Attention)
- MTP (Multi-Token Prediction)

A szakértők keveréke (Mixture of Experts, MoE) egy olyan gépi tanulási technika, amely több speciális modell (a „szakértők”) előrejelzéseinek kombinálásával javítja a chatbot általános teljesítményét.
Íme, hogyan működik ez a DeepSeek-ben:
- A DeepSeek valószínűleg 256 specializált neurális hálózatból (szakértő) álló, nagyméretű készlettel rendelkezik. Minden egyes szakértő egy kisebb modell, amelyet az adatokban található konkrét minták vagy jellemzők kezelésére képeztek ki. Például a természetes nyelvi feldolgozásban az egyik szakértő specializálódhat a szintaktikára, egy másik a szemantikára, egy másik a tartományspecifikus tudásra stb.
- Egy kapuzóhálózat dönti el, hogy mely szakértőket aktiválja az egyes bemeneti tokenekre. Kiértékeli a bemenetet, és súlyokat rendel a szakértőkhöz, kiválasztva az aktuális token szempontjából legrelevánsabb 8 szakértőt. Ez biztosítja, hogy az összes szakértőnek mindig csak egy kis részhalmaza kerül felhasználásra.
- Ahelyett, hogy minden egyes tokenre mind a 256 szakértőt lefuttatná (ami számításigényes lenne), csak a 8 legjobb szakértőt aktiválja. Ez drasztikusan csökkenti a számítási költségeket, miközben a modell teljes kapacitását kihasználja.
Azáltal, hogy a DeepSeek a szakértőknek csak egy kis részhalmazát aktiválja, erőforrás-hatékonyságot ér el. A modell nagyon nagy méretre skálázható (a paraméterek tekintetében) a számítási kapacitás arányos növekedése nélkül.

A többfejű látens figyelem (MLA) egy olyan hatékony mechanizmus, amely a hatékonyság és a teljesítmény javítása érdekében egyesíti a többfejű figyelem és a látens tér reprezentációk erősségeit.
Íme, hogyan működik a DeepSeek-ben:
- A hagyományos többfejű figyelemben a bemenetet több „fejre” osztjuk, amelyek mindegyike megtanul az adatok különböző aspektusaira összpontosítani.
- A bemeneti adatokat (pl. szöveget, képeket vagy más strukturált adatokat) először egy magas dimenziós reprezentációba kódoljuk.
- A bemeneti reprezentációt egy megtanult transzformáció (pl. egy neurális hálózati réteg) segítségével egy alacsonyabb dimenziós látens térbe vetítik.
- A látens reprezentációt több fejre osztják fel, amelyek mindegyike figyelempontszámokat számol a látens térben. Ez lehetővé teszi, hogy a modell hatékonyan összpontosítson az adatok különböző aspektusaira.
- A látens térben való működéssel az MLA csökkenti a figyelemmechanizmusok számítási költségeit, így nagy adathalmazok vagy hosszú szekvenciák feldolgozása is megvalósíthatóvá válik.
A többfejű figyelem és a látens reprezentációk kombinációja lehetővé teszi, hogy a modell megragadja az adatokban lévő összetett mintázatokat és kapcsolatokat, ami jobb teljesítményt eredményez olyan feladatokban, mint a természetes nyelvi feldolgozás, az ajánlórendszerek vagy az adatelemzés.

A Multi-Token Prediction változata a DeepSeek-ben
A multi-token predikció (MTP) egy olyan technika, amelyet a nyelvi modellekben használnak, hogy a következő token helyett több tokent (szavakat vagy részszavakat) jelezzenek előre a szekvenciában. Ez a megközelítés javíthatja a modell azon képességét, hogy összefüggő és kontextuálisan pontos szöveget generáljon, mivel arra ösztönzi a modellt, hogy figyelembe vegye az adatok hosszabb távú függőségeit és struktúráját.
Íme, hogyan működik ez a DeepSeek-ben:
- A bemeneti szekvenciát (pl. egy mondatot vagy bekezdést) egy transzformátor-alapú architektúra segítségével kódoljuk, amely a szekvencia minden egyes tokenjéről kontextuális információt rögzít.
- A DeepSeek modellek több kimeneti fejjel rendelkeznek, amelyek mindegyike egy másik jövőbeli token előrejelzésére van betanítva.
- Az 1. fej a következő tokent jósolja. A 2. fej az azt követő tokent jelzi előre. A 3. fej a két pozícióval korábbi jelet jelzi előre.
- Következtetéskor a modell autoregresszív módon generál szöveget, de a több tokenre történő képzés biztosítja, hogy minden egyes előrejelzéshez szélesebb kontextus álljon rendelkezésre, ami koherensebb és pontosabb szöveggenerálást eredményez.
A DeepSeek a multi-token predikciót alkalmazza a nyelvi modellek minőségének javítására, így hatékonyabbá teszi azokat az olyan feladatokban, mint a szöveggenerálás, fordítás és összegzés.
Jelenlegi modellek
A DeepSeek két legújabb modellje a 2024 decemberében megjelent DeepSeek-V3 és a 2025 januárjában megjelent DeepSeek-R1.
A V3 a GPT 4o közvetlen versenytársa, míg az R1 az OpenAI o1 modelljéhez hasonlítható:

A DeepSeek-V3 megbízható választás a legtöbb mindennapi feladatra, bármilyen témájú kérdésre képes válaszolni. A természetes hangzású beszélgetésekben és a kreativitás bemutatásában is tündököl. Ez a modell jól használható íráshoz, tartalomkészítéshez, vagy olyan általános kérdések megválaszolásához, amelyekre valószínűleg már sokszor válaszoltak.
A DeepSeek-R1 ezzel szemben az összetett problémamegoldási, logikai és lépésről lépésre történő érvelési feladatokban tündököl. Az R1-et olyan kihívást jelentő lekérdezések megoldására tervezték, amelyek alapos elemzést és strukturált megoldásokat igényelnek. Ez a modell kiválóan alkalmas kódolási kihívásokhoz és logikailag nehéz kérdésekhez.
| Modell | Erősségek | Gyengeségek |
| DeepSeek-V3 | Általános kódolási segítségnyújtás és a fogalmak egyszerűbb nyelven történő elmagyarázása | Feláldozhat némi szaktudást a sokoldalúságért |
| Kreatív írás a kontextus mély megértésével | Túlságosan általánosíthat nagyon technikai területeken | |
| Jól alkalmas gyors tartalomgenerálásra | Hiányzik az érvelési képesség | |
| DeepSeek-R1 | Képes speciális műszaki feladatok ellátására | Nehézségek a tágabb kontextusú vagy kétértelmű lekérdezéseknél |
| Nagy pontosság speciális területeken (például matematika vagy kódolás) | Merev és sablonos teljesítmény a kreatív feladatokban | |
| Optimalizált műszaki íráshoz, például jogi dokumentumokhoz vagy tudományos összefoglalókhoz. | Kevésbé alkalmazkodik a stílus- és hangszínváltozásokhoz |
Mindkét modell hasonló műszaki jellemzőkkel rendelkezik:
| DeepSeek-V3 | DeepSeek-R1 | |
| Alapmodell | DeepSeek-V3-Base | DeepSeek-V3-Base |
| Típus | Általános célú modell | Érvelési modell |
| Paraméterek | 671 milliárd (37 milliárd aktivált) | 671 milliárd (37 milliárd aktivált) |
| Kontextus hossza | 128 ezer | 128 ezer |
A legfontosabb különbség a képzésükben van. Íme, hogyan képezték ki a DeepSeek-R1-et a V3-on:
- Hidegindítás finomhangolás: Ahelyett, hogy rögtön nagy mennyiségű adattal terhelnénk a modellt, egy kisebb, jó minőségű adatkészlettel kezdjük, hogy a válaszait már a kezdetektől fogva finomítsuk.
- Erősítéses tanulás emberi címkék nélkül: A V3-mal ellentétben a DeepSeek-R1 teljes mértékben az RL-re támaszkodik, ami azt jelenti, hogy ahelyett, hogy csak a képzési adatokat utánozná, önállóan tanul meg érvelni.
- Elutasító mintavételezés szintetikus adatokhoz: A modell többféle választ generál, és csak a legjobb minőségű válaszokat választja ki a további képzéshez.
- A felügyelt és szintetikus adatok keverése: A képzési adatok egyesítik a legjobb mesterséges intelligencia által generált válaszokat a DeepSeek-V3 felügyelt, finomhangolt adataival.
- Végső RL-folyamat: A megerősítő tanulás utolsó fordulója biztosítja, hogy a modell jól általánosítható legyen a legkülönfélébb kérésekhez, és hatékonyan tudjon érvelni a különböző témakörökben.
Most nézzünk meg néhány benchmarkot, hogy lássuk, hogyan viszonyul a V3 és az R1 más népszerű modellekhez:

Az AIME 2024 és a MATH-500 matematikai benchmarkok, a GPQA Diamond és az MMLU általános ismeretek tesztjei, végül pedig a Codeforces és a SWE-bench Verified kódolási benchmarkok.
DeepSeek modellek
A mesterséges intelligenciában a disztilláció az a folyamat, amelynek során nagyobb modellekből kisebb, hatékonyabb modelleket hoznak létre, megőrizve azok érvelési erejének nagy részét, miközben csökkentik a számítási igényeket.
A V3 és az R1 telepítése nem mindenki számára praktikus, mivel ezekhez 8 NVIDIA H200 GPU-ra van szükség, egyenként 141 GB memóriával. Ezért a DeepSeek 6 desztillált modellt hozott létre, amelyek 1,5 milliárd és 70 milliárd paraméter között mozognak:
- A Llama 3.1/3.3 és a Qwen 2.5 hat nyílt forráskódú modelljéből indultak ki.
- Ezután 800 000 kiváló minőségű érvelési mintát generáltak az R1 segítségével.
- Végül pedig ezeken a szintetikus érvelési adatokon finomhangolták a kisebb modelleket.
Íme, hogyan teljesített ez a hat modell a legfontosabb benchmarkokban, bizonyítva képességeiket matematikában (AIME 2024 és MATH-500), általános ismeretekben (GPQA Diamond) és kódolásban (LiveCode Bench és CodeForces):

Ahogy a paraméterek száma nőtt, az eredmények is javultak. A legkisebb, 1,5 milliárd paramétert tartalmazó modell teljesített a legrosszabbul, míg a legnagyobb, 70 milliárd paramétert tartalmazó modell a legjobban. Érdekes módon a legkiegyensúlyozottabb modellnek a Qwen-32B tűnik, amely majdnem olyan jó, mint a Llama-70B, bár feleannyi paramétere van.
A DeepSeek jövője
A DeepSeek rövid idő alatt figyelemre méltó sikereket ért el, szinte egyik napról a másikra globális elismerést szerzett. A chatbot a semmiből tűnt fel, de fennáll a veszélye, hogy ugyanolyan gyorsan elhalványulhat. A márka láthatóságának és bizalmának hosszú távú fenntartása jelentős kihívás, különösen egy ilyen erősen versenyző piacon. Az olyan technológiai óriások, mint a Google és az OpenAI költségvetése messze meghaladja a DeepSeek pénzügyi forrásait, és technikai előnyük is van.
Az egyik legnagyobb akadály, amellyel a DeepSeek szembesül, a számítási szakadék. Amerikai társaihoz képest a DeepSeek jelentős hátrányban van a számítási teljesítmény tekintetében. Ezt a lemaradást súlyosbítja a fejlett chipekre vonatkozó amerikai exportellenőrzés, amely korlátozza a DeepSeek hozzáférését az erősebb mesterséges intelligencia modellek fejlesztéséhez és alkalmazásához szükséges legújabb hardverekhez.
Bár a DeepSeek lenyűgöző hatékonyságot mutatott a működése során, a fejlettebb számítási erőforrásokhoz való hozzáférés jelentősen felgyorsíthatná a fejlődését, és erősíthetné versenyképességét a nagyobb képességekkel rendelkező vállalatokkal szemben. E számítási szakadék megszüntetése kulcsfontosságú a DeepSeek számára, hogy innovációit kiterjessze, és erősebb versenyzőként jelenjen meg a globális színtéren.
Ennek ellenére fontos, hogy ne fessünk túlságosan borús képet, mert a DeepSeek már most is figyelemre méltó eredményeket ért el. A vállalat bebizonyította, hogy még korlátozott erőforrásokkal is lehetséges világszínvonalú terméket létrehozni - sokan azt hitték, hogy ez csak milliárd dolláros költségvetéssel és hatalmas infrastruktúrával érhető el. A DeepSeek sikere valószínűleg számtalan másikat is inspirálni fog, és tovább gyorsítja a mesterséges intelligencia technológiák amúgy is gyors fejlődését.