DeepSeek: A mesterséges intelligencia új fejezete

A DeepSeek egy igazi jelenség. Alig néhány nappal a megjelenése után a kínai chatbot az Apple App Store legtöbbet letöltött alkalmazásainak listáján az élre ugrott, letaszítva a ChatGPT-t. Sokak számára sokkoló volt, hogy egy viszonylag ismeretlen, minimális befektetéssel rendelkező vállalat - költségvetése nagyjából 14-szer kisebb, mint az OpenAI-é -, ha csak ideiglenesen is, de megelőzte a vitathatatlan piacvezetőt.

A DeepSeek története

A DeepSeek-et a kínai milliárdos Liang Wengfeng alapította. A Zhejiang Egyetemen tanult Liang 2007-ben mérnöki diplomát szerzett elektronikus információs mérnöki szakon, 2010-ben pedig mérnöki mesterdiplomát információs és kommunikációs mérnöki szakon.

Liang 2008-ban egyetemi évfolyamtársaival egy csapatot hozott létre, hogy a pénzügyi piacokkal kapcsolatos adatokat gyűjtsék össze, és gépi tanulással vizsgálják a kvantitatív kereskedést. 2016 februárjában Liang és két másik mérnök évfolyamtársa közösen alapította meg a High-Flyer nevű vállalatot, amely a mesterséges intelligencia kereskedési algoritmusok (befektetések készítése, a részvényárfolyamokban lévő minták kiszűrése stb.) kihasználására összpontosít.

2023 áprilisában a High-Flyer létrehozott egy mesterséges általános intelligencia laboratóriumot, amely a mesterséges intelligencia eszközeinek fejlesztésére szakosodott, nem a tőzsdei kereskedés végrehajtására használnák. Ez a laboratórium 2023 májusára önálló egységgé vált DeepSeek néven.

2025 januárjában a DeepSeek címlapokra került a DeepSeek-R1, egy 671 milliárd paraméteres nyílt forráskódú következtető mesterséges intelligenciamodell kiadásával. A modell gyorsan népszerűvé vált, és az amerikai Apple App Store első számú ingyenes alkalmazásává vált.

Liang Wengfeng

Főbb mérföldkövek:

2016. High-Flyer alapítvány. Ez a kezdetben mesterséges intelligencia kereskedési algoritmusokra összpontosító vállalat fektette le a DeepSeek alapjait.
2023. A DeepSeek megalapítása. Áprilisban a High-Flyer alatt mesterséges általános intelligencia laboratóriumként alapították, a DeepSeek májusra függetlenné vált.
2025. A DeepSeek-R1 kiadása. Gyorsan világszenzációvá vált, és az egyik legnépszerűbb chatbotként vezette a listákat.

A DeepSeek útja a csúcsra minden volt, csak nem könnyű. A kezdeti időkben a vállalat az Nvidia A100-as grafikus chipekre támaszkodott, amelyeket később az amerikai kormányzat betiltott a Kínába irányuló exportból. A fejlesztők ezután áttértek a kisebb teljesítményű H800-as chipekre, de nem sokkal később ezeket is korlátozták. E kihívások ellenére a DeepSeek-nek sikerült létrehoznia a fejlett R1 modellt mindössze 5,6 millió dollár értékű H800-as chipek felhasználásával. Hogy ezt perspektívába helyezzük, a GPT-4 kiképzése a becslések szerint 50-100 millió dollárba kerül.

„A legnagyobb kihívásunk sosem a pénz volt, hanem a csúcskategóriás chipekre vonatkozó embargó” - mondta Liang.

A DeepSeek jellemzői és kulcsfontosságú technológiái

Sok más népszerű chatrobottal ellentétben a DeepSeek modellek nyílt forráskódúak, ami azt jelenti, hogy a felhasználók felfedezhetik, hogyan működik a technológia a motorháztető alatt. Ez az átláthatóság növeli a bizalmat, mivel biztosítja, hogy a chatbot nem egy titokzatos „fekete doboz” - viselkedése a közösség számára vizsgálható és érthető.

A nyílt forráskódú komponensek lehetővé teszik a fejlesztők és kutatók számára, hogy hozzájáruljanak a fejlesztésekhez, kijavítsák a hibákat, vagy a technológiát egyedi igényekhez igazítsák. Ezért van az, hogy a nyílt forráskódú projektek a közösségi hozzájárulásoknak köszönhetően általában gyorsan fejlődnek. Az új funkciók, fejlesztések és alkalmazások gyorsabban jelennek meg, mint a szabadalmaztatott rendszerek esetében.

Néhány fontos technikai megoldás, amelyek a DeepSeek modelleket a lehető leghatékonyabbá teszik:

MoE (Mixture of Experts)
MLA (Multi-head Latent Attention)
MTP (Multi-Token Prediction)

A szakértők keveréke (Mixture of Experts, MoE) egy olyan gépi tanulási technika, amely több speciális modell (a „szakértők”) előrejelzéseinek kombinálásával javítja a chatbot általános teljesítményét.

Íme, hogyan működik ez a DeepSeek-ben:

A DeepSeek valószínűleg 256 specializált neurális hálózatból (szakértő) álló, nagyméretű készlettel rendelkezik. Minden egyes szakértő egy kisebb modell, amelyet az adatokban található konkrét minták vagy jellemzők kezelésére képeztek ki. Például a természetes nyelvi feldolgozásban az egyik szakértő specializálódhat a szintaktikára, egy másik a szemantikára, egy másik a tartományspecifikus tudásra stb.
Egy kapuzóhálózat dönti el, hogy mely szakértőket aktiválja az egyes bemeneti tokenekre. Kiértékeli a bemenetet, és súlyokat rendel a szakértőkhöz, kiválasztva az aktuális token szempontjából legrelevánsabb 8 szakértőt. Ez biztosítja, hogy az összes szakértőnek mindig csak egy kis részhalmaza kerül felhasználásra.
Ahelyett, hogy minden egyes tokenre mind a 256 szakértőt lefuttatná (ami számításigényes lenne), csak a 8 legjobb szakértőt aktiválja. Ez drasztikusan csökkenti a számítási költségeket, miközben a modell teljes kapacitását kihasználja.

Azáltal, hogy a DeepSeek a szakértőknek csak egy kis részhalmazát aktiválja, erőforrás-hatékonyságot ér el. A modell nagyon nagy méretre skálázható (a paraméterek tekintetében) a számítási kapacitás arányos növekedése nélkül.

A többfejű látens figyelem (MLA) egy olyan hatékony mechanizmus, amely a hatékonyság és a teljesítmény javítása érdekében egyesíti a többfejű figyelem és a látens tér reprezentációk erősségeit.

Íme, hogyan működik a DeepSeek-ben:

A hagyományos többfejű figyelemben a bemenetet több „fejre” osztjuk, amelyek mindegyike megtanul az adatok különböző aspektusaira összpontosítani.
A bemeneti adatokat (pl. szöveget, képeket vagy más strukturált adatokat) először egy magas dimenziós reprezentációba kódoljuk.
A bemeneti reprezentációt egy megtanult transzformáció (pl. egy neurális hálózati réteg) segítségével egy alacsonyabb dimenziós látens térbe vetítik.
A látens reprezentációt több fejre osztják fel, amelyek mindegyike figyelempontszámokat számol a látens térben. Ez lehetővé teszi, hogy a modell hatékonyan összpontosítson az adatok különböző aspektusaira.
A látens térben való működéssel az MLA csökkenti a figyelemmechanizmusok számítási költségeit, így nagy adathalmazok vagy hosszú szekvenciák feldolgozása is megvalósíthatóvá válik.

A többfejű figyelem és a látens reprezentációk kombinációja lehetővé teszi, hogy a modell megragadja az adatokban lévő összetett mintázatokat és kapcsolatokat, ami jobb teljesítményt eredményez olyan feladatokban, mint a természetes nyelvi feldolgozás, az ajánlórendszerek vagy az adatelemzés.

A Multi-Token Prediction változata a DeepSeek-ben

A multi-token predikció (MTP) egy olyan technika, amelyet a nyelvi modellekben használnak, hogy a következő token helyett több tokent (szavakat vagy részszavakat) jelezzenek előre a szekvenciában. Ez a megközelítés javíthatja a modell azon képességét, hogy összefüggő és kontextuálisan pontos szöveget generáljon, mivel arra ösztönzi a modellt, hogy figyelembe vegye az adatok hosszabb távú függőségeit és struktúráját.

Íme, hogyan működik ez a DeepSeek-ben:

A bemeneti szekvenciát (pl. egy mondatot vagy bekezdést) egy transzformátor-alapú architektúra segítségével kódoljuk, amely a szekvencia minden egyes tokenjéről kontextuális információt rögzít.
A DeepSeek modellek több kimeneti fejjel rendelkeznek, amelyek mindegyike egy másik jövőbeli token előrejelzésére van betanítva.
Az 1. fej a következő tokent jósolja. A 2. fej az azt követő tokent jelzi előre. A 3. fej a két pozícióval korábbi jelet jelzi előre.
Következtetéskor a modell autoregresszív módon generál szöveget, de a több tokenre történő képzés biztosítja, hogy minden egyes előrejelzéshez szélesebb kontextus álljon rendelkezésre, ami koherensebb és pontosabb szöveggenerálást eredményez.

A DeepSeek a multi-token predikciót alkalmazza a nyelvi modellek minőségének javítására, így hatékonyabbá teszi azokat az olyan feladatokban, mint a szöveggenerálás, fordítás és összegzés.

Jelenlegi modellek

A DeepSeek két legújabb modellje a 2024 decemberében megjelent DeepSeek-V3 és a 2025 januárjában megjelent DeepSeek-R1.

A V3 a GPT 4o közvetlen versenytársa, míg az R1 az OpenAI o1 modelljéhez hasonlítható:

A DeepSeek-V3 megbízható választás a legtöbb mindennapi feladatra, bármilyen témájú kérdésre képes válaszolni. A természetes hangzású beszélgetésekben és a kreativitás bemutatásában is tündököl. Ez a modell jól használható íráshoz, tartalomkészítéshez, vagy olyan általános kérdések megválaszolásához, amelyekre valószínűleg már sokszor válaszoltak.

A DeepSeek-R1 ezzel szemben az összetett problémamegoldási, logikai és lépésről lépésre történő érvelési feladatokban tündököl. Az R1-et olyan kihívást jelentő lekérdezések megoldására tervezték, amelyek alapos elemzést és strukturált megoldásokat igényelnek. Ez a modell kiválóan alkalmas kódolási kihívásokhoz és logikailag nehéz kérdésekhez.

Modell	Erősségek	Gyengeségek
DeepSeek-V3	Általános kódolási segítségnyújtás és a fogalmak egyszerűbb nyelven történő elmagyarázása	Feláldozhat némi szaktudást a sokoldalúságért
	Kreatív írás a kontextus mély megértésével	Túlságosan általánosíthat nagyon technikai területeken
	Jól alkalmas gyors tartalomgenerálásra	Hiányzik az érvelési képesség
DeepSeek-R1	Képes speciális műszaki feladatok ellátására	Nehézségek a tágabb kontextusú vagy kétértelmű lekérdezéseknél
	Nagy pontosság speciális területeken (például matematika vagy kódolás)	Merev és sablonos teljesítmény a kreatív feladatokban
	Optimalizált műszaki íráshoz, például jogi dokumentumokhoz vagy tudományos összefoglalókhoz.	Kevésbé alkalmazkodik a stílus- és hangszínváltozásokhoz

Mindkét modell hasonló műszaki jellemzőkkel rendelkezik:

	DeepSeek-V3	DeepSeek-R1
Alapmodell	DeepSeek-V3-Base	DeepSeek-V3-Base
Típus	Általános célú modell	Érvelési modell
Paraméterek	671 milliárd (37 milliárd aktivált)	671 milliárd (37 milliárd aktivált)
Kontextus hossza	128 ezer	128 ezer

A legfontosabb különbség a képzésükben van. Íme, hogyan képezték ki a DeepSeek-R1-et a V3-on:

Hidegindítás finomhangolás: Ahelyett, hogy rögtön nagy mennyiségű adattal terhelnénk a modellt, egy kisebb, jó minőségű adatkészlettel kezdjük, hogy a válaszait már a kezdetektől fogva finomítsuk.
Erősítéses tanulás emberi címkék nélkül: A V3-mal ellentétben a DeepSeek-R1 teljes mértékben az RL-re támaszkodik, ami azt jelenti, hogy ahelyett, hogy csak a képzési adatokat utánozná, önállóan tanul meg érvelni.
Elutasító mintavételezés szintetikus adatokhoz: A modell többféle választ generál, és csak a legjobb minőségű válaszokat választja ki a további képzéshez.
A felügyelt és szintetikus adatok keverése: A képzési adatok egyesítik a legjobb mesterséges intelligencia által generált válaszokat a DeepSeek-V3 felügyelt, finomhangolt adataival.
Végső RL-folyamat: A megerősítő tanulás utolsó fordulója biztosítja, hogy a modell jól általánosítható legyen a legkülönfélébb kérésekhez, és hatékonyan tudjon érvelni a különböző témakörökben.

Most nézzünk meg néhány benchmarkot, hogy lássuk, hogyan viszonyul a V3 és az R1 más népszerű modellekhez:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

Az AIME 2024 és a MATH-500 matematikai benchmarkok, a GPQA Diamond és az MMLU általános ismeretek tesztjei, végül pedig a Codeforces és a SWE-bench Verified kódolási benchmarkok.

DeepSeek modellek

A mesterséges intelligenciában a disztilláció az a folyamat, amelynek során nagyobb modellekből kisebb, hatékonyabb modelleket hoznak létre, megőrizve azok érvelési erejének nagy részét, miközben csökkentik a számítási igényeket.

A V3 és az R1 telepítése nem mindenki számára praktikus, mivel ezekhez 8 NVIDIA H200 GPU-ra van szükség, egyenként 141 GB memóriával. Ezért a DeepSeek 6 desztillált modellt hozott létre, amelyek 1,5 milliárd és 70 milliárd paraméter között mozognak:

A Llama 3.1/3.3 és a Qwen 2.5 hat nyílt forráskódú modelljéből indultak ki.
Ezután 800 000 kiváló minőségű érvelési mintát generáltak az R1 segítségével.
Végül pedig ezeken a szintetikus érvelési adatokon finomhangolták a kisebb modelleket.

Íme, hogyan teljesített ez a hat modell a legfontosabb benchmarkokban, bizonyítva képességeiket matematikában (AIME 2024 és MATH-500), általános ismeretekben (GPQA Diamond) és kódolásban (LiveCode Bench és CodeForces):

DeepSeek-R1 desztillált modellek benchmarkokban

Ahogy a paraméterek száma nőtt, az eredmények is javultak. A legkisebb, 1,5 milliárd paramétert tartalmazó modell teljesített a legrosszabbul, míg a legnagyobb, 70 milliárd paramétert tartalmazó modell a legjobban. Érdekes módon a legkiegyensúlyozottabb modellnek a Qwen-32B tűnik, amely majdnem olyan jó, mint a Llama-70B, bár feleannyi paramétere van.

A DeepSeek jövője

A DeepSeek rövid idő alatt figyelemre méltó sikereket ért el, szinte egyik napról a másikra globális elismerést szerzett. A chatbot a semmiből tűnt fel, de fennáll a veszélye, hogy ugyanolyan gyorsan elhalványulhat. A márka láthatóságának és bizalmának hosszú távú fenntartása jelentős kihívás, különösen egy ilyen erősen versenyző piacon. Az olyan technológiai óriások, mint a Google és az OpenAI költségvetése messze meghaladja a DeepSeek pénzügyi forrásait, és technikai előnyük is van.

Az egyik legnagyobb akadály, amellyel a DeepSeek szembesül, a számítási szakadék. Amerikai társaihoz képest a DeepSeek jelentős hátrányban van a számítási teljesítmény tekintetében. Ezt a lemaradást súlyosbítja a fejlett chipekre vonatkozó amerikai exportellenőrzés, amely korlátozza a DeepSeek hozzáférését az erősebb mesterséges intelligencia modellek fejlesztéséhez és alkalmazásához szükséges legújabb hardverekhez.

Bár a DeepSeek lenyűgöző hatékonyságot mutatott a működése során, a fejlettebb számítási erőforrásokhoz való hozzáférés jelentősen felgyorsíthatná a fejlődését, és erősíthetné versenyképességét a nagyobb képességekkel rendelkező vállalatokkal szemben. E számítási szakadék megszüntetése kulcsfontosságú a DeepSeek számára, hogy innovációit kiterjessze, és erősebb versenyzőként jelenjen meg a globális színtéren.

Ennek ellenére fontos, hogy ne fessünk túlságosan borús képet, mert a DeepSeek már most is figyelemre méltó eredményeket ért el. A vállalat bebizonyította, hogy még korlátozott erőforrásokkal is lehetséges világszínvonalú terméket létrehozni - sokan azt hitték, hogy ez csak milliárd dolláros költségvetéssel és hatalmas infrastruktúrával érhető el. A DeepSeek sikere valószínűleg számtalan másikat is inspirálni fog, és tovább gyorsítja a mesterséges intelligencia technológiák amúgy is gyors fejlődését.