DeepSeek: Een nieuw hoofdstuk in kunstmatige intelligentie
DeepSeek is een waar fenomeen. Slechts enkele dagen na de lancering schoot de Chinese chatbot omhoog naar de top van de meest gedownloade apps in de Apple App Store en onttroonde ChatGPT. Voor velen was het een schok dat een relatief onbekend bedrijf met minimale investeringen - het budget is ruwweg 14 keer kleiner dan dat van OpenAI - erin slaagde om de onbetwiste marktleider voorbij te streven, al was het maar tijdelijk.
Geschiedenis van DeepSeek
DeepSeek werd opgericht door de Chinese miljardair Liang Wengfeng. Liang studeerde aan de Zhejiang University en behaalde in 2007 een Bachelor of Engineering in elektronische informatietechniek en in 2010 een Master of Engineering in informatie- en communicatietechniek.
In 2008 vormde Liang een team met zijn klasgenoten aan de universiteit om gegevens over financiële markten te verzamelen en kwantitatieve handel te onderzoeken met behulp van machine learning. In februari 2016 richtte Liang samen met twee andere studiegenoten High-Flyer op, een bedrijf dat zich richt op het gebruik van kunstmatige intelligentie voor handelsalgoritmen (beleggen, patronen in aandelenprijzen opsporen, enz.)
In april 2023 richtte High-Flyer een laboratorium voor kunstmatige algemene intelligentie op dat zich richtte op de ontwikkeling van hulpmiddelen voor kunstmatige intelligentie die niet zouden worden gebruikt voor aandelenhandel. In mei 2023 werd dit lab een onafhankelijke entiteit met de naam DeepSeek.
In januari 2025 kwam DeepSeek in het nieuws met de release van DeepSeek-R1, een open-source redenerend KI-model met 671 miljard parameters. Het model won snel aan populariteit en werd de nummer één gratis app in de Amerikaanse Apple App Store.

Liang Wengfeng
Belangrijkste mijlpalen:
- 2016. Stichting High-Flyer. Dit bedrijf dat zich aanvankelijk richtte op KI-handelsalgoritmen legde de basis voor DeepSeek.
- 2023. Oprichting DeepSeek. In april opgericht als een laboratorium voor kunstmatige algemene intelligentie onder High-Flyer, wordt DeepSeek in mei onafhankelijk.
- 2025. DeepSeek-R1 release. Het werd al snel een wereldwijde sensatie en voerde de hitlijsten aan als een van de populairste chatbots.
De weg van DeepSeek naar de top was allesbehalve gemakkelijk. In de begindagen vertrouwde het bedrijf op Nvidia A100 grafische chips, die later door de Amerikaanse regering werden verboden voor export naar China. Ontwikkelaars stapten toen over op de minder krachtige H800-chips, maar ook die werden kort daarna aan banden gelegd. Ondanks deze uitdagingen slaagde DeepSeek erin om zijn geavanceerde R1-model te maken met slechts 5,6 miljoen dollar aan H800-chips. Om dat in perspectief te plaatsen, de kosten voor het trainen van GPT-4 worden geschat op 50-100 miljoen dollar.
“Onze grootste uitdaging is nooit geld geweest, het is het embargo op chips uit het topsegment,” heeft Liang gezegd.

DeepSeek functies en belangrijkste technologieën
In tegenstelling tot veel andere populaire chatbots zijn DeepSeek-modellen open-source, wat betekent dat gebruikers kunnen onderzoeken hoe de technologie onder de motorkap werkt. Deze transparantie bouwt vertrouwen op, omdat het ervoor zorgt dat de chatbot geen mysterieuze “zwarte doos” is - het gedrag kan worden onderzocht en begrepen door de gemeenschap.
Open-source componenten stellen ontwikkelaars en onderzoekers in staat om verbeteringen aan te brengen, bugs op te lossen of de technologie aan te passen voor specifieke behoeften. Daarom evolueren open-source projecten snel dankzij de bijdragen van de gemeenschap. Je ziet nieuwe functies, verbeteringen en toepassingen sneller verschijnen dan bij propriëtaire systemen.
Enkele van de belangrijke technische oplossingen die ervoor zorgen dat DeepSeek-modellen zo efficiënt mogelijk werken:
- MoE (Mixture of Experts)
- MLA (Multi-head Latent Attention)
- MTP (Multi-Token Prediction)

Mixture of Experts (MoE) is een machine-learningtechniek waarbij de voorspellingen van meerdere gespecialiseerde modellen (de “experts”) worden gecombineerd om de algehele prestaties van de chatbot te verbeteren.
Dit is hoe het werkt in DeepSeek:
- DeepSeek heeft waarschijnlijk een grote pool van 256 gespecialiseerde neurale netwerken (experts). Elke expert is een kleiner model dat is getraind om specifieke patronen of kenmerken in de gegevens te verwerken. Bijvoorbeeld, in natuurlijke taalverwerking kan een expert gespecialiseerd zijn in syntaxis, een ander in semantiek, weer een ander in domeinspecifieke kennis, enz.
- Een gating netwerk beslist welke experts geactiveerd moeten worden voor elk input token. Het evalueert de invoer en kent gewichten toe aan de experts, waarbij het de top 8 experts selecteert die het meest relevant zijn voor het huidige token. Dit zorgt ervoor dat slechts een kleine subset van het totale aantal experts op elk gegeven moment wordt gebruikt.
- In plaats van alle 256 experts voor elk token te gebruiken (wat rekenkundig duur zou zijn), worden alleen de top 8 experts geactiveerd. Dit verlaagt de computerkosten drastisch, terwijl de volledige capaciteit van het model wordt benut.
Door slechts een kleine subset van experts te activeren, bereikt DeepSeek een efficiënt gebruik van hulpbronnen. Het model kan worden opgeschaald naar een zeer grote omvang (in termen van parameters) zonder een evenredige toename in berekening.

Multi-head Latent Attention (MLA) is een krachtig mechanisme dat de sterke punten van multi-head aandacht en latente ruimte representaties combineert om de efficiëntie en prestaties te verbeteren.
Dit is hoe het werkt in DeepSeek:
- Bij standaard multi-head aandacht wordt de invoer opgesplitst in meerdere “hoofden”, die elk leren zich te concentreren op verschillende aspecten van de gegevens.
- De invoergegevens (bijvoorbeeld tekst, afbeeldingen of andere gestructureerde gegevens) worden eerst gecodeerd in een hoogdimensionale weergave.
- De invoerrepresentatie wordt geprojecteerd in een lager-dimensionale latente ruimte met behulp van een aangeleerde transformatie (bijvoorbeeld een neurale netwerklaag).
- De latente representatie wordt opgesplitst in meerdere koppen, die elk aandachtsscores berekenen in de latente ruimte. Hierdoor kan het model zich efficiënt richten op verschillende aspecten van de gegevens.
- Door te werken in een latente ruimte vermindert MLA de computationele kosten van aandachtsmechanismen, waardoor het haalbaar wordt om grote datasets of lange reeksen te verwerken.
De combinatie van multi-head aandacht en latente representaties stelt het model in staat om complexe patronen en relaties in de gegevens vast te leggen, wat leidt tot betere prestaties bij taken zoals natuurlijke taalverwerking, aanbevelingssystemen of gegevensanalyse.

Variant van voorspelling met meerdere tokens in DeepSeek
MTP (Multi-token prediction) is een techniek die wordt gebruikt in taalmodellen om meerdere tokens (woorden of subwoorden) vooruit te voorspellen in een sequentie, in plaats van alleen het volgende token. Deze aanpak kan het vermogen van het model om coherente en contextueel accurate tekst te genereren verbeteren, omdat het model wordt aangemoedigd om rekening te houden met afhankelijkheden en structuur in de gegevens op de langere termijn.
Dit is hoe het werkt in DeepSeek:
- De inputsequentie (bijv. een zin of alinea) wordt gecodeerd met behulp van een op transformatoren gebaseerde architectuur, die contextuele informatie over elk token in de sequentie vastlegt.
- DeepSeek modellen hebben meerdere uitvoerkoppen, elk getraind om een ander toekomstig token te voorspellen.
- Kop 1 voorspelt het volgende token. Kop 2 voorspelt het token daarna. Kop 3 voorspelt het teken twee posities verder.
- Bij inferentie genereert het model tekst op autoregressieve wijze, maar de multi-token training zorgt ervoor dat elke voorspelling wordt geïnformeerd door een bredere context, wat leidt tot meer coherente en nauwkeurige tekstgeneratie.
DeepSeek past multi-token voorspelling toe om de kwaliteit van zijn taalmodellen te verbeteren, waardoor ze effectiever worden in taken zoals tekstgeneratie, vertaling en samenvatting.
Huidige modellen
Twee van de meest recente DeepSeek-modellen zijn DeepSeek-V3, uitgebracht in december 2024, en DeepSeek-R1, uitgebracht in januari 2025.
V3 is een directe concurrent van GPT 4o, terwijl R1 kan worden vergeleken met OpenAI's o1-model:

DeepSeek-V3 is een betrouwbare keuze voor de meeste dagelijkse taken en kan vragen over elk onderwerp beantwoorden. Het blinkt uit in het voeren van natuurlijk klinkende gesprekken en het tonen van creativiteit. Dit model is goed voor schrijven, het maken van inhoud of het beantwoorden van algemene vragen die waarschijnlijk al vele malen eerder zijn beantwoord.
DeepSeek-R1 daarentegen blinkt uit als het gaat om complexe probleemoplossing, logica en stapsgewijze redeneringstaken. R1 is ontworpen om uitdagende zoekopdrachten aan te pakken die een grondige analyse en gestructureerde oplossingen vereisen. Dit model is geweldig voor coderingsuitdagingen en logicavragen.
| Model | Sterke punten | Zwakke punten |
| DeepSeek-V3 | Algemene hulp bij codering en uitleg van concepten in eenvoudigere termen | Kan sommige niche-expertise opofferen voor veelzijdigheid |
| Creatief schrijven met diepgaand begrip van de context | Kan overgeneraliseren in zeer technische domeinen | |
| Zeer geschikt voor het snel genereren van inhoud | Gebrek aan redeneervermogen | |
| DeepSeek-R1 | Kan niche technische taken aan | Moeite met bredere context of dubbelzinnige vragen |
| Hoge nauwkeurigheid in gespecialiseerde domeinen (bijvoorbeeld wiskunde of code) | Rigide en formulematige uitvoer in creatieve taken | |
| Geoptimaliseerd voor technisch schrijven, zoals juridische documenten of academische samenvattingen | Minder aanpasbaar aan veranderingen in stijl en toon |
Beide modellen hebben vergelijkbare technische specificaties:
| DeepSeek-V3 | DeepSeek-R1 | |
| Basismodel | DeepSeek-V3-Base | DeepSeek-V3-Base |
| Type | Model voor algemene doeleinden | Redeneermodel |
| Parameters | 671 miljard (37 miljard geactiveerd) | 671 miljard (37 miljard geactiveerd) |
| Contextlengte | 128 duizend | 128 duizend |
Het belangrijkste verschil zit in hun training. Dit is hoe DeepSeek-R1 werd getraind op V3:
- Koude start fijnafstelling: In plaats van het model meteen te overweldigen met grote hoeveelheden gegevens, begint het met een kleinere dataset van hoge kwaliteit om zijn reacties vanaf het begin te verfijnen.
- Versterkingsleren zonder menselijke labels: In tegenstelling tot V3 vertrouwt DeepSeek-R1 volledig op RL, wat betekent dat het zelfstandig leert redeneren in plaats van alleen trainingsgegevens na te bootsen.
- Sampling van afwijzingen voor synthetische gegevens: Het model genereert meerdere antwoorden en alleen de beste antwoorden worden geselecteerd om zichzelf verder te trainen.
- Combinatie van gesuperviseerde en synthetische gegevens: De trainingsgegevens voegen de beste door AI gegenereerde antwoorden samen met de gecontroleerde, verfijnde gegevens van DeepSeek-V3.
- Laatste RL-proces: Een laatste ronde van versterkend leren zorgt ervoor dat het model goed generaliseert naar een grote verscheidenheid aan prompts en effectief kan redeneren over verschillende onderwerpen.
Laten we nu eens kijken naar enkele benchmarks om te zien hoe zowel V3 als R1 zich verhouden tot andere populaire modellen:

AIME 2024 en MATH-500 zijn wiskundebenchmarks, GPQA Diamond en MMLU zijn algemene kennistests en Codeforces en SWE-bench Verified zijn coderingsbenchmarks.
Gedistilleerde DeepSeek-modellen
Distillatie in kunstmatige intelligentie is het proces van het creëren van kleinere, efficiëntere modellen uit grotere modellen, waarbij veel van hun redeneerkracht behouden blijft en er minder rekenkracht nodig is.
Het inzetten van V3 en R1 is niet voor iedereen praktisch, omdat hiervoor 8 NVIDIA H200 GPU's met elk 141 GB geheugen nodig zijn. Daarom heeft DeepSeek 6 gedistilleerde modellen gemaakt, variërend van 1,5 miljard tot 70 miljard parameters:
- Ze begonnen met zes open-source modellen van Llama 3.1/3.3 en Qwen 2.5.
- Vervolgens genereerden ze 800.000 hoogwaardige redeneervoorbeelden met behulp van R1.
- En ten slotte verfijnden ze de kleinere modellen op deze synthetische redeneergegevens.
Dit is hoe deze zes modellen het deden in belangrijke benchmarks, waarbij ze hun vaardigheden demonstreerden op het gebied van wiskunde (AIME 2024 en MATH-500), algemene kennis (GPQA Diamond) en codering (LiveCode Bench en CodeForces):

Het is voorspelbaar dat de resultaten verbeterden naarmate het aantal parameters toenam. Het kleinste model met 1,5 miljard parameters presteerde het slechtst, terwijl het grootste model met 70 miljard parameters het beste presteerde. Vreemd genoeg lijkt het meest gebalanceerde model op Qwen-32B, dat bijna net zo goed is als Llama-70B, hoewel het half zoveel parameters heeft.
De toekomst van DeepSeek
DeepSeek heeft in korte tijd een opmerkelijk succes geboekt en bijna van de ene op de andere dag wereldwijde erkenning gekregen. De chatbot leek uit het niets te verschijnen, maar het risico bestaat dat hij net zo snel weer verdwijnt. De zichtbaarheid en het vertrouwen van een merk op de lange termijn behouden is een grote uitdaging, vooral in zo'n sterk concurrerende markt. Techgiganten als Google en OpenAI hebben budgetten die veel groter zijn dan de financiële middelen van DeepSeek en ze hebben ook een technische voorsprong.
Een van de grootste obstakels voor DeepSeek is de computerkloof. Vergeleken met zijn Amerikaanse tegenhangers heeft DeepSeek een aanzienlijk nadeel wat rekenkracht betreft. Deze achterstand wordt nog vergroot door Amerikaanse exportcontroles op geavanceerde chips, waardoor DeepSeek minder toegang heeft tot de nieuwste hardware die nodig is om krachtigere KI-modellen te ontwikkelen en in te zetten.
Hoewel DeepSeek een indrukwekkende efficiëntie in zijn activiteiten heeft laten zien, zou toegang tot geavanceerdere rekenhulpmiddelen zijn vooruitgang aanzienlijk kunnen versnellen en zijn concurrentiepositie ten opzichte van bedrijven met grotere capaciteiten kunnen versterken. Het dichten van deze computerkloof is van cruciaal belang voor DeepSeek om zijn innovaties op te schalen en zich te vestigen als een sterkere mededinger op het wereldtoneel.
Toch is het belangrijk om geen al te somber beeld te schetsen, want DeepSeek heeft al iets opmerkelijks bereikt. Het bedrijf heeft bewezen dat het zelfs met beperkte middelen mogelijk is om een product van wereldklasse te maken - iets waarvan velen dachten dat het alleen haalbaar was met miljardenbudgetten en een enorme infrastructuur. Het succes van DeepSeek zal waarschijnlijk talloze anderen inspireren en de toch al snelle vooruitgang van KI-technologieën verder versnellen.