DeepSeek: Et nyt kapitel i kunstig intelligens

DeepSeek er et sandt fænomen. Bare få dage efter udgivelsen steg den kinesiske chatbot til tops over de mest downloadede apps i Apple App Store og detroniserede ChatGPT. For mange var det et chok, at en relativt ukendt virksomhed med minimale investeringer - dens budget er cirka 14 gange mindre end OpenAI's - formåede at overhale den ubestridte markedsleder, selv om det kun var midlertidigt.

Historien om DeepSeek

DeepSeek blev grundlagt af den kinesiske milliardær Liang Wengfeng. Liang er uddannet på Zhejiang University og fik en bachelorgrad i elektronisk informationsteknologi i 2007 og en kandidatgrad i informations- og kommunikationsteknologi i 2010.

I 2008 dannede Liang et team med sine klassekammerater på universitetet for at samle data om finansmarkederne og udforske kvantitativ handel ved hjælp af maskinlæring. I februar 2016 var Liang og to andre studiekammerater med til at grundlægge High-Flyer, en virksomhed med fokus på at udnytte kunstig intelligens til handelsalgoritmer (foretage investeringer, spotte mønstre i aktiekurser osv.).

I april 2023 etablerede High-Flyer et laboratorium for kunstig generel intelligens, der var dedikeret til at udvikle værktøjer til kunstig intelligens, som ikke skulle bruges til aktiehandel. I maj 2023 blev dette laboratorium en uafhængig enhed ved navn DeepSeek.

I januar 2025 skabte DeepSeek overskrifter med udgivelsen af DeepSeek-R1, en 671-milliarder-parameter open source ræsonnerende KI-model. Modellen blev hurtigt populær og blev den første gratis app på den amerikanske Apple App Store.

Liang Wengfeng

Vigtige milepæle:

2016. High-Flyer-fundamentet. Denne virksomhed, der oprindeligt fokuserede på KI-handelsalgoritmer, lagde grunden til DeepSeek.
2023. Grundlæggelse af DeepSeek. DeepSeek blev grundlagt i april som et laboratorium for kunstig generel intelligens under High-Flyer og blev uafhængig i maj.
2025. Udgivelse af DeepSeek-R1. Den blev hurtigt en verdensomspændende sensation og toppede hitlisterne som en af de mest populære chatbots.

DeepSeeks rejse til toppen har været alt andet end let. I begyndelsen var virksomheden afhængig af Nvidia A100-grafikchips, som senere blev forbudt at eksportere til Kina af den amerikanske regering. Udviklerne skiftede derefter til de mindre kraftfulde H800-chips, men de blev også begrænset kort tid efter. På trods af disse udfordringer lykkedes det DeepSeek at skabe sin avancerede R1-model ved hjælp af H800-chips til en værdi af kun 5,6 millioner dollars. For at sætte det i perspektiv anslås træning af GPT-4 at koste mellem 50 og 100 millioner dollars.

»Vores største udfordring har aldrig været penge, det er embargoen på avancerede chips,« har Liang sagt.

DeepSeeks funktioner og nøgleteknologier

I modsætning til mange andre populære chatbots er DeepSeek-modellerne open source, hvilket betyder, at brugerne kan udforske, hvordan teknologien fungerer under motorhjelmen. Denne gennemsigtighed skaber tillid, da den sikrer, at chatbotten ikke er en mystisk »sort boks« - dens adfærd kan undersøges og forstås af fællesskabet.

Open source-komponenter gør det muligt for udviklere og forskere at bidrage med forbedringer, rette fejl eller tilpasse teknologien til specifikke behov. Derfor har open source-projekter en tendens til at udvikle sig hurtigt på grund af fællesskabets bidrag. Du vil se nye funktioner, forbedringer og applikationer dukke op hurtigere end med proprietære systemer.

Nogle af de vigtige tekniske løsninger, der får DeepSeek-modeller til at fungere så effektivt som muligt:

MoE (blanding af eksperter)
MLA (latent opmærksomhed i flere hoveder)
MTP (forudsigelse af flere tal)

Mixture of Experts (MoE) er en maskinlæringsteknik, der indebærer at kombinere forudsigelserne fra flere specialiserede modeller (»eksperterne«) for at forbedre chatbottens samlede ydeevne.

Se her, hvordan det fungerer i DeepSeek:

DeepSeek har sandsynligvis en stor pulje på 256 specialiserede neurale netværk (eksperter). Hver ekspert er en mindre model, der er trænet til at håndtere specifikke mønstre eller funktioner i dataene. I naturlig sprogbehandling kan en ekspert f.eks. være specialiseret i syntaks, en anden i semantik, en tredje i domænespecifik viden osv.
Et gating-netværk beslutter, hvilke eksperter der skal aktiveres for hvert input-token. Det evaluerer inputtet og tildeler eksperterne vægte og vælger de 8 eksperter, der er mest relevante for det aktuelle token. Dette sikrer, at kun en lille delmængde af de samlede eksperter bruges på et givet tidspunkt.
I stedet for at køre alle 256 eksperter for hvert token (hvilket ville være beregningsmæssigt dyrt), er det kun de 8 bedste eksperter, der aktiveres. Dette reducerer beregningsomkostningerne drastisk, mens modellens fulde kapacitet stadig udnyttes.

Ved kun at aktivere en lille delmængde af eksperterne opnår DeepSeek ressourceeffektivitet. Modellen kan skaleres til en meget stor størrelse (med hensyn til parametre) uden en proportional stigning i beregningen.

Multi-head Latent Attention (MLA) er en kraftfuld mekanisme, der kombinerer styrkerne ved multihead-opmærksomhed og latent rumrepræsentation for at forbedre effektiviteten og ydeevnen.

Sådan fungerer det i DeepSeek:

I standard multihead-opmærksomhed opdeles inputtet i flere »hoveder«, som hver især lærer at fokusere på forskellige aspekter af dataene.
Inputdataene (f.eks. tekst, billeder eller andre strukturerede data) kodes først til en højdimensionel repræsentation.
Input-repræsentationen projiceres ind i et lavere-dimensionelt latent rum ved hjælp af en indlært transformation (f.eks. et neuralt netværkslag).
Den latente repræsentation opdeles i flere hoveder, som hver især beregner opmærksomhedsscorer i det latente rum. Det gør det muligt for modellen at fokusere på forskellige aspekter af dataene på en effektiv måde.
Ved at operere i et latent rum reducerer MLA beregningsomkostningerne for opmærksomhedsmekanismer, hvilket gør det muligt at behandle store datasæt eller lange sekvenser.

Kombinationen af multihead-opmærksomhed og latente repræsentationer gør det muligt for modellen at indfange komplekse mønstre og relationer i dataene, hvilket fører til bedre resultater i forbindelse med opgaver som naturlig sprogbehandling, anbefalingssystemer eller dataanalyse.

Variant af multi-token-forudsigelse i DeepSeek

Multi-token prediction (MTP) er en teknik, der bruges i sprogmodeller til at forudsige flere tokens (ord eller underordnende ord) fremad i en sekvens i stedet for bare det næste token. Denne tilgang kan forbedre modellens evne til at generere sammenhængende og kontekstuelt nøjagtig tekst, da den tilskynder modellen til at overveje langsigtede afhængigheder og strukturer i dataene.

Sådan fungerer det i DeepSeek:

Inputsekvensen (f.eks. en sætning eller et afsnit) kodes ved hjælp af en transformerbaseret arkitektur, som indfanger kontekstuel information om hvert token i sekvensen.
DeepSeek-modeller har flere output-hoveder, som hver især er trænet til at forudsige et forskelligt fremtidigt token.
Hoved 1 forudsiger det næste token. Hoved 2 forudsiger symbolet efter det. Hoved 3 forudsiger symbolet to positioner længere fremme.
På inferenstidspunktet genererer modellen tekst autoregressivt, men multitoken-træningen sikrer, at hver forudsigelse er informeret af en bredere kontekst, hvilket fører til en mere sammenhængende og præcis tekstgenerering.

DeepSeek anvender multi-token-prædiktion til at forbedre kvaliteten af sine sprogmodeller, hvilket gør dem mere effektive til opgaver som tekstgenerering, oversættelse og opsummering.

Nuværende modeller

To af de nyeste DeepSeek-modeller er DeepSeek-V3, der blev udgivet i december 2024, og DeepSeek-R1, der blev udgivet i januar 2025.

V3 er en direkte konkurrent til GPT 4o, mens R1 kan sammenlignes med OpenAI's o1-model:

DeepSeek-V3 er et pålideligt valg til de fleste hverdagsopgaver og kan svare på spørgsmål om ethvert emne. Den brillerer ved at have naturligt klingende samtaler og fremvise kreativitet. Denne model er god til at skrive, skabe indhold eller besvare generiske spørgsmål, som sandsynligvis er blevet besvaret mange gange før.

DeepSeek-R1 brillerer derimod, når det drejer sig om kompleks problemløsning, logik og trinvise ræsonnementer. R1 er designet til at tackle udfordrende forespørgsler, der kræver grundig analyse og strukturerede løsninger. Denne model er fantastisk til kodningsudfordringer og logiktunge spørgsmål.

Model	Styrker	Svagheder
DeepSeek-V3	Generel hjælp til kodning og forklaring af begreber i enklere termer	Kan ofre noget nicheekspertise for alsidighed
	Kreativ skrivning med dyb forståelse for kontekst	Kan overgeneralisere inden for meget tekniske områder
	Velegnet til hurtig generering af indhold	Mangler evnen til at ræsonnere
DeepSeek-R1	Kan håndtere tekniske nicheopgaver	Kæmper med bredere kontekst eller tvetydige forespørgsler
	Høj nøjagtighed i specialiserede domæner (f.eks. matematik eller kode)	Rigidt og formelagtigt output i kreative opgaver
	Optimeret til teknisk skrivning som f.eks. juridiske dokumenter eller akademiske resuméer	Mindre tilpasningsdygtig til stil- og toneændringer

Begge modeller har lignende tekniske specifikationer:

	DeepSeek-V3	DeepSeek-R1
Basismodel	DeepSeek-V3-Base	DeepSeek-V3-Base
Type	Model til generelle formål	Ræsonnerende model
Parametre	671 milliarder (37 milliarder aktiveret)	671 milliarder (37 milliarder aktiveret)
Kontekstens længde	128 tusind	128 tusind

Den vigtigste forskel ligger i deres træning. Her er, hvordan DeepSeek-R1 blev trænet på V3:

Finjustering i den kolde start: I stedet for at overvælde modellen med store datamængder med det samme, begynder den med et mindre datasæt af høj kvalitet for at forfine sine svar fra starten.
Forstærkningslæring uden menneskelige etiketter: I modsætning til V3 er DeepSeek-R1 helt afhængig af RL, hvilket betyder, at den lærer at ræsonnere uafhængigt i stedet for bare at efterligne træningsdata.
Afvisningssampling for syntetiske data: Modellen genererer flere svar, og kun de bedste svar udvælges til at træne sig selv yderligere.
Blanding af overvågede og syntetiske data: Træningsdataene fusionerer de bedste AI-genererede svar med de overvågede finjusterede data fra DeepSeek-V3.
Endelig RL-proces: En sidste runde med forstærkningslæring sikrer, at modellen generaliserer godt til en lang række spørgsmål og kan ræsonnere effektivt på tværs af emner.

Lad os nu se på nogle benchmarks for at se, hvordan både V3 og R1 klarer sig i forhold til andre populære modeller:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 og MATH-500 er matematikbenchmarks, GPQA Diamond og MMLU er generelle videnstests, og endelig er Codeforces og SWE-bench Verified kodningsbenchmarks.

Destillerede DeepSeek-modeller

Destillation inden for kunstig intelligens er processen med at skabe mindre, mere effektive modeller ud fra større modeller, der bevarer meget af deres ræsonnementskraft og samtidig reducerer beregningskravene.

Implementering af V3 og R1 er ikke praktisk for alle, da de kræver 8 NVIDIA H200 GPU'er med 141 GB hukommelse hver. Derfor skabte DeepSeek 6 destillerede modeller med mellem 1,5 B og 70 B parametre:

De startede med seks open source-modeller fra Llama 3.1/3.3 og Qwen 2.5.
Derefter genererede de 800.000 ræsonnementsprøver af høj kvalitet ved hjælp af R1.
Og til sidst finjusterede de de mindre modeller på disse syntetiske ræsonneringsdata.

Her kan du se, hvordan de seks modeller klarede sig i vigtige benchmarks, hvor de demonstrerede deres evner inden for matematik (AIME 2024 og MATH-500), almen viden (GPQA Diamond) og kodning (LiveCode Bench og CodeForces):

DeepSeek-R1 destillerede modeller i benchmarks

Forudsigeligt nok blev resultaterne bedre, efterhånden som antallet af parametre steg. Den mindste model med 1,5 milliarder parametre klarede sig dårligst, mens den største model med 70 milliarder parametre klarede sig bedst. Mærkeligt nok ser den mest afbalancerede model ud som Qwen-32B, som er næsten lige så god som Llama-70B, selv om den har halvt så mange parametre.

DeepSeeks fremtid

DeepSeek har opnået en bemærkelsesværdig succes på kort tid og har fået global anerkendelse næsten fra den ene dag til den anden. Chatbotten syntes at dukke op ud af ingenting, men der er en risiko for, at den kan forsvinde lige så hurtigt. Det er en stor udfordring at bevare brandets synlighed og tillid på lang sigt, især på et så konkurrencepræget marked. Tekniske giganter som Google og OpenAI har budgetter, der langt overstiger DeepSeeks økonomiske ressourcer, og de har også et teknisk forspring.

En af de største forhindringer, som DeepSeek står over for, er computerkløften. Sammenlignet med sine amerikanske modparter har DeepSeek en betydelig ulempe med hensyn til computerkraft. Denne kløft forværres af USA's eksportkontrol af avancerede chips, som begrænser DeepSeeks adgang til den nyeste hardware, der er nødvendig for at udvikle og implementere mere kraftfulde KI-modeller.

Selv om DeepSeek har vist imponerende effektivitet i sine operationer, kunne adgang til mere avancerede beregningsressourcer fremskynde virksomhedens fremskridt betydeligt og styrke dens konkurrenceevne over for virksomheder med større kapacitet. Det er afgørende for DeepSeek at lukke denne computerkløft for at kunne skalere sine innovationer og etablere sig som en stærkere konkurrent på den globale scene.

Når det er sagt, er det vigtigt ikke at male et for dystert billede, for DeepSeek har allerede opnået noget bemærkelsesværdigt. Virksomheden har bevist, at selv med begrænsede ressourcer er det muligt at skabe et produkt i verdensklasse - noget, som mange troede kun var muligt med milliardbudgetter og massiv infrastruktur. DeepSeeks succes vil sandsynligvis inspirere utallige andre og yderligere fremskynde den allerede hurtige udvikling af KI-teknologier.