Tilbake til hovedsiden

DeepSeek: Et nytt kapittel i kunstig intelligens

DeepSeek er et sant fenomen. Bare noen dager etter lanseringen skjøt den kinesiske chatboten til topps blant de mest nedlastede appene i Apple App Store, og detroniserte ChatGPT. For mange var det et sjokk at et relativt ukjent selskap med minimale investeringer - budsjettet er omtrent 14 ganger mindre enn OpenAIs - klarte å utkonkurrere den ubestridte markedslederen, selv om det bare var midlertidig.

Historien til DeepSeek

DeepSeek ble grunnlagt av den kinesiske milliardæren Liang Wengfeng. Liang er utdannet ved Zhejiang University, og tok en bachelorgrad i elektronisk informasjonsteknologi i 2007 og en mastergrad i informasjons- og kommunikasjonsteknologi i 2010.

I 2008 dannet Liang et team sammen med klassekameratene fra universitetet for å samle inn data om finansmarkedene og utforske kvantitativ handel ved hjelp av maskinlæring. I februar 2016 grunnla Liang og to andre studiekamerater High-Flyer, et selskap som fokuserer på å utnytte kunstig intelligens til handelsalgoritmer (investeringer, oppdage mønstre i aksjekurser osv.).

I april 2023 etablerte High-Flyer et laboratorium for kunstig generell intelligens som skulle utvikle verktøy for kunstig intelligens som ikke skulle brukes til aksjehandel. I mai 2023 ble denne laben omgjort til en uavhengig enhet med navnet DeepSeek.

I januar 2025 skapte DeepSeek overskrifter med lanseringen av DeepSeek-R1, en åpen kildekode-modell for resonnerende kunstig intelligens med 671 milliarder parametere. Modellen ble raskt populær, og ble den mest populære gratisappen på Apple App Store i USA.

Liang Wengfeng

Liang Wengfeng

Viktige milepæler:

  • 2016. Grunnlaget for High-Flyer. Dette selskapet, som opprinnelig fokuserte på handelsalgoritmer for kunstig intelligens, la grunnlaget for DeepSeek.
  • 2023. Grunnleggelse av DeepSeek. DeepSeek ble grunnlagt i april som et laboratorium for kunstig generell intelligens under High-Flyer, og ble selvstendig i mai.
  • 2025. Utgivelse av DeepSeek-R1. Den ble raskt en verdensomspennende sensasjon, og toppet listene som en av de mest populære chatbotene.

DeepSeeks reise til toppen har vært alt annet enn enkel. I begynnelsen var selskapet avhengig av Nvidia A100-grafikkbrikker, som senere ble forbudt å eksportere til Kina av den amerikanske administrasjonen. Utviklerne gikk deretter over til de mindre kraftige H800-brikkene, men disse ble også begrenset kort tid etter. Til tross for disse utfordringene klarte DeepSeek å lage sin avanserte R1-modell ved hjelp av H800-brikker til en verdi av bare 5,6 millioner dollar. For å sette det i perspektiv, anslås det at opplæringen av GPT-4 koster mellom 50 og 100 millioner dollar.

«Vår største utfordring har aldri vært penger, det er embargoen på avanserte chips», har Liang sagt.

DeepSeek R1

DeepSeeks funksjoner og nøkkelteknologier

I motsetning til mange andre populære chatboter er DeepSeek-modellene basert på åpen kildekode, noe som betyr at brukerne kan utforske hvordan teknologien fungerer under panseret. Denne åpenheten bygger tillit, ettersom den sikrer at chatboten ikke er en mystisk «svart boks» - atferden kan undersøkes og forstås av fellesskapet.

Åpen kildekode-komponenter gjør det mulig for utviklere og forskere å bidra med forbedringer, fikse feil eller tilpasse teknologien til spesifikke behov. Derfor har åpen kildekode-prosjekter en tendens til å utvikle seg raskt på grunn av bidrag fra fellesskapet. Nye funksjoner, forbedringer og applikasjoner dukker opp raskere enn med proprietære systemer.

Noen av de viktigste tekniske løsningene som gjør at DeepSeek-modellene fungerer så effektivt som mulig:

  • MoE (blanding av eksperter)
  • MLA (latent oppmerksomhet i flere hoder)
  • MTP (prediksjon av flere ord)
MoE (Mixture of Experts)

Mixture of Experts (MoE) er en maskinlæringsteknikk som innebærer å kombinere spådommene fra flere spesialiserte modeller («ekspertene») for å forbedre chatbotens samlede ytelse.

Slik fungerer det i DeepSeek:

  • DeepSeek har sannsynligvis et stort utvalg av 256 spesialiserte nevrale nettverk (eksperter). Hver ekspert er en mindre modell som er trent opp til å håndtere spesifikke mønstre eller funksjoner i dataene. I naturlig språkbehandling kan for eksempel én ekspert spesialisere seg på syntaks, en annen på semantikk, en tredje på domenespesifikk kunnskap osv.
  • Et gating-nettverk bestemmer hvilke eksperter som skal aktiveres for hvert input-token. Det evaluerer inndataene og tildeler ekspertene vekt, og velger ut de åtte ekspertene som er mest relevante for det aktuelle tokenet. Dette sikrer at bare en liten del av det totale antallet eksperter brukes til enhver tid.
  • I stedet for å kjøre alle 256 ekspertene for hvert token (noe som ville vært svært beregningskrevende), aktiveres bare de åtte beste ekspertene. Dette reduserer beregningskostnadene drastisk, samtidig som modellens fulle kapasitet utnyttes.

Ved å aktivere bare en liten delmengde av ekspertene oppnår DeepSeek ressurseffektivitet. Modellen kan skaleres til en svært stor størrelse (når det gjelder parametere) uten en proporsjonal økning i beregningsarbeidet.

MLA (Multi-head Latent Attention)

MLA (Multi-head Latent Attention) er en kraftig mekanisme som kombinerer styrken til oppmerksomhet med flere hoder og latent romrepresentasjon for å forbedre effektiviteten og ytelsen.

Slik fungerer det i DeepSeek:

  • I standard multi-head-oppmerksomhet deles inndataene inn i flere «hoder», som hver lærer seg å fokusere på ulike aspekter av dataene.
  • Inndataene (f.eks. tekst, bilder eller andre strukturerte data) kodes først inn i en høydimensjonal representasjon.
  • Inndatarepresentasjonen projiseres inn i et latent rom med lavere dimensjoner ved hjelp av en innlært transformasjon (f.eks. et lag i et nevralt nettverk).
  • Den latente representasjonen deles opp i flere hoder, som hver beregner oppmerksomhetspoeng i det latente rommet. Dette gjør at modellen kan fokusere på ulike aspekter av dataene på en effektiv måte.
  • Ved å operere i et latent rom reduserer MLA beregningskostnadene for oppmerksomhetsmekanismer, noe som gjør det mulig å behandle store datasett eller lange sekvenser.

Kombinasjonen av oppmerksomhet i flere hoder og latente representasjoner gjør modellen i stand til å fange opp komplekse mønstre og relasjoner i dataene, noe som gir bedre ytelse i oppgaver som naturlig språkbehandling, anbefalingssystemer eller dataanalyse.

MTP (Multi-Token Prediction)

Variant av prediksjon med flere ord i DeepSeek

Multi-token-prediksjon (MTP) er en teknikk som brukes i språkmodeller for å predikere flere tokens (ord eller delord) fremover i en sekvens, i stedet for bare neste token. Denne tilnærmingen kan forbedre modellens evne til å generere sammenhengende og kontekstuelt nøyaktig tekst, ettersom den oppmuntrer modellen til å ta hensyn til langsiktige avhengigheter og strukturer i dataene.

Slik fungerer det i DeepSeek:

  • Inndatasekvensen (f.eks. en setning eller et avsnitt) kodes ved hjelp av en transformatorbasert arkitektur, som fanger opp kontekstuell informasjon om hvert token i sekvensen.
  • DeepSeek-modellene har flere utdatahoder, som hver er trent opp til å forutsi et annet fremtidig token.
  • Hode 1 predikerer neste token. Hode 2 predikerer tokenet etter det. Hode 3 predikerer tokenet to posisjoner foran.
  • Ved inferenstidspunktet genererer modellen tekst autoregressivt, men treningen med flere tokener sikrer at hver prediksjon er informert av en bredere kontekst, noe som fører til en mer sammenhengende og nøyaktig tekstgenerering.

DeepSeek bruker multi-token-prediksjon for å forbedre kvaliteten på språkmodellene sine, noe som gjør dem mer effektive i oppgaver som tekstgenerering, oversettelse og oppsummering.

Nåværende modeller

To av de nyeste DeepSeek-modellene er DeepSeek-V3, som ble lansert i desember 2024, og DeepSeek-R1, som ble lansert i januar 2025.

V3 er en direkte konkurrent til GPT 4o, mens R1 kan sammenlignes med OpenAIs o1-modell:

GPT 4o, o1, V3, R1

DeepSeek-V3 er et pålitelig valg for de fleste hverdagslige oppgaver, og kan svare på spørsmål om alle emner. Den briljerer når det gjelder å ha naturlig klingende samtaler og vise kreativitet. Denne modellen egner seg godt til skriving, innholdsproduksjon eller til å svare på generiske spørsmål som sannsynligvis har blitt besvart mange ganger før.

DeepSeek-R1, derimot, briljerer når det gjelder komplekse problemløsnings-, logikk- og trinnvise resonneringsoppgaver. R1 ble utviklet for å takle utfordrende spørsmål som krever grundig analyse og strukturerte løsninger. Denne modellen er perfekt for kodingsutfordringer og logikktunge spørsmål.

ModellStyrkerSvakheter
DeepSeek-V3Generell hjelp med koding og forklaring av begreper i enklere termerKan ofre noe nisjeekspertise for allsidighet
 Kreativ skriving med dyp forståelse for kontekstKan overgeneralisere på svært tekniske områder
 Godt egnet for rask generering av innholdMangler evnen til å resonnere
DeepSeek-R1Kan håndtere tekniske nisjeoppgaverSliter med bredere kontekst eller tvetydige spørsmål
 Høy nøyaktighet i spesialiserte domener (for eksempel matematikk eller kode)Rigide og formelbaserte resultater i kreative oppgaver
 Optimalisert for teknisk skriving, for eksempel juridiske dokumenter eller akademiske sammendragMindre tilpasningsdyktig til stil- og toneendringer

Begge modellene har lignende tekniske spesifikasjoner:

 DeepSeek-V3DeepSeek-R1
BasismodellDeepSeek-V3-BaseDeepSeek-V3-Base
TypeModell for generelle formålResonneringsmodell
Parametere671 milliarder (37 milliarder aktivert)671 milliarder (37 milliarder aktivert)
Lengde på konteksten128 tusen128 tusen

Hovedforskjellen ligger i treningen. Slik ble DeepSeek-R1 trent opp på V3:

  • Finjustering med kaldstart: I stedet for å overvelde modellen med store datamengder med en gang, begynner den med et mindre datasett av høy kvalitet for å finjustere responsene fra starten av.
  • Forsterkningslæring uten menneskelige etiketter: I motsetning til V3 er DeepSeek-R1 helt avhengig av RL, noe som betyr at den lærer seg å resonnere selvstendig i stedet for bare å etterligne treningsdata.
  • Avvisningsprøvetaking for syntetiske data: Modellen genererer flere svar, og bare de beste svarene velges ut for å trene seg selv videre.
  • Blanding av overvåkede og syntetiske data: Treningsdataene slår sammen de beste AI-genererte svarene med de finjusterte dataene fra DeepSeek-V3.
  • Avsluttende RL-prosess: En siste runde med forsterket læring sikrer at modellen generaliserer godt til et bredt utvalg av spørsmål og kan resonnere effektivt på tvers av emner.

La oss nå se på noen referanseverdier for å se hvordan både V3 og R1 står seg sammenlignet med andre populære modeller:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 og MATH-500 er matematikkreferanser, GPQA Diamond og MMLU er generelle kunnskapstester, og Codeforces og SWE-bench Verified er kodingsreferanser.

Destillerte DeepSeek-modeller

Destillasjon innen kunstig intelligens er en prosess der man lager mindre, mer effektive modeller ut fra større modeller, slik at man bevarer mye av resonnementskraften og samtidig reduserer beregningsbehovet.

Det er ikke praktisk mulig for alle å ta i bruk V3 og R1, siden de krever 8 NVIDIA H200 GPU-er med 141 GB minne hver. Derfor har DeepSeek laget seks destillerte modeller med alt fra 1,5 B til 70 B parametere:

  • De startet med seks modeller med åpen kildekode fra Llama 3.1/3.3 og Qwen 2.5.
  • Deretter genererte de 800 000 resonneringseksempler av høy kvalitet ved hjelp av R1.
  • Til slutt finjusterte de de mindre modellene på disse syntetiske resonneringsdataene.

Her kan du se hvordan disse seks modellene klarte seg i viktige referansetester, der de demonstrerte sine evner innen matematikk (AIME 2024 og MATH-500), generell kunnskap (GPQA Diamond) og koding (LiveCode Bench og CodeForces):

DeepSeek-R1 destillerte modeller i referanseverdier

Som forventet ble resultatene bedre etter hvert som antallet parametere økte. Den minste modellen med 1,5 milliarder parametere gjorde det dårligst, mens den største modellen med 70 milliarder parametere gjorde det best. Merkelig nok ser den mest balanserte modellen ut som Qwen-32B, som er nesten like god som Llama-70B, selv om den har halvparten så mange parametere.

DeepSeeks fremtid

DeepSeek har oppnådd en bemerkelsesverdig suksess på kort tid, og har fått global anerkjennelse nesten over natten. Chatboten dukket tilsynelatende opp ut av intet, men det er en risiko for at den kan forsvinne like raskt. Det er en stor utfordring å opprettholde merkevarens synlighet og tillit på lang sikt, spesielt i et marked med så sterk konkurranse. Teknologigiganter som Google og OpenAI har budsjetter som langt overgår DeepSeeks økonomiske ressurser, og de har også et teknisk forsprang.

Et av de største hindrene DeepSeek står overfor, er databehandlingsgapet. Sammenlignet med sine amerikanske motparter har DeepSeek en betydelig ulempe når det gjelder regnekraft. Dette gapet forsterkes av USAs eksportkontroll av avanserte brikker, noe som begrenser DeepSeeks tilgang til den nyeste maskinvaren som trengs for å utvikle og ta i bruk kraftigere modeller for kunstig intelligens.

DeepSeek har vist imponerende effektivitet i sin virksomhet, men tilgang til mer avanserte beregningsressurser vil kunne øke fremgangen betydelig og styrke konkurranseevnen mot selskaper med større kapasitet. Å tette dette gapet er avgjørende for at DeepSeek skal kunne skalere innovasjonene sine og etablere seg som en sterkere utfordrer på den globale scenen.

Når det er sagt, er det viktig å ikke male et for dystert bilde, for DeepSeek har allerede oppnådd noe bemerkelsesverdig. Selskapet har bevist at selv med begrensede ressurser er det mulig å skape et produkt i verdensklasse - noe mange trodde bare var mulig med milliardbudsjetter og massiv infrastruktur. DeepSeeks suksess vil sannsynligvis inspirere utallige andre og sette ytterligere fart på den allerede raske utviklingen av kunstig intelligens.