DeepSeek: Ett nytt kapitel i artificiell intelligens

DeepSeek är ett sant fenomen. Bara några dagar efter lanseringen sköt den kinesiska chatboten i höjden till toppen av de mest nedladdade apparna i Apple App Store och förträngde ChatGPT. För många var det en chock att ett relativt okänt företag med minimala investeringar - dess budget är ungefär 14 gånger mindre än OpenAI:s - lyckades gå om, om än tillfälligt, den obestridda marknadsledaren.

DeepSeeks historia

DeepSeek grundades av den kinesiska miljardären Liang Wengfeng. Liang är utbildad vid Zhejiang University och tog en Bachelor of Engineering i elektronisk informationsteknik 2007 och en Master of Engineering i informations- och kommunikationsteknik 2010.

År 2008 bildade Liang ett team med sina klasskamrater på universitetet för att samla in data om finansmarknaderna och utforska kvantitativ handel med hjälp av maskininlärning. I februari 2016 var Liang och två andra klasskamrater med och grundade High-Flyer, ett företag som fokuserar på att utnyttja artificiell intelligens för handelsalgoritmer (göra investeringar, upptäcka mönster i aktiekurser etc.).

I april 2023 etablerade High-Flyer ett laboratorium för artificiell allmän intelligens som ägnade sig åt att utveckla verktyg för artificiell intelligens som inte skulle användas för att utföra aktiehandel. I maj 2023 blev detta labb en oberoende enhet med namnet DeepSeek.

I januari 2025 skapade DeepSeek rubriker med lanseringen av DeepSeek-R1, en resonerande AI-modell med 671 miljarder parametrar i öppen källkod. Modellen blev snabbt populär och blev den främsta gratisappen på Apple App Store i USA.

Liang Wengfeng

Viktiga milstolpar:

2016. High-Flyer grundades. Detta företag som ursprungligen fokuserade på AI-handelsalgoritmer lade grunden för DeepSeek.
2023. DeepSeek grundas. DeepSeek grundades i april som ett laboratorium för artificiell allmän intelligens under High-Flyer och blev självständigt i maj.
2025. DeepSeek-R1 släpps. Den blev snabbt en världsomspännande sensation och toppade listorna som en av de mest populära chatbotarna.

DeepSeeks resa till toppen har varit allt annat än enkel. I början förlitade sig företaget på Nvidia A100-grafikchip, som senare förbjöds från export till Kina av den amerikanska administrationen. Utvecklarna gick sedan över till de mindre kraftfulla H800-chipen, men även dessa begränsades kort därefter. Trots dessa utmaningar lyckades DeepSeek skapa sin avancerade R1-modell med hjälp av H800-chips till ett värde av endast 5,6 miljoner dollar. För att sätta det i perspektiv beräknas träningen av GPT-4 kosta mellan 50-100 miljoner dollar.

”Vår största utmaning har aldrig varit pengar, det är embargot på avancerade chips”, har Liang sagt.

DeepSeeks funktioner och nyckelteknologier

Till skillnad från många andra populära chatbottar är DeepSeeks modeller öppna för källkod, vilket innebär att användarna kan utforska hur tekniken fungerar under huven. Denna öppenhet skapar förtroende eftersom det säkerställer att chatboten inte är en mystisk ”svart låda” - dess beteende kan undersökas och förstås av samhället.

Komponenter med öppen källkod gör det möjligt för utvecklare och forskare att bidra med förbättringar, åtgärda buggar eller anpassa tekniken för specifika behov. Det är därför projekt med öppen källkod tenderar att utvecklas snabbt tack vare samhällets bidrag. Du kommer att se nya funktioner, förbättringar och applikationer dyka upp snabbare än med proprietära system.

Några av de viktiga tekniska lösningar som gör att DeepSeek-modellerna fungerar så effektivt som möjligt:

MoE (”Mixture of Experts”)
MLA (”Multi-head Latent Attention”)
MTP (”Multi-Token Prediction”)

Mixture of Experts (MoE) är en maskininlärningsteknik som innebär att man kombinerar förutsägelserna från flera specialiserade modeller (”experterna”) för att förbättra chatbotens övergripande prestanda.

Så här fungerar det i DeepSeek:

DeepSeek har sannolikt en stor pool med 256 specialiserade neurala nätverk (experter). Varje expert är en mindre modell som tränats för att hantera specifika mönster eller funktioner i data. Vid bearbetning av naturligt språk kan till exempel en expert specialisera sig på syntax, en annan på semantik, en tredje på domänspecifik kunskap osv.
Ett gating-nätverk avgör vilka experter som ska aktiveras för varje token i indata. Det utvärderar indata och tilldelar experterna vikter och väljer ut de 8 experter som är mest relevanta för den aktuella token. Detta säkerställer att endast en liten delmängd av det totala antalet experter används vid varje given tidpunkt.
Istället för att köra alla 256 experter för varje token (vilket skulle vara beräkningsmässigt dyrt) aktiveras endast de 8 bästa experterna. Detta minskar beräkningskostnaden drastiskt samtidigt som modellens fulla kapacitet utnyttjas.

Genom att endast aktivera en liten delmängd av experterna uppnår DeepSeek resurseffektivitet. Modellen kan skalas till en mycket stor storlek (i termer av parametrar) utan en proportionell ökning av beräkningen.

Multi-head Latent Attention (MLA) är en kraftfull mekanism som kombinerar styrkorna hos multi-head attention och latent space representations för att förbättra effektivitet och prestanda.

Så här fungerar det i DeepSeek:

I standard multi-head attention delas indata upp i flera ”huvuden”, som var och en lär sig att fokusera på olika aspekter av data.
Inmatningsdata (t.ex. text, bilder eller andra strukturerade data) kodas först till en högdimensionell representation.
Indatarepresentationen projiceras i ett lägre dimensionellt latent utrymme med hjälp av en inlärd transformation (t.ex. ett neuralt nätverkslager).
Den latenta representationen delas upp i flera huvuden, som vart och ett beräknar uppmärksamhetspoäng i det latenta utrymmet. Detta gör det möjligt för modellen att fokusera på olika aspekter av data på ett effektivt sätt.
Genom att arbeta i ett latent utrymme minskar MLA beräkningskostnaden för uppmärksamhetsmekanismer, vilket gör det möjligt att bearbeta stora datamängder eller långa sekvenser.

Kombinationen av multihead attention och latenta representationer gör att modellen kan fånga komplexa mönster och relationer i data, vilket leder till bättre prestanda i uppgifter som naturlig språkbehandling, rekommendationssystem och dataanalys.

Variant av Multi-Token Prediction i DeepSeek

Multi-token prediction (MTP) är en teknik som används i språkmodeller för att förutsäga flera tokens (ord eller underord) framåt i en sekvens, snarare än bara nästa token. Detta tillvägagångssätt kan förbättra modellens förmåga att generera sammanhängande och kontextuellt korrekt text, eftersom det uppmuntrar modellen att ta hänsyn till långsiktiga beroenden och strukturer i data.

Så här fungerar det i DeepSeek:

Inmatningssekvensen (t.ex. en mening eller ett stycke) kodas med hjälp av en transformatorbaserad arkitektur, som fångar upp kontextuell information om varje token i sekvensen.
DeepSeek-modeller har flera utdatahuvuden, vart och ett tränat för att förutsäga en annan framtida token.
Huvud 1 förutspår nästa token. Huvud 2 förutspår token efter det. Huvud 3 förutspår token två positioner framåt.
Vid inferenstiden genererar modellen text autoregressivt, men träningen med flera token säkerställer att varje förutsägelse informeras av ett bredare sammanhang, vilket leder till mer sammanhängande och korrekt textgenerering.

DeepSeek använder multi-token-prediktion för att förbättra kvaliteten på sina språkmodeller, vilket gör dem mer effektiva i uppgifter som textgenerering, översättning och sammanfattning.

Aktuella modeller

Två av de senaste DeepSeek-modellerna är DeepSeek-V3 som släpptes i december 2024 och DeepSeek-R1 som släpptes i januari 2025.

V3 är en direkt konkurrent till GPT 4o medan R1 kan jämföras med OpenAI:s o1-modell:

DeepSeek-V3 är ett pålitligt val för de flesta vardagliga uppgifter och kan svara på frågor om alla ämnen. Den briljerar när det gäller att ha naturligt klingande konversationer och visa prov på kreativitet. Den här modellen är bra för att skriva, skapa innehåll eller svara på generiska frågor som sannolikt har besvarats många gånger tidigare.

DeepSeek-R1, å andra sidan, briljerar när det gäller komplex problemlösning, logik och steg-för-steg-resonemang. R1 är utformad för att hantera utmanande frågor som kräver grundlig analys och strukturerade lösningar. Den här modellen är perfekt för kodningsutmaningar och logiktunga frågor.

Modell	Styrkor	Svagheter
DeepSeek-V3	Allmän kodningshjälp och förklaring av begrepp i enklare termer	Kan offra viss nischkompetens för mångsidighet
	Kreativt skrivande med djup förståelse för sammanhanget	Kan övergeneralisera inom mycket tekniska områden
	Väl lämpad för snabb innehållsgenerering	Saknar förmåga att resonera
DeepSeek-R1	Kan hantera tekniska nischuppgifter	Svårigheter med bredare sammanhang eller tvetydiga frågor
	Hög noggrannhet inom specialiserade områden (t.ex. matematik eller kod)	Rigid och formelmässig produktion i kreativa uppgifter
	Optimerad för tekniskt skrivande, t.ex. juridiska dokument eller akademiska sammanfattningar	Mindre anpassningsbar till stil- och tonförändringar

Båda modellerna har liknande tekniska specifikationer:

	DeepSeek-V3	DeepSeek-R1
Basmodell	DeepSeek-V3-Base	DeepSeek-V3-Base
Typ	Modell för allmänt bruk	Modell för resonemang
Parametrar	671 miljarder (37 miljarder aktiverat)	671 miljarder (37 miljarder aktiverat)
Kontextens längd	128 tusen	128 tusen

Den viktigaste skillnaden är i deras utbildning. Här är hur DeepSeek-R1 tränades på V3:

Finjustering av kallstart: I stället för att överväldiga modellen med stora datamängder direkt börjar den med en mindre, högkvalitativ dataset för att förfina sina svar från början.
Förstärkningsinlärning utan mänskliga etiketter: Till skillnad från V3 förlitar sig DeepSeek-R1 helt på RL, vilket innebär att den lär sig att resonera självständigt istället för att bara härma träningsdata.
Provtagning av avslag för syntetiska data: Modellen genererar flera svar, och endast svaren av bästa kvalitet väljs ut för att träna sig själv ytterligare.
Blandning av övervakad och syntetisk data: Träningsdatan slår samman de bästa AI-genererade svaren med den övervakade finjusterade datan från DeepSeek-V3.
Slutlig RL-process: En sista omgång med förstärkningsinlärning säkerställer att modellen generaliseras väl till en mängd olika uppmaningar och kan resonera effektivt över ämnen.

Låt oss nu titta på några riktmärken för att se hur både V3 och R1 jämför med andra populära modeller:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 och MATH-500 är matematiska benchmarks, GPQA Diamond och MMLU är allmänna kunskapstester och slutligen är Codeforces och SWE-bench Verified kodningsbenchmarks.

Destillerade DeepSeek-modeller

Destillation inom artificiell intelligens är processen att skapa mindre, mer effektiva modeller från större modeller, vilket bevarar mycket av deras resonemangskraft samtidigt som beräkningskraven minskas.

Att distribuera V3 och R1 är inte praktiskt för alla, eftersom de kräver 8 NVIDIA H200 GPU:er med 141 GB minne vardera. Det är därför DeepSeek skapade 6 destillerade modeller som sträcker sig från 1,5B till 70B parametrar:

De började med sex modeller med öppen källkod från Llama 3.1/3.3 och Qwen 2.5.
Sedan genererade de 800 000 högkvalitativa resonemangsprover med R1.
Och slutligen finjusterade de de mindre modellerna på dessa syntetiska resonemangsdata.

Så här gick det för dessa sex modeller i viktiga riktmärken, som visade deras förmåga inom matematik (AIME 2024 och MATH-500), allmänbildning (GPQA Diamond) och kodning (LiveCode Bench och CodeForces):

DeepSeek-R1 destillerade modeller i riktmärken

Som väntat förbättrades resultaten i takt med att antalet parametrar ökade. Den minsta modellen med 1,5 miljarder parametrar klarade sig sämst, medan den största modellen med 70 miljarder parametrar klarade sig bäst. Märkligt nog ser den mest balanserade modellen ut som Qwen-32B, som är nästan lika bra som Llama-70B, trots att den har hälften så många parametrar.

DeepSeeks framtid

DeepSeek har nått anmärkningsvärda framgångar på kort tid och fått globalt erkännande nästan över en natt. Chatboten verkade dyka upp från ingenstans, men det finns en risk att den kan försvinna lika snabbt. Att upprätthålla varumärkets synlighet och förtroende på lång sikt är en betydande utmaning, särskilt på en så konkurrensutsatt marknad. Teknikjättar som Google och OpenAI har budgetar som vida överstiger DeepSeeks finansiella resurser, och de har också ett tekniskt försprång.

Ett av de största hindren som DeepSeek står inför är beräkningsgapet. Jämfört med sina amerikanska motsvarigheter har DeepSeek en betydande nackdel när det gäller beräkningskraft. Detta gap förvärras av USA:s exportkontroller av avancerade chip, vilket begränsar DeepSeeks tillgång till den senaste hårdvaran som behövs för att utveckla och distribuera kraftfullare AI-modeller.

DeepSeek har visat imponerande effektivitet i sin verksamhet, men tillgång till mer avancerade beräkningsresurser skulle kunna påskynda företagets framsteg avsevärt och stärka dess konkurrenskraft gentemot företag med större kapacitet. Att stänga detta beräkningsgap är avgörande för att DeepSeek ska kunna skala upp sina innovationer och etablera sig som en starkare utmanare på den globala scenen.

Med detta sagt är det viktigt att inte måla upp en alltför dyster bild, eftersom DeepSeek redan har åstadkommit något anmärkningsvärt. Företaget har bevisat att det är möjligt att skapa en produkt i världsklass även med begränsade resurser - något som många trodde bara var möjligt med miljardbudgetar och massiv infrastruktur. DeepSeeks framgång kommer sannolikt att inspirera otaliga andra och ytterligare påskynda den redan snabba utvecklingen av AI-teknik.