DeepSeek: Uusi luku tekoälyssä
DeepSeek on todellinen ilmiö. Vain muutama päivä julkaisunsa jälkeen kiinalainen chatbot nousi Applen App Storen ladatuimpien sovellusten kärkeen ja syrjäytti ChatGPT:n. Monille oli järkytys, että suhteellisen tuntematon yritys, jolla on minimaaliset investoinnit - sen budjetti on noin 14 kertaa pienempi kuin OpenAI:n - onnistui ohittamaan, vaikkakin väliaikaisesti, kiistattoman markkinajohtajan.
DeepSeekin historia
DeepSeekin perusti kiinalainen miljardööri Liang Wengfeng. Zhejiangin yliopistossa opiskellut Liang valmistui elektronisen tietotekniikan insinööriksi vuonna 2007 ja tieto- ja viestintätekniikan maisteriksi vuonna 2010.
Vuonna 2008 Liang perusti yliopistonsa luokkatovereidensa kanssa tiimin, jonka tehtävänä oli kerätä rahoitusmarkkinoihin liittyviä tietoja ja tutkia kvantitatiivista kaupankäyntiä koneoppimisen avulla. Helmikuussa 2016 Liang ja kaksi muuta insinööriluokkatoveria perustivat yhdessä High-Flyer-yrityksen, joka keskittyi tekoälyn hyödyntämiseen kaupankäyntialgoritmeissa (sijoitusten tekeminen, osakekurssien kuvioiden havaitseminen jne.).
Huhtikuussa 2023 High-Flyer perusti keinotekoisen yleisen älykkyyden laboratorion, joka on omistettu tekoälytyökalujen kehittämiseen, joita ei käytettäisi osakekauppaan. Toukokuussa 2023 tästä laboratoriosta tuli itsenäinen yksikkö nimeltä DeepSeek.
Tammikuussa 2025 DeepSeek nousi otsikoihin julkaisemalla DeepSeek-R1:n, 671 miljardin parametrin avoimen lähdekoodin päättelytekoälymallin. Malli saavutti nopeasti suosiota, ja siitä tuli Yhdysvaltain Applen App Storen ilmaissovellusten ykkönen.

Liang Wengfeng
Tärkeimmät virstanpylväät:
- 2016. High-Flyer-säätiö. Tämä alun perin tekoälyn kaupankäyntialgoritmeihin keskittynyt yritys loi pohjan DeepSeekille.
- 2023. DeepSeekin perustaminen. DeepSeek perustettiin huhtikuussa High-Flyerin alaisuuteen keinotekoisen yleisen älykkyyden laboratorioksi, mutta se itsenäistyi toukokuussa.
- 2025. DeepSeek-R1-julkaisu. Siitä tuli nopeasti maailmanlaajuinen sensaatio, ja se nousi listojen kärkeen yhtenä suosituimmista chat-roboteista.
DeepSeekin matka huipulle on ollut kaikkea muuta kuin helppo. Alkuaikoina yritys tukeutui Nvidian A100-grafiikkapiireihin, joiden vienti Kiinaan kiellettiin myöhemmin Yhdysvaltain hallinnon toimesta. Tämän jälkeen kehittäjät siirtyivät käyttämään vähemmän tehokkaita H800-siruja, mutta niidenkin käyttöä rajoitettiin pian sen jälkeen. Näistä haasteista huolimatta DeepSeek onnistui luomaan kehittyneen R1-mallinsa käyttämällä vain 5,6 miljoonan dollarin arvosta H800-siruja. GPT-4:n harjoittelun arvioidaan maksavan 50-100 miljoonaa dollaria.
”Suurin haasteemme ei ole koskaan ollut raha, vaan huippuluokan siruja koskeva kauppasaarto”, Liang on sanonut.

DeepSeekin ominaisuudet ja keskeiset teknologiat
Toisin kuin monet muut suositut chatbotit, DeepSeekin mallit ovat avoimen lähdekoodin malleja, mikä tarkoittaa, että käyttäjät voivat tutkia, miten teknologia toimii konepellin alla. Tämä avoimuus lisää luottamusta, sillä se varmistaa, ettei chatbot ole salaperäinen ”musta laatikko” - yhteisö voi tutkia ja ymmärtää sen käyttäytymistä.
Avoimen lähdekoodin komponenttien avulla kehittäjät ja tutkijat voivat tehdä parannuksia, korjata virheitä tai mukauttaa teknologiaa erityistarpeisiin. Siksi avoimen lähdekoodin projektit kehittyvät yleensä nopeasti yhteisön panoksen ansiosta. Uusia ominaisuuksia, parannuksia ja sovelluksia syntyy nopeammin kuin omistusoikeudellisissa järjestelmissä.
Joitakin tärkeitä teknisiä ratkaisuja, joiden ansiosta DeepSeek-mallit toimivat mahdollisimman tehokkaasti:
- MoE (Mixture of Experts)
- MLA (Multi-head Latent Attention)
- MTP (Multi-Token Prediction)

Mixture of Experts (MoE) on koneoppimistekniikka, jossa yhdistetään useiden erikoistuneiden mallien (”asiantuntijoiden”) ennusteita chatbotin kokonaissuorituskyvyn parantamiseksi.
Näin se toimii DeepSeekissä:
- DeepSeekillä on todennäköisesti suuri joukko 256 erikoistunutta neuroverkkoa (asiantuntijaa). Jokainen asiantuntija on pienempi malli, joka on koulutettu käsittelemään tiettyjä datan malleja tai ominaisuuksia. Esimerkiksi luonnollisen kielen prosessoinnissa yksi asiantuntija voi erikoistua syntaksiin, toinen semantiikkaan, kolmas aluetietoon jne.
- Porttiverkko päättää, mitkä asiantuntijat aktivoidaan kunkin syötemerkin kohdalla. Se arvioi syötteen ja antaa asiantuntijoille painotukset, jolloin se valitsee 8 parasta asiantuntijaa, jotka ovat merkityksellisimpiä nykyisen merkin kannalta. Näin varmistetaan, että aina käytetään vain pientä osajoukkoa kaikista asiantuntijoista.
- Sen sijaan, että kaikki 256 asiantuntijaa käytettäisiin jokaista tokenia varten (mikä olisi laskennallisesti kallista), vain 8 parasta asiantuntijaa aktivoidaan. Tämä vähentää laskentakustannuksia huomattavasti, mutta samalla hyödynnetään mallin koko kapasiteetti.
DeepSeek saavuttaa resurssitehokkuuden aktivoimalla vain pienen osajoukon asiantuntijoita. Malli voi skaalautua hyvin suureksi (parametrien suhteen) ilman, että laskennan määrä kasvaa samassa suhteessa.

Multi-head Latent Attention (MLA) on tehokas mekanismi, jossa yhdistyvät monen pään tarkkaavaisuuden ja latenttien tilarepresentaatioiden vahvuudet tehokkuuden ja suorituskyvyn parantamiseksi.
Näin se toimii DeepSeekissä:
- Tavallisessa monipäähavainnoinnissa syötteet jaetaan useisiin ”päihin”, joista kukin oppii keskittymään datan eri osa-alueisiin.
- Syöttötiedot (esim. teksti, kuvat tai muut strukturoidut tiedot) koodataan ensin korkea-ulotteiseen esitykseen.
- Syöttöesitys projisoidaan matalampiulotteiseen latenttiin avaruuteen käyttäen opittua muunnosta (esim. neuroverkkokerros).
- Latentti esitys jaetaan useisiin päihin, joista kukin laskee huomiopisteitä latentissa avaruudessa. Näin malli voi keskittyä tehokkaasti datan eri näkökohtiin.
- Toimimalla latenttiavaruudessa MLA vähentää huomiomekanismien laskennallisia kustannuksia, mikä mahdollistaa suurten tietokokonaisuuksien tai pitkien sekvenssien käsittelyn.
Monen pään huomion ja latenttien representaatioiden yhdistelmä mahdollistaa sen, että malli pystyy vangitsemaan monimutkaisia kuvioita ja suhteita datassa, mikä johtaa parempaan suorituskykyyn esimerkiksi luonnollisen kielen käsittelyssä, suosittelujärjestelmissä tai data-analyysissä.

Multi-Token-ennusteen muunnos DeepSeekissä
Multi-token prediction (MTP) on tekniikka, jota käytetään kielimalleissa ennustamaan useita tokeneja (sanoja tai osasanoja) sarjassa eteenpäin, eikä vain seuraavaa tokenia. Tämä lähestymistapa voi parantaa mallin kykyä tuottaa yhtenäistä ja kontekstuaalisesti tarkkaa tekstiä, koska se kannustaa mallia ottamaan huomioon pidemmän aikavälin riippuvuudet ja datan rakenteen.
Näin se toimii DeepSeekissä:
- Syöttösekvenssi (esim. lause tai kappale) koodataan muuntimeen perustuvalla arkkitehtuurilla, joka tallentaa kontekstuaalista tietoa jokaisesta sekvenssin tokenista.
- DeepSeek-malleilla on useita tulostuspäätteitä, joista jokainen on koulutettu ennustamaan eri tulevaa tokenia.
- Pää 1 ennustaa seuraavan tokenin. Pää 2 ennustaa sitä seuraavan tokenin. Pää 3 ennustaa tokenin kaksi sijaa eteenpäin.
- Päättelyhetkellä malli tuottaa tekstiä autoregressiivisesti, mutta usean tokenin koulutus varmistaa, että kukin ennuste perustuu laajempaan kontekstiin, mikä johtaa johdonmukaisempaan ja tarkempaan tekstin tuottamiseen.
DeepSeek käyttää monitavuinen ennustaminen parantaa kielimallien laatua, mikä tekee niistä tehokkaampia tekstin tuottamisen, kääntämisen ja tiivistämisen kaltaisissa tehtävissä.
Nykyiset mallit
Kaksi uusinta DeepSeekin mallia ovat joulukuussa 2024 julkaistu DeepSeek-V3 ja tammikuussa 2025 julkaistu DeepSeek-R1.
V3 on suora kilpailija GPT 4o:lle, kun taas R1:tä voidaan verrata OpenAI:n o1-malliin:

DeepSeek-V3 on luotettava valinta useimpiin jokapäiväisiin tehtäviin, ja se pystyy vastaamaan kysymyksiin mistä tahansa aiheesta. Se loistaa luonnolliselta kuulostavissa keskusteluissa ja luovuuden esittelyssä. Tämä malli sopii hyvin kirjoittamiseen, sisällön luomiseen tai vastaamiseen yleisiin kysymyksiin, joihin on todennäköisesti vastattu jo monta kertaa aiemmin.
DeepSeek-R1 puolestaan loistaa, kun on kyse monimutkaisista ongelmanratkaisu-, logiikka- ja vaiheittaisista päättelytehtävistä. R1 on suunniteltu vastaamaan haastaviin kyselyihin, jotka vaativat perusteellista analyysia ja jäsenneltyjä ratkaisuja. Tämä malli sopii erinomaisesti koodaushaasteisiin ja logiikkapainotteisiin kysymyksiin.
| Malli | Vahvuudet | Heikkoudet |
| DeepSeek-V3 | Yleinen koodausapu ja käsitteiden selittäminen yksinkertaisemmin termein | Saattaa uhrata jonkin verran erikoisosaamista monipuolisuuden hyväksi |
| Luova kirjoittaminen ja asiayhteyden syvällinen ymmärtäminen | Saattaa yleistää liikaa erittäin teknisillä aloilla | |
| Soveltuu hyvin nopeaan sisällöntuotantoon | Puuttuu päättelykyky | |
| DeepSeek-R1 | Pystyy hoitamaan erikoistuneita teknisiä tehtäviä | Ongelmia laajemman asiayhteyden tai epäselvien kyselyjen kanssa |
| Korkea tarkkuus erikoistuneilla aloilla (esimerkiksi matematiikassa tai koodauksessa) | Jäykät ja kaavamaiset tuotokset luovissa tehtävissä | |
| Optimoitu tekniseen kirjoittamiseen, kuten oikeudellisiin asiakirjoihin tai akateemisiin tiivistelmiin | Vähemmän sopeutumiskykyinen tyylin ja sävyn muutoksiin |
Molemmissa malleissa on samanlaiset tekniset tiedot:
| DeepSeek-V3 | DeepSeek-R1 | |
| Perusmalli | DeepSeek-V3-Base | DeepSeek-V3-Base |
| Tyyppi | Yleiskäyttöinen malli | Päättelymalli |
| Parametrit | 671 miljardia (37 miljardia aktivoitua) | 671 miljardia (37 miljardia aktivoitua) |
| Kontekstin pituus | 128 tuhatta | 128 tuhatta |
Keskeinen ero on heidän koulutuksessaan. Näin DeepSeek-R1 koulutettiin V3:lla:
- Kylmäkäynnistyksen hienosäätö: Sen sijaan, että mallia ylikuormitettaisiin heti suurilla tietomäärillä, se aloittaa pienemmällä, laadukkaalla tietokokonaisuudella, jotta sen vastauksia voidaan hioa alusta alkaen.
- Vahvistusoppiminen ilman ihmisleimoja: Toisin kuin V3, DeepSeek-R1 luottaa täysin RL:ään, eli se oppii päättelemään itsenäisesti sen sijaan, että se vain jäljittelisi harjoitusdataa.
- Hylkäysnäytteenotto synteettistä dataa varten: Malli tuottaa useita vastauksia, ja vain laadukkaimmat vastaukset valitaan jatkokoulutusta varten.
- Valvottujen ja synteettisten tietojen yhdistäminen: Koulutusdatassa yhdistetään parhaat tekoälyn luomat vastaukset DeepSeek-V3:n valvottuun hienosäädettyyn dataan.
- Lopullinen RL-prosessi: Viimeinen vahvistusoppimisen kierros varmistaa, että malli yleistyy hyvin monenlaisiin kehotuksiin ja pystyy päättelemään tehokkaasti eri aiheista.
Tarkastellaan nyt joitakin vertailuarvoja, jotta nähdään, miten V3 ja R1 vertautuvat muihin suosittuihin malleihin.:

AIME 2024 ja MATH-500 ovat matematiikan vertailuarvoja, GPQA Diamond ja MMLU ovat yleistietotestejä ja Codeforces ja SWE-bench Verified ovat koodausvertailuja.
Tyhjennetyt DeepSeek-mallit
Tislaus on tekoälyn alalla prosessi, jossa suuremmista malleista luodaan pienempiä, tehokkaampia malleja, jolloin suuri osa niiden päättelykyvystä säilyy ja laskentavaatimukset vähenevät.
V3:n ja R1:n käyttöönotto ei ole käytännöllistä kaikille, sillä ne vaativat 8 NVIDIA H200 -näytönohjainta, joissa kussakin on 141 Gt muistia. Siksi DeepSeek loi 6 tislattua mallia, joiden parametrit vaihtelevat 1,5 miljardista 70 miljardiin:
- He aloittivat kuudella avoimen lähdekoodin mallilla Llamasta 3.1/3.3 ja Qwen 2.5:stä.
- Sitten luotiin 800 000 korkealaatuista päättelynäytettä R1:n avulla.
- Lopuksi he hienosäätivät pienempiä malleja näillä synteettisillä päättelyaineistoilla.
Seuraavassa kuvataan, miten nämä kuusi mallia pärjäsivät tärkeimmissä vertailuanalyyseissä, jotka osoittavat niiden kyvyt matematiikassa (AIME 2024 ja MATH-500), yleistiedossa (GPQA Diamond) ja koodauksessa (LiveCode Bench ja CodeForces):

Oli odotettavissa, että kun parametrien määrä kasvoi, tulokset paranivat. Pienin malli, jossa oli 1,5 miljardia parametria, toimi huonoimmin, kun taas suurin malli, jossa oli 70 miljardia parametria, toimi parhaiten. Kummallista kyllä, tasapainoisin malli näyttää Qwen-32B:ltä, joka on lähes yhtä hyvä kuin Llama-70B, vaikka siinä on puolet vähemmän parametreja.
DeepSeekin tulevaisuus
DeepSeek on saavuttanut lyhyessä ajassa huomattavaa menestystä ja saanut maailmanlaajuista tunnustusta lähes yhdessä yössä. Chatbot näytti ilmestyvän tyhjästä, mutta on olemassa vaara, että se voi hiipua yhtä nopeasti. Brändin näkyvyyden ja luottamuksen säilyttäminen pitkällä aikavälillä on merkittävä haaste, etenkin näin kovasti kilpailluilla markkinoilla. Googlen ja OpenAI:n kaltaisilla teknologiajätillä on budjetit, jotka ylittävät DeepSeekin taloudelliset resurssit reilusti, ja niillä on myös tekninen etulyöntiasema.
Yksi suurimmista esteistä, joita DeepSeek kohtaa, on laskentakapasiteetti. Yhdysvaltalaisiin kollegoihinsa verrattuna DeepSeek on laskentateholtaan huomattavasti heikommassa asemassa. Tätä eroa pahentaa Yhdysvaltojen kehittyneiden sirujen vientivalvonta, joka rajoittaa DeepSeekin mahdollisuuksia saada käyttöönsä uusinta laitteistoa, jota se tarvitsee tehokkaampien tekoälymallien kehittämiseen ja käyttöönottoon.
Vaikka DeepSeek on osoittanut vaikuttavaa tehokkuutta toiminnassaan, kehittyneempien laskentaresurssien käyttömahdollisuus voisi nopeuttaa merkittävästi sen edistymistä ja vahvistaa sen kilpailukykyä suhteessa yrityksiin, joilla on paremmat valmiudet. Tämän laskentakapasiteetin puutteen poistaminen on ratkaisevan tärkeää, jotta DeepSeek voi skaalata innovaatioitaan ja vakiinnuttaa asemansa vahvempana kilpailijana maailmanlaajuisella näyttämöllä.
On kuitenkin tärkeää, ettei liian synkkää kuvaa maalata, sillä DeepSeek on jo saavuttanut jotain merkittävää. Yritys on osoittanut, että jopa rajallisilla resursseilla on mahdollista luoda maailmanluokan tuote - monien mielestä se on mahdollista vain miljardien dollareiden budjetilla ja massiivisella infrastruktuurilla. DeepSeekin menestys innostaa todennäköisesti lukemattomia muita ja kiihdyttää entisestään tekoälyteknologioiden jo ennestään nopeaa kehitystä.