Povratak na glavnu

DeepSeek: Novo poglavlje u umjetnoj inteligenciji

DeepSeek je pravi fenomen. Samo nekoliko dana nakon izlaska, kineski chatbot skočio je na vrh najčešće preuzimanih aplikacija u Apple App Storeu, skinuvši s trona ChatGPT. Za mnoge je bio šok da je relativno nepoznata tvrtka s minimalnim ulaganjima - proračun joj je otprilike 14 puta manji od OpenAI-a - uspjela nadmašiti, makar i privremeno, neprikosnovenog tržišnog lidera.

Povijest DeepSeeka

DeepSeek je osnovao kineski milijarder Liang Wengfeng. Obrazovan na Sveučilištu Zhejiang, Liang je 2007. stekao diplomu inženjera elektroničkog informacijskog inženjerstva i magistra inženjerstva informacijskog i komunikacijskog inženjerstva 2010.

Godine 2008. Liang je sa svojim sveučilišnim kolegama oformio tim za prikupljanje podataka povezanih s financijskim tržištima i istraživanje kvantitativnog trgovanja pomoću strojnog učenja. U veljači 2016., Liang i još dva druga inženjera suosnivali su High-Flyer, tvrtku usmjerenu na korištenje umjetne inteligencije za algoritme trgovanja (ulaganje, uočavanje uzoraka u cijenama dionica itd.).

U travnju 2023. High-Flyer je uspostavio laboratorij za opću umjetnu inteligenciju posvećen razvoju alata za umjetnu inteligenciju koji se neće koristiti za trgovanje dionicama. Do svibnja 2023. ovaj je laboratorij postao neovisno tijelo pod nazivom DeepSeek.

U siječnju 2025. DeepSeek je dospio na naslovnice izdavanjem DeepSeek-R1, modela umjetne inteligencije otvorenog koda s 671 milijardom parametara. Model je brzo stekao popularnost, postavši besplatna aplikacija broj jedan na američkom Apple App Storeu.

Liang Wengfeng

Liang Wengfeng

Ključne prekretnice:

  • 2016. Zaklada High-Flyer. Ova se tvrtka u početku usredotočila na algoritme za trgovanje koji se pokreću umjetnom inteligencijom i postavila je temelje za DeepSeek.
  • 2023. DeepSeek temelj. Osnovan u travnju kao laboratorij za opću umjetnu inteligenciju pod High-Flyerom, DeepSeek je postao neovisan u svibnju.
  • 2025. Izdanje DeepSeek-R1. Brzo je postao svjetska senzacija, zauzevši vrhove ljestvica kao jedan od najpopularnijih chatbota.

DeepSeekov put do vrha bio je sve samo ne lak. U svojim ranim danima tvrtka se oslanjala na Nvidia A100 grafičke čipove, kojima je američka administracija kasnije zabranila izvoz u Kinu. Programeri su zatim prešli na manje snažne H800 čipove, ali su i oni ubrzo nakon toga bili ograničeni. Unatoč ovim izazovima, DeepSeek je uspio stvoriti svoj napredni R1 model koristeći samo 5,6 milijuna dolara vrijedne H800 čipove. Da to stavimo u perspektivu, procjenjuje se da će obuka GPT-4 koštati između 50-100 milijuna dolara.

"Naš najveći izazov nikada nije bio novac, to je embargo na vrhunske čipove", rekao je Liang.

DeepSeek R1

DeepSeek značajke i ključne tehnologije

Za razliku od mnogih drugih popularnih chatbota, DeepSeek modeli su otvorenog koda, što znači da korisnici mogu istražiti kako tehnologija radi ispod haube. Ova transparentnost gradi povjerenje jer osigurava da chatbot nije tajanstvena "crna kutija" — njegovo ponašanje zajednica može ispitati i razumjeti.

Komponente otvorenog koda omogućuju razvojnim programerima i istraživačima da doprinesu poboljšanjima, poprave bugove ili prilagode tehnologiju za specifične potrebe. Zato se projekti otvorenog koda brzo razvijaju zahvaljujući doprinosima zajednice. Vidjet ćete da se nove značajke, poboljšanja i aplikacije pojavljuju brže nego s vlasničkim sustavima.

Neka od važnih tehničkih rješenja koja omogućuju da DeepSeek modeli rade što je moguće učinkovitije:

  • MoE (mješavina stručnjaka)
  • MLA (latentna pažnja s više glava)
  • MTP (predviđanje s više tokena)
MoE (Mixture of Experts)

Mixture of Experts (MoE) tehnika je strojnog učenja koja uključuje kombiniranje predviđanja više specijaliziranih modela ("stručnjaka") za poboljšanje ukupne izvedbe chatbota.

Evo kako to radi u DeepSeeku:

  • DeepSeek vjerojatno ima veliki skup od 256 specijaliziranih neuronskih mreža (stručnjaka). Svaki ekspert manji je model obučen za rukovanje određenim uzorcima ili značajkama u podacima. Na primjer, u obradi prirodnog jezika, jedan stručnjak može se specijalizirati za sintaksu, drugi za semantiku, treći za znanje specifično za domenu itd.
  • Gating mreža odlučuje koje će stručnjake aktivirati za svaki ulazni token. Ocjenjuje unos i dodjeljuje težine stručnjacima, odabirući 8 najboljih stručnjaka koji su najrelevantniji za trenutni token. To osigurava da se u bilo kojem trenutku koristi samo mali podskup od ukupnog broja stručnjaka.
  • Umjesto pokretanja svih 256 stručnjaka za svaki token (što bi bilo računski skupo), aktivira se samo 8 najboljih stručnjaka. Ovo drastično smanjuje računalne troškove, a još uvijek iskorištava puni kapacitet modela.

Aktiviranjem samo malog podskupa stručnjaka, DeepSeek postiže učinkovitost resursa. Model se može skalirati do vrlo velike veličine (u smislu parametara) bez proporcionalnog povećanja izračuna.

MLA (Multi-head Latent Attention)

Latentna pažnja s više glava (MLA) moćan je mehanizam koji kombinira prednosti pažnje s više glava i reprezentacije latentnog prostora za poboljšanje učinkovitosti i performansi.

Evo kako to funkcionira u DeepSeeku:

  • U standardnoj pozornosti s više glava, unos se dijeli na više "glava", od kojih svaka uči fokusirati se na različite aspekte podataka.
  • Ulazni podaci (npr. tekst, slike ili drugi strukturirani podaci) prvo se kodiraju u visokodimenzionalni prikaz.
  • Ulazna reprezentacija projicira se u nižedimenzionalni latentni prostor pomoću naučene transformacije (npr. sloj neuronske mreže).
  • Latentna reprezentacija je podijeljena na više glava, od kojih svaka izračunava rezultate pažnje u latentnom prostoru. To omogućuje modelu da se učinkovito usredotoči na različite aspekte podataka.
  • Radeći u latentnom prostoru, MLA smanjuje računalne troškove mehanizama pažnje, čineći izvedivom obradu velikih skupova podataka ili dugih nizova.

Kombinacija pažnje s više glava i latentnih prikaza omogućuje modelu da uhvati složene obrasce i odnose u podacima, što dovodi do boljih performansi na zadacima kao što su obrada prirodnog jezika, sustavi preporuka ili analiza podataka.

MTP (Multi-Token Prediction)

Varijanta predviđanja s više tokena u DeepSeeku

Predviđanje više tokena (MTP) je tehnika koja se koristi u jezičnim modelima za predviđanje više tokena (riječi ili podriječi) naprijed u nizu, a ne samo sljedećeg tokena. Ovaj pristup može poboljšati sposobnost modela da generira koherentan i kontekstualno točan tekst, jer potiče model da uzme u obzir dugoročne ovisnosti i strukturu podataka.

Evo kako to radi u DeepSeeku:

  • Ulazna sekvenca (npr. rečenica ili odlomak) kodirana je pomoću arhitekture temeljene na transformatoru, koja bilježi kontekstualne informacije o svakom tokenu u sekvenci.
  • DeepSeek modeli imaju više izlaznih glava, od kojih je svaka osposobljena za predviđanje drugog budućeg tokena.
  • Glava 1 predviđa sljedeći token. Glava 2 predviđa token nakon toga. Glava 3 predviđa token dvije pozicije ispred.
  • U vrijeme zaključivanja, model generira tekst autoregresivno, ali obuka s više tokena osigurava da je svako predviđanje utemeljeno na širem kontekstu, što dovodi do koherentnijeg i točnijeg generiranja teksta.

DeepSeek primjenjuje predviđanje s više tokena kako bi poboljšao kvalitetu svojih jezičnih modela, čineći ih učinkovitijima u zadacima poput generiranja teksta, prijevoda i sažimanja.

Aktualni modeli

Dva najnovija modela DeepSeek su DeepSeek-V3 objavljen u prosincu 2024. i DeepSeek-R1 objavljen u siječnju 2025.

V3 je izravni konkurent GPT 4o dok se R1 može usporediti s OpenAI-jevim o1 modelom:

GPT 4o, o1, V3, R1

DeepSeek-V3 je pouzdan izbor za većinu svakodnevnih zadataka, sposoban odgovoriti na pitanja o bilo kojoj temi. Sjaji u razgovorima koji zvuče prirodno i pokazujući kreativnost. Ovaj je model dobar za pisanje, stvaranje sadržaja ili odgovaranje na generička pitanja na koja je vjerojatno već mnogo puta odgovoreno.

DeepSeek-R1, s druge strane, blista kada su u pitanju složeni zadaci rješavanja problema, logike i zaključivanja korak po korak. R1 je dizajniran za rješavanje izazovnih upita koji zahtijevaju temeljitu analizu i strukturirana rješenja. Ovaj je model izvrstan za izazove kodiranja i logička pitanja.

ModelSnageSlabosti
DeepSeek-V3Opća pomoć kodiranja i objašnjavanje koncepata jednostavnijim riječimaMože žrtvovati nešto stručnog znanja za svestranost
 Kreativno pisanje s dubokim razumijevanjem kontekstaMože pretjerano generalizirati u visoko tehničkim domenama
 Pogodan za brzo generiranje sadržajaNedostaje mu sposobnost rasuđivanja
DeepSeek-R1Može se nositi s nišnim tehničkim zadacimaBori se sa širim kontekstom ili dvosmislenim upitima
 Visoka točnost u specijaliziranim domenama (na primjer matematika ili kod)Čvrst i formulatičan rezultat u kreativnim zadacima
 Optimizirano za tehničko pisanje kao što su pravni dokumenti ili akademski sažeciManje prilagodljiv na promjene stila i tonova

Oba modela imaju slične tehničke karakteristike:

 DeepSeek-V3DeepSeek-R1
Osnovni modelDeepSeek-V3-BaseDeepSeek-V3-Base
TipModel opće namjeneModel rasuđivanja
Parametri671 milijarda (37 milijardi aktivirano)671 milijarda (37 milijardi aktivirano)
Duljina konteksta128 tisuća128 tisuća

Ključna razlika je u njihovoj obučenosti. Evo kako je DeepSeek-R1 treniran na V3:

  • Fino podešavanje hladnog početka: Umjesto da se model odmah zatrpa velikim količinama podataka, počinje s manjim skupom podataka visoke kvalitete kako bi se njegovi odgovori od samog početka poboljšali.
  • Učenje s pojačanjem bez ljudskih oznaka: Za razliku od V3, DeepSeek-R1 u potpunosti se oslanja na RL, što znači da uči samostalno razmišljati umjesto da samo oponaša podatke o vježbanju.
  • Uzorkovanje odbijanja za sintetičke podatke: model generira višestruke odgovore, a odabiru se samo najkvalitetniji odgovori za daljnje usavršavanje.
  • Miješanje nadziranih i sintetičkih podataka: Podaci o obuci spajaju najbolje odgovore generirane umjetnom inteligencijom s nadziranim fino podešenim podacima iz DeepSeek-V3.
  • Završni RL proces: Završni krug učenja za potkrepljivanje osigurava da se model dobro generalizira na široku paletu upita i može učinkovito razmišljati o različitim temama.

Pogledajmo sada neka mjerila kako bismo vidjeli kako se V3 i R1 uspoređuju s drugim popularnim modelima:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 i MATH-500 su matematička mjerila, GPQA Diamond i MMLU su testovi općeg znanja, i konačno, Codeforces i SWE-bench Verified su mjerila kodiranja.

Destilirani DeepSeek modeli

Destilacija u umjetnoj inteligenciji je proces stvaranja manjih, učinkovitijih modela od većih, uz očuvanje većine njihove moći razmišljanja uz smanjenje računalnih zahtjeva.

Implementacija V3 i R1 nije praktična za svakoga, budući da zahtijevaju 8 NVIDIA H200 GPU-ova sa 141 GB memorije svaki. Zato je DeepSeek stvorio 6 destiliranih modela u rasponu od 1,5 milijardi do 70 milijardi parametara:

  • Počeli su sa šest modela otvorenog koda od Llame 3.1/3.3 i Qwen 2.5.
  • Zatim je generirao 800.000 visokokvalitetnih uzoraka rezoniranja pomoću R1.
  • I konačno, fino su podesili manje modele na ovim sintetičkim podacima razmišljanja.

Evo kako je ovih šest modela prošlo u ključnim mjerilima, pokazujući svoje sposobnosti u matematici (AIME 2024 i MATH-500), općem znanju (GPQA Diamond) i kodiranju (LiveCode Bench i CodeForces):

DeepSeek-R1 destilirani modeli u mjerilima

Predvidljivo, kako se broj parametara povećavao, rezultati su se poboljšavali. Najlošije je prošao najmanji model s 1,5 milijardi parametara, a najbolji najveći model sa 70 milijardi parametara. Zanimljivo, najuravnoteženiji model izgleda kao Qwen-32B, koji je gotovo jednako dobar kao Llama-70B, iako ima upola manje parametara.

Budućnost DeepSeeka

DeepSeek je u kratkom vremenu postigao izuzetan uspjeh, stekavši globalno priznanje gotovo preko noći. Činilo se da se chatbot pojavio niotkuda, ali postoji rizik da bi jednako brzo mogao nestati. Dugoročno održavanje vidljivosti i povjerenja marke značajan je izazov, posebno na tako visoko konkurentnom tržištu. Tehnički divovi kao što su Google i OpenAI imaju proračune koji daleko premašuju financijske resurse DeepSeeka, a također imaju tehničku prednost.

Jedna od glavnih prepreka s kojom se DeepSeek suočava je jaz u računanju. U usporedbi sa svojim američkim kolegama, DeepSeek djeluje u znatno nepovoljnijem položaju u smislu računalne snage. Ovaj jaz je pogoršan američkim kontrolama izvoza naprednih čipova, koje ograničavaju DeepSeekov pristup najnovijem hardveru potrebnom za razvoj i implementaciju snažnijih modela umjetne inteligencije.

Iako je DeepSeek pokazao impresivnu učinkovitost u svom radu, pristup naprednijim računalnim resursima mogao bi značajno ubrzati njegov napredak i ojačati njegovu konkurentnost u odnosu na tvrtke s većim mogućnostima. Zatvaranje ovog računalnog jaza ključno je za DeepSeek kako bi proširio svoje inovacije i uspostavio se kao jači konkurent na globalnoj sceni.

Ipak, važno je ne slikati previše mračnu sliku, jer je DeepSeek već postigao nešto izvanredno. Tvrtka je dokazala da je čak i s ograničenim resursima moguće stvoriti proizvod svjetske klase - nešto za što su mnogi vjerovali da je moguće postići samo s proračunima od milijardu dolara i golemom infrastrukturom. Uspjeh DeepSeeka vjerojatno će nadahnuti bezbrojne druge i dodatno ubrzati ionako brzi napredak tehnologija umjetne inteligencije.