Ana sayfaya geri dön

DeepSeek: Yapay Zekada Yeni Bir Bölüm

DeepSeek gerçek bir fenomen. Çinli sohbet robotu, piyasaya sürülmesinden sadece birkaç gün sonra Apple App Store'da en çok indirilen uygulamaların zirvesine fırlayarak ChatGPT'yi tahtından indirdi. Pek çok kişi için, nispeten az yatırım yapan ve pek tanınmayan bir şirketin (bütçesi OpenAI'ninkinden yaklaşık 14 kat daha küçük) pazarın tartışmasız liderini geçici olarak da olsa geride bırakmayı başarması şok etkisi yarattı.

DeepSeek'in Tarihçesi

DeepSeek Çinli milyarder Liang Wengfeng tarafından kurulmuştur. Zhejiang Üniversitesi'nde eğitim gören Liang, 2007 yılında elektronik bilişim mühendisliği alanında lisans, 2010 yılında ise bilişim ve iletişim mühendisliği alanında yüksek lisans derecesi aldı.

Liang, 2008 yılında üniversitedeki sınıf arkadaşlarıyla birlikte finansal piyasalarla ilgili verileri toplamak ve makine öğrenimini kullanarak kantitatif ticareti keşfetmek için bir ekip kurdu. Şubat 2016'da Liang ve diğer iki mühendislik sınıf arkadaşı, ticaret algoritmaları (yatırım yapmak, hisse senedi fiyatlarındaki kalıpları tespit etmek vb.) için yapay zekadan yararlanmaya odaklanan bir şirket olan High-Flyer'ı kurdu.

Nisan 2023'te High-Flyer, hisse senedi ticareti yapmak için kullanılmayacak yapay zeka araçları geliştirmeye adanmış bir yapay genel zeka laboratuvarı kurdu. Mayıs 2023'te bu laboratuvar DeepSeek adında bağımsız bir kuruluş haline geldi.

Ocak 2025'te DeepSeek, 671 milyar parametreli açık kaynaklı bir muhakeme yapay zeka modeli olan DeepSeek-R1'in piyasaya sürülmesiyle manşetlere çıktı. Model hızla popülerlik kazanarak ABD Apple App Store'da bir numaralı ücretsiz uygulama haline geldi.

Liang Wengfeng

Liang Wengfeng

Kilometre taşları:

  • 2016. High-Flyer kuruluşu. Başlangıçta yapay zeka ticaret algoritmalarına odaklanan bu şirket DeepSeek için zemin hazırladı.
  • 2023. DeepSeek'in kuruluşu. Nisan ayında High-Flyer altında bir yapay genel zeka laboratuvarı olarak kurulan DeepSeek, Mayıs ayında bağımsız hale geldi.
  • 2025. DeepSeek-R1 sürümü. Kısa sürede dünya çapında bir sansasyon haline geldi ve en popüler sohbet robotlarından biri olarak listelerin zirvesine yerleşti.

DeepSeek'in zirveye giden yolculuğu hiç de kolay olmadı. Şirket ilk günlerinde, daha sonra ABD yönetimi tarafından Çin'e ihracatı yasaklanan Nvidia A100 grafik yongalarına güveniyordu. Geliştiriciler daha sonra daha az güçlü H800 çiplerine geçti, ancak bunlar da kısa süre sonra kısıtlandı. Bu zorluklara rağmen DeepSeek gelişmiş R1 modelini sadece 5,6 milyon dolar değerinde H800 çip kullanarak oluşturmayı başardı. Bunu bir perspektife oturtmak gerekirse, GPT-4 eğitiminin 50-100 milyon dolara mal olduğu tahmin ediliyor.

Liang, “En büyük zorluğumuz hiçbir zaman para olmadı, üst düzey çiplere uygulanan ambargo oldu” dedi.

DeepSeek R1

DeepSeek özellikleri ve temel teknolojileri

Diğer birçok popüler sohbet robotunun aksine, DeepSeek modelleri açık kaynaklıdır, yani kullanıcılar teknolojinin kaputun altında nasıl çalıştığını keşfedebilir. Bu şeffaflık, sohbet robotunun gizemli bir “kara kutu” olmamasını sağladığı için güven oluşturur - davranışları topluluk tarafından incelenebilir ve anlaşılabilir.

Açık kaynaklı bileşenler, geliştiricilerin ve araştırmacıların iyileştirmelere katkıda bulunmasına, hataları düzeltmesine veya teknolojiyi belirli ihtiyaçlara göre uyarlamasına olanak tanır. Bu nedenle açık kaynaklı projeler, topluluk katkıları sayesinde hızla gelişmeye meyillidir. Yeni özelliklerin, iyileştirmelerin ve uygulamaların tescilli sistemlere kıyasla daha hızlı ortaya çıktığını göreceksiniz.

DeepSeek modellerinin mümkün olduğunca verimli çalışmasını sağlayan önemli teknik çözümlerden bazıları:

  • MoE (Uzmanların Karışımı)
  • MLA (Çok Başlı Gizli Dikkat)
  • MTP (Çoklu Token Tahmini)
MoE (Mixture of Experts)

Uzmanların Karışımı (MoE), sohbet botunun genel performansını artırmak için birden fazla özel modelin (“uzmanlar”) tahminlerini birleştirmeyi içeren bir makine öğrenimi tekniğidir.

DeepSeek'te nasıl çalıştığı aşağıda açıklanmıştır:

  • DeepSeek muhtemelen 256 özel sinir ağından (uzman) oluşan büyük bir havuza sahiptir. Her uzman, verilerdeki belirli kalıpları veya özellikleri işlemek için eğitilmiş daha küçük bir modeldir. Örneğin, doğal dil işlemede, bir uzman sözdiziminde, diğeri anlambilimde, bir diğeri alana özgü bilgide vb. uzmanlaşabilir.
  • Bir geçit ağı, her bir girdi tokeni için hangi uzmanların etkinleştirileceğine karar verir. Girdiyi değerlendirir ve uzmanlara ağırlıklar atayarak mevcut token ile en alakalı ilk 8 uzmanı seçer. Bu, herhangi bir zamanda toplam uzmanların yalnızca küçük bir alt kümesinin kullanılmasını sağlar.
  • Her belirteç için 256 uzmanın tamamını çalıştırmak yerine (ki bu hesaplama açısından pahalı olacaktır), yalnızca en iyi 8 uzman etkinleştirilir. Bu, modelin tam kapasitesinden yararlanmaya devam ederken hesaplama maliyetini büyük ölçüde azaltır.

DeepSeek, yalnızca küçük bir uzman alt kümesini etkinleştirerek kaynak verimliliği elde eder. Model, hesaplamada orantılı bir artış olmadan çok büyük bir boyuta (parametreler açısından) ölçeklenebilir.

MLA (Multi-head Latent Attention)

Çok Kafalı Gizli Dikkat (MLA), verimliliği ve performansı artırmak için çok kafalı dikkat ve gizli alan temsillerinin güçlü yönlerini birleştiren güçlü bir mekanizmadır.

DeepSeek'te şu şekilde çalışır:

  • Standart çok kafalı dikkatte girdi, her biri verilerin farklı yönlerine odaklanmayı öğrenen birden fazla “kafaya” bölünür.
  • Girdi verileri (örneğin, metin, görüntü veya diğer yapılandırılmış veriler) önce yüksek boyutlu bir temsile kodlanır.
  • Girdi temsili, öğrenilen bir dönüşüm (örneğin bir sinir ağı katmanı) kullanılarak daha düşük boyutlu bir gizli uzaya yansıtılır.
  • Gizli temsil, her biri gizli uzaydaki dikkat puanlarını hesaplayan birden fazla kafaya bölünür. Bu, modelin verilerin farklı yönlerine verimli bir şekilde odaklanmasını sağlar.
  • Gizli bir uzayda çalışan MLA, dikkat mekanizmalarının hesaplama maliyetini düşürerek büyük veri kümelerinin veya uzun dizilerin işlenmesini mümkün kılar.

Çok başlı dikkat ve gizli temsillerin kombinasyonu, modelin verilerdeki karmaşık kalıpları ve ilişkileri yakalamasını sağlayarak doğal dil işleme, öneri sistemleri veya veri analizi gibi görevlerde daha iyi performans elde edilmesini sağlar.

MTP (Multi-Token Prediction)

DeepSeek'te Çoklu Token Tahmini Varyantı

Çoklu token tahmini (MTP), dil modellerinde sadece bir sonraki token yerine bir dizide ilerideki birden fazla tokenı (kelimeler veya alt kelimeler) tahmin etmek için kullanılan bir tekniktir. Bu yaklaşım, modeli verilerdeki daha uzun vadeli bağımlılıkları ve yapıyı dikkate almaya teşvik ettiği için modelin tutarlı ve bağlamsal olarak doğru metin üretme becerisini geliştirebilir.

DeepSeek'te şu şekilde çalışır:

  • Giriş dizisi (örneğin bir cümle veya paragraf), dizideki her bir belirteçle ilgili bağlamsal bilgileri yakalayan dönüştürücü tabanlı bir mimari kullanılarak kodlanır.
  • DeepSeek modelleri, her biri gelecekteki farklı bir tokeni tahmin etmek üzere eğitilmiş birden fazla çıktı başlığına sahiptir.
  • Başlık 1 bir sonraki belirteci tahmin eder. Kafa 2, ondan sonraki jetonu tahmin eder. Kafa 3, iki konum ilerideki belirteci tahmin eder.
  • Çıkarım zamanında, model metni otoregresif olarak üretir, ancak çoklu token eğitimi, her tahminin daha geniş bir bağlam tarafından bilgilendirilmesini sağlayarak daha tutarlı ve doğru metin üretimine yol açar.

DeepSeek, dil modellerinin kalitesini artırmak için çoklu token tahminini uygulayarak metin oluşturma, çeviri ve özetleme gibi görevlerde daha etkili olmalarını sağlar.

Güncel modeller

En yeni DeepSeek modellerinden ikisi Aralık 2024'te yayınlanan DeepSeek-V3 ve Ocak 2025'te yayınlanan DeepSeek-R1'dir.

V3, GPT 4o'nun doğrudan rakibiyken R1, OpenAI'nin o1 modeliyle karşılaştırılabilir:

GPT 4o, o1, V3, R1

DeepSeek-V3, her konudaki soruları yanıtlayabilen, çoğu günlük görev için güvenilir bir seçimdir. Kulağa doğal gelen konuşmalar yapma ve yaratıcılığı sergileme konusunda parlıyor. Bu model yazı yazmak, içerik oluşturmak veya daha önce birçok kez yanıtlanmış genel soruları yanıtlamak için iyidir.

Öte yandan DeepSeek-R1, karmaşık problem çözme, mantık ve adım adım akıl yürütme görevleri söz konusu olduğunda parlar. R1, kapsamlı analiz ve yapılandırılmış çözümler gerektiren zorlu sorguların üstesinden gelmek için tasarlanmıştır. Bu model, kodlama zorlukları ve mantık ağırlıklı sorular için harikadır.

ModelGüçlü YönlerZayıf Yönler
DeepSeek-V3Genel kodlama yardımı ve kavramların daha basit terimlerle açıklanmasıÇok yönlülük için bazı niş uzmanlıklardan feragat edebilir
 Bağlamı derinlemesine anlayan yaratıcı yazarlıkOldukça teknik alanlarda aşırı genelleme yapabilir
 Hızlı içerik üretimi için çok uygunMuhakeme yeteneğinden yoksun
DeepSeek-R1Niş teknik görevlerin üstesinden gelebilirDaha geniş bağlam veya muğlak sorgularla mücadele
 Özel alanlarda yüksek doğruluk (örneğin matematik veya kod)Yaratıcı görevlerde katı ve kalıplaşmış çıktılar
 Yasal belgeler veya akademik özetler gibi teknik yazılar için optimize edilmiştirStil ve ton değişikliklerine daha az uyarlanabilir

Her iki model de benzer teknik özelliklere sahiptir:

 DeepSeek-V3DeepSeek-R1
Temel modelDeepSeek-V3-BaseDeepSeek-V3-Base
TipGenel amaçlı modelMantık yürütme modeli
Parametreler671 milyar (37 milyar aktifleştirilmiş)671 milyar (37 milyar aktifleştirilmiş)
Bağlam uzunluğu128 bin128 bin

En önemli fark eğitimlerinde. DeepSeek-R1'in V3 üzerinde nasıl eğitildiği aşağıda açıklanmıştır:

  • Soğuk Başlangıç İnce Ayarı: Modeli hemen büyük hacimli verilerle boğmak yerine, başlangıçtan itibaren yanıtlarını hassaslaştırmak için daha küçük, yüksek kaliteli bir veri kümesiyle başlar.
  • İnsan Etiketleri Olmadan Takviyeli Öğrenme: V3'ün aksine, DeepSeek-R1 tamamen RL'ye dayanır, yani sadece eğitim verilerini taklit etmek yerine bağımsız olarak akıl yürütmeyi öğrenir.
  • Sentetik Veriler için Reddetme Örneklemesi: Model birden fazla yanıt üretir ve yalnızca en kaliteli yanıtlar kendisini daha fazla eğitmek için seçilir.
  • Denetimli ve Sentetik Verilerin Harmanlanması: Eğitim verileri, yapay zeka tarafından üretilen en iyi yanıtları DeepSeek-V3'ün denetimli ince ayarlı verileriyle birleştirir.
  • Son RL Süreci: Son bir takviye öğrenme turu, modelin çok çeşitli istemlere iyi bir şekilde genelleştirilmesini ve konular arasında etkili bir şekilde mantık yürütebilmesini sağlar.

Şimdi, hem V3 hem de R1'in diğer popüler modellerle nasıl karşılaştırıldığını görmek için bazı kıyaslamalara bakalım:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 ve MATH-500 matematik benchmarkları, GPQA Diamond ve MMLU genel bilgi testleri ve son olarak Codeforces ve SWE-bench Verified kodlama benchmarklarıdır.

Damıtılmış DeepSeek modelleri

Yapay zekada damıtma, daha büyük modellerden daha küçük, daha verimli modeller oluşturma, hesaplama taleplerini azaltırken muhakeme güçlerinin çoğunu koruma sürecidir.

Her biri 141 GB belleğe sahip 8 NVIDIA H200 GPU gerektirdiğinden, V3 ve R1'i dağıtmak herkes için pratik değildir. Bu nedenle DeepSeek, 1,5 milyar ila 70 milyar parametre arasında değişen 6 damıtılmış model oluşturdu:

  • Llama 3.1/3.3 ve Qwen 2.5'ten altı açık kaynaklı modelle başladılar.
  • Ardından, R1 kullanarak 800.000 yüksek kaliteli muhakeme örneği oluşturdular.
  • Ve son olarak, bu sentetik akıl yürütme verileri üzerinde daha küçük modellere ince ayar yaptılar.

İşte bu altı modelin matematik (AIME 2024 ve MATH-500), genel bilgi (GPQA Diamond) ve kodlama (LiveCode Bench ve CodeForces) alanlarındaki yeteneklerini gösteren temel karşılaştırmalarda nasıl bir performans sergiledikleri:

Kıyaslamalarda DeepSeek-R1 damıtılmış modelleri

Tahmin edilebileceği gibi, parametre sayısı arttıkça sonuçlar da iyileşmiştir. En küçük model 1,5 milyar parametre ile en kötü performansı gösterirken, en büyük model 70 milyar parametre ile en iyi performansı göstermiştir. İlginç bir şekilde, en dengeli model Qwen-32B'ye benziyor ve yarısı kadar parametreye sahip olmasına rağmen neredeyse Llama-70B kadar iyi.

DeepSeek'in Geleceği

DeepSeek kısa sürede kayda değer bir başarı elde etti ve neredeyse bir gecede dünya çapında tanınırlık kazandı. Sohbet robotu bir anda ortaya çıkmış gibi görünüyordu, ancak aynı hızla kaybolma riski de var. Marka görünürlüğünü ve güvenini uzun vadede korumak, özellikle de rekabetin bu kadar yüksek olduğu bir pazarda önemli bir zorluktur. Google ve OpenAI gibi teknoloji devlerinin bütçeleri DeepSeek'in mali kaynaklarını çok aşıyor ve teknik üstünlükleri de var.

DeepSeek'in karşılaştığı en büyük engellerden biri hesaplama açığı. ABD'li meslektaşlarıyla karşılaştırıldığında DeepSeek hesaplama gücü açısından önemli bir dezavantaja sahip. Bu boşluk, DeepSeek'in daha güçlü yapay zeka modelleri geliştirmek ve dağıtmak için gereken en yeni donanıma erişimini sınırlayan gelişmiş çipler üzerindeki ABD ihracat kontrolleri nedeniyle daha da kötüleşiyor.

DeepSeek faaliyetlerinde etkileyici bir verimlilik göstermiş olsa da, daha gelişmiş hesaplama kaynaklarına erişim, ilerlemesini önemli ölçüde hızlandırabilir ve daha büyük yeteneklere sahip şirketlere karşı rekabet gücünü güçlendirebilir. Bu hesaplama açığının kapatılması, DeepSeek'in inovasyonlarını ölçeklendirmesi ve küresel sahnede daha güçlü bir rakip olarak yer alması için çok önemlidir.

Bununla birlikte, çok kasvetli bir tablo çizmemek önemlidir, çünkü DeepSeek zaten dikkate değer bir şey başarmıştır. Şirket, sınırlı kaynaklarla bile dünya standartlarında bir ürün yaratmanın mümkün olduğunu kanıtladı - birçok kişinin yalnızca milyar dolarlık bütçeler ve devasa altyapı ile başarılabileceğine inandığı bir şey. DeepSeek'in başarısı muhtemelen sayısız kişiye ilham verecek ve yapay zeka teknolojilerinin zaten hızlı olan ilerlemesini daha da hızlandıracaktır.