DeepSeek：人工知能の新時代

DeepSeekはまさに現実となった現象です。リリースからわずか数日後、このチャットボットはApple App Storeで最もダウンロードされたアプリのトップに急浮上し、ChatGPTを追い越しました。多くの人にとって、OpenAIの予算のおよそ14分の1という最小限の投資しか行なっていない、ほとんど無名に近い企業が、誰もが認める市場のリーダーを一時的とはいえ追い越したことは衝撃的な出来事でした。

DeepSeekの沿革

DeepSeekは、中国人億万長者の梁文峰（Liang Wengfeng）氏によって設立されました。梁氏は浙江大学で学び、2007年に電子情報工学の学士号、2010年に情報通信工学の修士号を取得しました。

2008年、梁氏は大学の同級生たちとチームを結成し、金融市場に関するデータを蓄積し、機械学習を用いた定量的な取引の研究を始めました。2016年2月、リャンと2人の工学部の同級生は、取引アルゴリズム（投資、株価のパターン発見など）に人工知能を活用することに重点を置く企業、High-Flyerを共同設立した。

2023年4月、High-Flyerは、株式取引には使用されない人工知能ツールの開発に専念する汎用人工知能研究所を設立した。2023年5月までに、この研究所はDeepSeekという独立した組織となった。

2025年1月、DeepSeekは6710億パラメータのオープンソース推論人工知能モデルであるDeepSeek-R1をリリースし、話題となった。このモデルは瞬く間に人気を博し、米国のApple App Storeで無料アプリの第1位となった。

Liang Wengfeng

主なマイルストーン：

2016年 High-Flyer 設立。当初は人工知能搭載の取引アルゴリズムに重点を置いていたこの企業が、DeepSeek の基礎を築く。
2023年 DeepSeek 設立。4月に High-Flyer の人工汎用知能研究所として設立された DeepSeek は、5月には独立。
2025年 DeepSeek-R1リリース。瞬く間に世界中で話題となり、最も人気の高いチャットボットの1つとしてチャート首位に。

DeepSeekが頂点に上り詰めるまでの道のりは平坦なものではありませんでした。初期の頃は、Nvidia A100グラフィックチップに依存していましたが、後に米国政府により中国への輸出が禁止されました。開発者はその後、性能の劣るH800チップに切り替えたが、それもすぐに制限された。こうした困難にもかかわらず、DeepSeekはわずか560万ドル相当のH800チップを使用して、高度なR1モデルの開発に成功した。GPT-4のトレーニングには5,000万～1億ドルかかると推定されていることを考えると、この事実がよく分かるだろう。

「私たちの最大の課題は決して資金ではありません。ハイエンドチップの禁輸措置です」とLiang氏は語っています。

DeepSeekの機能と主要技術

多くの他の一般的なチャットボットとは異なり、DeepSeekモデルはオープンソースです。つまり、ユーザーは技術がどのように機能するのかを調べることができます。この透明性により、チャットボットが不可解な「ブラックボックス」ではないことが保証され、その動作はコミュニティによって調査され、理解されるため、信頼が構築されます。

オープンソースのコンポーネントにより、開発者や研究者は改善への貢献、バグの修正、特定のニーズに合わせた技術の適応を行うことができます。オープンソースプロジェクトがコミュニティの貢献により急速に進化する傾向にあるのはそのためです。新しい機能や改善、アプリケーションがプロプライエタリなシステムよりも迅速に登場します。

DeepSeekモデルを可能な限り効率的に機能させる重要な技術的ソリューションの一部は以下の通りです。

MoE（エキスパート混合
MLA（マルチヘッド潜在アテンション
MTP（マルチトークン予測

Mixture of Experts（MoE）は、複数の専門モデル（「エキスパート」）の予測を組み合わせることで、チャットボットの全体的なパフォーマンスを向上させる機械学習技術です。

DeepSeekにおけるその仕組みは次の通りです。

DeepSeekには、256の専門ニューラルネットワーク（エキスパート）が存在する可能性が高いです。各エキスパートは、データ内の特定のパターンや特徴を処理するように訓練された、より小規模なモデルです。例えば、自然言語処理では、あるエキスパートは構文に、別のエキスパートは意味論に、また別のエキスパートは特定の分野の知識に特化している、といった具合です。
ゲートネットワークは、各入力トークンに対してどのエキスパートを起動するかを決定します。入力トークンを評価し、エキスパートに重み付けを行い、現在のトークンに最も関連性の高い上位8つのエキスパートを選択します。これにより、全エキスパートのうち、ごく一部のエキスパートのみが常に使用されるようになります。
すべてのトークンに対して256のエキスパートをすべて実行するのではなく（これは計算コストが高くなります）、上位8つのエキスパートのみが起動されます。これにより、モデルの能力を最大限に活用しながら、計算コストを大幅に削減することができます。

DeepSeekは、エキスパートの小部分のみを起動することで、リソースの効率化を実現しています。このモデルは、計算量を比例して増やすことなく、非常に大きなサイズ（パラメータ数）に拡張することができます。

マルチヘッド潜在アテンション（MLA）は、マルチヘッドアテンションと潜在空間表現の長所を組み合わせ、効率性とパフォーマンスを向上させる強力なメカニズムです。

DeepSeekにおけるその仕組みは次の通りです。

標準的なマルチヘッドアテンションでは、入力は複数の「ヘッド」に分割され、それぞれがデータの異なる側面に注目するように学習します。
入力データ（テキスト、画像、その他の構造化データなど）はまず、高次元表現にエンコードされます。
入力表現は、学習済みの変換（ニューラルネットワーク層など）を使用して、低次元の潜在空間に投影されます。
潜在表現は複数のヘッドに分割され、各ヘッドは潜在空間におけるアテンションスコアを計算します。これにより、モデルは効率的にデータのさまざまな側面に注目することができます。
潜在空間で動作することにより、MLAはアテンションメカニズムの計算コストを削減し、大規模なデータセットや長いシーケンスの処理を可能にします。

マルチヘッドアテンションと潜在表現の組み合わせにより、モデルはデータの複雑なパターンや関係性を捉えることができるようになり、自然言語処理、レコメンデーションシステム、データ分析などのタスクのパフォーマンスが向上します。

DeepSeekにおけるマルチトークン予測の変形

マルチトークン予測（MTP）は、言語モデルで使用される手法で、単に次のトークンだけでなく、その後の複数のトークン（単語またはサブワード）を予測します。このアプローチは、モデルがより長期的な依存関係やデータの構造を考慮するように促すため、一貫性があり文脈的に正確なテキストを生成するモデルの能力を向上させることができます。

DeepSeekでの動作は次の通りです。

入力シーケンス（例：文や段落）は、シーケンス内の各トークンに関する文脈情報を取得するトランスフォーマーベースのアーキテクチャを使用してエンコードされます。
DeepSeekモデルには複数の出力ヘッドがあり、それぞれ異なる将来のトークンを予測するように訓練されています。
ヘッド1は次のトークンを予測します。ヘッド2はそれ以降のトークンを予測します。ヘッド3は2つ先のトークンを予測します。
推論時には、モデルはテキストを自己回帰的に生成しますが、マルチトークン・トレーニングにより、各予測はより幅広い文脈から情報を得ているため、より一貫性があり正確なテキスト生成が可能になります。

DeepSeekは、マルチトークン予測を適用して言語モデルの品質を向上させ、テキスト生成、翻訳、要約などのタスクをより効果的に行えるようにしています。

現在のモデル

最新のDeepSeekモデルは、2024年12月にリリースされたDeepSeek-V3と、2025年1月にリリースされたDeepSeek-R1の2つです。

V3はGPT 4oの直接的な競合製品であり、R1はOpenAIのo1モデルと比較することができます。

DeepSeek-V3は、ほとんどの日常的なタスクに信頼性の高い選択肢であり、あらゆるトピックに関する質問に回答することができます。自然な会話や創造性を発揮する際に特に威力を発揮します。このモデルは、文章作成、コンテンツ作成、または過去に何度も回答されている可能性が高い一般的な質問への回答に適しています。

一方、DeepSeek-R1は、複雑な問題解決、論理、段階的な推論作業に優れています。R1は、徹底的な分析と構造化されたソリューションを必要とする難解なクエリに対応するように設計されています。このモデルは、コーディングの課題や論理的な質問に最適です。

モデル	長所	短所
DeepSeek-V3	一般的なコーディング支援と、よりわかりやすい言葉での概念の説明	汎用性を高めるために、ニッチな専門知識を犠牲にしなければならないかもしれない
	文脈を深く理解した上での創造的なライティング	高度に専門的な領域では一般化し過ぎる可能性がある
	コンテンツを素早く作成するのに適している	理性に欠ける
DeepSeek-R1	ニッチな技術的作業を処理できる	より広範な文脈やあいまいなクエリとの格闘
	専門分野（数学やコードなど）における高い精度	創造的な作業における型にはまった硬直的なアウトプット
	法律文書や学術論文の要約などのテクニカルライティングに最適化	スタイルやトーンの変更に適応しにくい

両モデルとも、技術仕様はほぼ同じです。

	DeepSeek-V3	DeepSeek-R1
基本モデル	DeepSeek-V3-Base	DeepSeek-V3-Base
種類	汎用モデル	推論モデル
パラメータ	6710億（370億が有効化）	6710億（370億が有効化）
文脈の長さ	128千	128千

両者の主な違いは、そのトレーニングにあります。DeepSeek-R1がV3でどのようにトレーニングされたかを見てみましょう。

コールドスタートによる微調整：大量のデータをいきなりモデルに投入するのではなく、より小規模で高品質なデータセットから開始し、当初からその応答を洗練させていきます。
強化学習における人間によるラベル付けの排除：DeepSeek-R1はV3とは異なり、完全にRLに依存しているため、単にトレーニングデータを模倣するのではなく、独自に推論することを学習します。
合成データのための拒否サンプリング：モデルは複数の応答を生成し、その中から最も質の高い回答のみが選択され、さらにトレーニングされます。
教師ありデータと合成データのブレンド： トレーニングデータは、DeepSeek-V3による教師ありの微調整データと、AIが生成した最良の回答を統合します。
最終的なRLプロセス： 最後の強化学習により、モデルがさまざまなプロンプトにうまく一般化し、トピック全体で効果的に推論できることが保証されます。

それでは、V3とR1が他の人気モデルと比較してどの程度優れているか、いくつかのベンチマークを見てみましょう。

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024とMATH-500は数学のベンチマーク、GPQA DiamondとMMLUは一般知識テスト、そして最後に、CodeforcesとSWE-bench Verifiedはコーディングのベンチマークです。

DeepSeekモデルの抽出

人工知能における抽出とは、より大きなモデルからより小さく効率的なモデルを作成するプロセスであり、その推論能力の大部分を維持しながら、計算要求を削減します。

V3とR1を導入するのは、それぞれ141GBのメモリを搭載したNVIDIA H200 GPUを8台必要とするため、誰にとっても現実的ではありません。そのため、DeepSeekは15億から700億のパラメータを持つ6つの蒸留モデルを作成しました。

まず、Llama 3.1/3.3とQwen 2.5の6つのオープンソースモデルから始めました。
次に、R1を使用して800,000の高品質な推論サンプルを生成しました。
そして最後に、これらの合成推論データを使用して、より小さいモデルを微調整しました。

これらの6つのモデルが主要なベンチマークでどのような結果を出したかを見てみましょう。数学（AIME 2024およびMATH-500）、一般知識（GPQA Diamond）、コーディング（LiveCode BenchおよびCodeForces）の能力を実証しています。

予想通り、パラメータの数が増加するにつれ、結果も改善しました。15億のパラメータを持つ最小のモデルは最も悪い結果でしたが、70億のパラメータを持つ最大のモデルは最も良い結果でした。興味深いことに、最もバランスの取れたモデルはQwen-32Bに似ており、パラメータ数は半分ですが、Llama-70Bとほぼ同等の性能を示しました。

DeepSeekの将来

DeepSeekは短期間で目覚ましい成功を収め、ほぼ一夜にして世界的な認知度を獲得しました。このチャットボットはどこからともなく現れたかのようですが、同じくらい急速に消え去る危険性もあります。特に競争の激しい市場では、長期的にブランドの認知度と信頼性を維持することは大きな課題です。GoogleやOpenAIのような大手テクノロジー企業は、DeepSeekの資金力をはるかに上回る予算を保有しており、技術的にも優位に立っています。

DeepSeekが直面する大きなハードルのひとつが、コンピューティング能力の格差です。米国の競合企業と比較すると、DeepSeekはコンピューティング能力の面で著しい不利な立場に立たされています。この格差は、米国の高度なチップの輸出規制によってさらに悪化しており、より強力な人工知能モデルの開発と展開に必要な最新ハードウェアへのDeepSeekのアクセスが制限されています。

DeepSeekは業務において素晴らしい効率性を示しているが、より高度な計算リソースへのアクセスがあれば、その進歩を大幅に加速し、より高い能力を持つ企業に対する競争力を強化できるだろう。この計算能力の格差を埋めることは、DeepSeekがその革新を拡大し、世界的な舞台でより強力な競争相手として確立するために不可欠である。

とはいえ、あまり悲観的な見方をすべきではありません。なぜなら、DeepSeekはすでに素晴らしい成果を達成しているからです。同社は、限られたリソースでも世界トップクラスの製品を生み出すことが可能であることを証明しました。これは、多くの人が数十億ドルの予算と大規模なインフラストラクチャがあってこそ可能だと考えていたことです。DeepSeekの成功は、数え切れないほどの企業にインスピレーションを与え、すでに急速に進歩している人工知能技術のさらなる加速につながるでしょう。