Quay lại vấn đề chính

DeepSeek: Một chương mới trong trí tuệ nhân tạo

DeepSeek là một hiện tượng thực sự. Chỉ vài ngày sau khi phát hành, chatbot của Trung Quốc đã tăng vọt lên vị trí đầu bảng các ứng dụng được tải xuống nhiều nhất trên Apple App Store, soán ngôi ChatGPT. Đối với nhiều người, thật sốc khi một công ty tương đối vô danh với khoản đầu tư tối thiểu—ngân sách của công ty này nhỏ hơn khoảng 14 lần so với OpenAI—lại có thể vượt qua, dù chỉ là tạm thời, vị trí dẫn đầu thị trường không thể tranh cãi.

Lịch sử của DeepSeek

DeepSeek được sáng lập bởi tỷ phú người Trung Quốc Liang Wengfeng. Tốt nghiệp Đại học Chiết Giang, Liang nhận bằng Cử nhân Kỹ thuật về kỹ thuật thông tin điện tử năm 2007 và bằng Thạc sĩ Kỹ thuật về kỹ thuật thông tin và truyền thông năm 2010.

Năm 2008, Liang thành lập một nhóm với các bạn cùng lớp đại học để thu thập dữ liệu liên quan đến thị trường tài chính và khám phá giao dịch định lượng bằng cách sử dụng máy học. Vào tháng 2 năm 2016, Liang và hai bạn cùng lớp kỹ sư khác đã đồng sáng lập High-Flyer, một công ty tập trung vào việc tận dụng trí tuệ nhân tạo để giao dịch các thuật toán (đầu tư, phát hiện các mô hình trong giá cổ phiếu, v.v.).

Vào tháng 4 năm 2023, High-Flyer thành lập một phòng thí nghiệm trí tuệ nhân tạo tổng quát chuyên phát triển các công cụ trí tuệ nhân tạo sẽ không được sử dụng để thực hiện giao dịch chứng khoán. Đến tháng 5 năm 2023, phòng thí nghiệm này đã trở thành một thực thể độc lập có tên là DeepSeek.

Vào tháng 1 năm 2025, DeepSeek đã trở thành tiêu đề với việc phát hành DeepSeek-R1, một mô hình trí tuệ nhân tạo suy luận mã nguồn mở có 671 tỷ tham số. Mô hình này nhanh chóng trở nên phổ biến, trở thành ứng dụng miễn phí số một trên Apple App Store của Hoa Kỳ.

Liang Wengfeng

Liang Wengfeng

Các mốc quan trọng:

  • 2016. Quỹ High-Flyer. Công ty này ban đầu tập trung vào các thuật toán giao dịch dựa trên trí tuệ nhân tạo đã đặt nền móng cho DeepSeek.
  • 2023. Quỹ DeepSeek. Được thành lập vào tháng 4 với tư cách là phòng thí nghiệm trí tuệ nhân tạo chung thuộc High-Flyer, DeepSeek đã trở nên độc lập vào tháng 5.
  • 2025. Phát hành DeepSeek-R1. Nó nhanh chóng trở thành một hiện tượng trên toàn thế giới, đứng đầu bảng xếp hạng là một trong những chatbot phổ biến nhất.

Hành trình vươn lên đỉnh cao của DeepSeek không hề dễ dàng. Trong những ngày đầu, công ty dựa vào chip đồ họa Nvidia A100, sau đó đã bị chính quyền Hoa Kỳ cấm xuất khẩu sang Trung Quốc. Sau đó, các nhà phát triển đã chuyển sang chip H800 ít mạnh hơn, nhưng chúng cũng bị hạn chế ngay sau đó. Bất chấp những thách thức này, DeepSeek đã xoay sở để tạo ra mô hình R1 tiên tiến của mình chỉ bằng cách sử dụng chip H800 trị giá 5,6 triệu đô la. Để so sánh, chi phí đào tạo GPT-4 ước tính từ 50–100 triệu đô la.

Liang cho biết: “Thách thức lớn nhất của chúng tôi không phải là tiền, mà là lệnh cấm vận đối với chip cao cấp”.

DeepSeek R1

Các tính năng và công nghệ chính của DeepSeek

Không giống như nhiều chatbot phổ biến khác, các mô hình DeepSeek là mã nguồn mở, nghĩa là người dùng có thể khám phá cách công nghệ hoạt động bên trong. Tính minh bạch này tạo dựng lòng tin, vì nó đảm bảo chatbot không phải là một "hộp đen" bí ẩn—hành vi của nó có thể được cộng đồng kiểm tra và hiểu được.

Các thành phần mã nguồn mở cho phép các nhà phát triển và nhà nghiên cứu đóng góp cải tiến, sửa lỗi hoặc điều chỉnh công nghệ cho các nhu cầu cụ thể. Đó là lý do tại sao các dự án mã nguồn mở có xu hướng phát triển nhanh chóng nhờ vào sự đóng góp của cộng đồng. Bạn sẽ thấy các tính năng, cải tiến và ứng dụng mới xuất hiện nhanh hơn so với các hệ thống độc quyền.

Một số giải pháp kỹ thuật quan trọng giúp các mô hình DeepSeek hoạt động hiệu quả nhất có thể:

  • MoE (Hỗn hợp các chuyên gia)
  • MLA (Sự chú ý tiềm ẩn nhiều đầu)
  • MTP (Dự đoán nhiều token)
MoE (Mixture of Experts)

Hỗn hợp chuyên gia (MoE) là một kỹ thuật học máy liên quan đến việc kết hợp các dự đoán của nhiều mô hình chuyên biệt (các "chuyên gia") để cải thiện hiệu suất tổng thể của chatbot.

Đây là cách thức hoạt động trong DeepSeek:

  • DeepSeek có thể có một nhóm lớn gồm 256 mạng nơ-ron chuyên biệt (chuyên gia). Mỗi chuyên gia là một mô hình nhỏ hơn được đào tạo để xử lý các mẫu hoặc tính năng cụ thể trong dữ liệu. Ví dụ, trong xử lý ngôn ngữ tự nhiên, một chuyên gia có thể chuyên về cú pháp, một chuyên gia khác chuyên về ngữ nghĩa, một chuyên gia khác chuyên về kiến ​​thức chuyên ngành, v.v.
  • Mạng lưới gating quyết định kích hoạt chuyên gia nào cho mỗi token đầu vào. Mạng lưới này đánh giá đầu vào và chỉ định trọng số cho các chuyên gia, chọn 8 chuyên gia hàng đầu có liên quan nhất đến token hiện tại. Điều này đảm bảo rằng chỉ một tập hợp con nhỏ trong tổng số chuyên gia được sử dụng tại bất kỳ thời điểm nào.
  • Thay vì chạy tất cả 256 chuyên gia cho mỗi token (sẽ tốn kém về mặt tính toán), chỉ có 8 chuyên gia hàng đầu được kích hoạt. Điều này giúp giảm đáng kể chi phí tính toán trong khi vẫn tận dụng được toàn bộ khả năng của mô hình.

Bằng cách chỉ kích hoạt một nhóm nhỏ các chuyên gia, DeepSeek đạt được hiệu quả về tài nguyên. Mô hình có thể mở rộng đến quy mô rất lớn (về mặt tham số) mà không cần tăng tỷ lệ tính toán.

MLA (Multi-head Latent Attention)

Sự chú ý tiềm ẩn nhiều đầu (MLA) là một cơ chế mạnh mẽ kết hợp sức mạnh của sự chú ý nhiều đầu và biểu diễn không gian tiềm ẩn để cải thiện hiệu quả và hiệu suất.

Sau đây là cách thức hoạt động trong DeepSeek:

  • Trong sự chú ý nhiều đầu tiêu chuẩn, đầu vào được chia thành nhiều "đầu", mỗi đầu học cách tập trung vào các khía cạnh khác nhau của dữ liệu.
  • Dữ liệu đầu vào (ví dụ: văn bản, hình ảnh hoặc dữ liệu có cấu trúc khác) trước tiên được mã hóa thành biểu diễn có chiều cao.
  • Biểu diễn đầu vào được chiếu vào không gian tiềm ẩn có chiều thấp hơn bằng cách sử dụng phép biến đổi đã học (ví dụ: lớp mạng nơ-ron).
  • Biểu diễn tiềm ẩn được chia thành nhiều đầu, mỗi đầu tính điểm chú ý trong không gian tiềm ẩn. Điều này cho phép mô hình tập trung vào các khía cạnh khác nhau của dữ liệu một cách hiệu quả.
  • Bằng cách hoạt động trong không gian tiềm ẩn, MLA giảm chi phí tính toán của các cơ chế chú ý, giúp khả thi khi xử lý các tập dữ liệu lớn hoặc chuỗi dài.

Sự kết hợp giữa sự chú ý đa đầu và biểu diễn tiềm ẩn cho phép mô hình nắm bắt các mẫu và mối quan hệ phức tạp trong dữ liệu, dẫn đến hiệu suất tốt hơn cho các tác vụ như xử lý ngôn ngữ tự nhiên, hệ thống đề xuất hoặc phân tích dữ liệu.

MTP (Multi-Token Prediction)

Biến thể của dự đoán đa token trong DeepSeek

Dự đoán nhiều token (MTP) là một kỹ thuật được sử dụng trong các mô hình ngôn ngữ để dự đoán nhiều token (từ hoặc từ phụ) trước trong một chuỗi, thay vì chỉ token tiếp theo. Phương pháp này có thể cải thiện khả năng tạo văn bản mạch lạc và chính xác theo ngữ cảnh của mô hình, vì nó khuyến khích mô hình xem xét các mối quan hệ phụ thuộc và cấu trúc dài hạn hơn trong dữ liệu.

Sau đây là cách thức hoạt động trong DeepSeek:

  • Chuỗi đầu vào (ví dụ: một câu hoặc đoạn văn) được mã hóa bằng kiến ​​trúc dựa trên bộ chuyển đổi, kiến ​​trúc này nắm bắt thông tin theo ngữ cảnh về từng mã thông báo trong chuỗi.
  • Các mô hình DeepSeek có nhiều đầu ra, mỗi đầu được đào tạo để dự đoán một token tương lai khác nhau.
  • Đầu 1 dự đoán token tiếp theo. Đầu 2 dự đoán token sau đó. Đầu 3 dự đoán token trước hai vị trí.
  • Tại thời điểm suy luận, mô hình tạo văn bản theo phương pháp tự hồi quy, nhưng quá trình đào tạo nhiều mã thông báo đảm bảo rằng mỗi dự đoán đều được thông báo bởi một ngữ cảnh rộng hơn, dẫn đến việc tạo văn bản mạch lạc và chính xác hơn.

DeepSeek áp dụng dự đoán đa token để nâng cao chất lượng của các mô hình ngôn ngữ, giúp chúng hiệu quả hơn trong các tác vụ như tạo văn bản, dịch và tóm tắt.

Các mô hình hiện tại

Hai trong số các mô hình DeepSeek mới nhất là DeepSeek-V3 phát hành vào tháng 12 năm 2024 và DeepSeek-R1 phát hành vào tháng 1 năm 2025.

V3 là đối thủ cạnh tranh trực tiếp với GPT 4o trong khi R1 có thể được so sánh với mô hình o1 của OpenAI:

GPT 4o, o1, V3, R1

DeepSeek-V3 là lựa chọn đáng tin cậy cho hầu hết các tác vụ hàng ngày, có khả năng trả lời các câu hỏi về bất kỳ chủ đề nào. Nó tỏa sáng khi có các cuộc trò chuyện nghe tự nhiên và thể hiện sự sáng tạo. Mô hình này phù hợp để viết, tạo nội dung hoặc trả lời các câu hỏi chung chung có khả năng đã được trả lời nhiều lần trước đó.

Ngược lại, DeepSeek-R1 tỏa sáng khi nói đến các tác vụ giải quyết vấn đề phức tạp, logic và lý luận từng bước. R1 được thiết kế để giải quyết các truy vấn đầy thách thức đòi hỏi phải phân tích kỹ lưỡng và các giải pháp có cấu trúc. Mô hình này rất phù hợp cho các thách thức về mã hóa và các câu hỏi nặng về logic.

Người mẫuĐiểm mạnhĐiểm yếu
DeepSeek-V3Hỗ trợ mã hóa chung và giải thích các khái niệm theo cách đơn giản hơnCó thể hy sinh một số chuyên môn thích hợp để đổi lấy tính linh hoạt
 Viết sáng tạo với sự hiểu biết sâu sắc về bối cảnhCó thể khái quát quá mức trong các lĩnh vực kỹ thuật cao
 Thích hợp cho việc tạo nội dung nhanh chóngThiếu khả năng suy luận
DeepSeek-R1Có thể xử lý các nhiệm vụ kỹ thuật chuyên sâuGặp khó khăn với bối cảnh rộng hơn hoặc các truy vấn mơ hồ
 Độ chính xác cao trong các lĩnh vực chuyên môn (ví dụ như toán học hoặc mã)Đầu ra cứng nhắc và theo khuôn mẫu trong các nhiệm vụ sáng tạo
 Được tối ưu hóa cho việc viết các văn bản kỹ thuật như tài liệu pháp lý hoặc tóm tắt học thuậtÍt thích ứng với sự thay đổi về phong cách và tông màu

Cả hai mẫu đều có thông số kỹ thuật tương tự nhau:

 DeepSeek-V3DeepSeek-R1
Mô hình cơ sởDeepSeek-V3-BaseDeepSeek-V3-Base
KiểuMô hình mục đích chungMô hình lý luận
Các tham số671 tỷ (37 tỷ đã kích hoạt)671 tỷ (37 tỷ đã kích hoạt)
Độ dài ngữ cảnh128 ngàn128 ngàn

Sự khác biệt chính nằm ở quá trình đào tạo của chúng. Sau đây là cách DeepSeek-R1 được đào tạo trên V3:

  • Tinh chỉnh khởi động nguội: Thay vì áp đảo mô hình bằng khối lượng dữ liệu lớn ngay lập tức, mô hình bắt đầu với một tập dữ liệu nhỏ hơn, chất lượng cao để tinh chỉnh phản hồi của mô hình ngay từ đầu.
  • Học tăng cường không có nhãn của con người: Không giống như V3, DeepSeek-R1 hoàn toàn dựa vào RL, nghĩa là mô hình học cách lý luận độc lập thay vì chỉ bắt chước dữ liệu đào tạo.
  • Lấy mẫu từ chối cho dữ liệu tổng hợp: Mô hình tạo ra nhiều phản hồi và chỉ những câu trả lời chất lượng tốt nhất mới được chọn để đào tạo thêm.
  • Kết hợp dữ liệu có giám sát và dữ liệu tổng hợp: Dữ liệu đào tạo kết hợp các phản hồi tốt nhất do trí tuệ nhân tạo tạo ra với dữ liệu tinh chỉnh có giám sát từ DeepSeek-V3.
  • Quy trình RL cuối cùng: Vòng học tăng cường cuối cùng đảm bảo mô hình tổng quát hóa tốt với nhiều lời nhắc khác nhau và có thể lý luận hiệu quả trên nhiều chủ đề.

Bây giờ, chúng ta hãy xem xét một số điểm chuẩn để xem cả V3 và R1 so sánh với các mô hình phổ biến khác như thế nào:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 và MATH-500 là các chuẩn mực toán học, GPQA Diamond và MMLU là các bài kiểm tra kiến ​​thức chung và cuối cùng, Codeforces và SWE-bench Verified là các chuẩn mực lập trình.

Các mô hình DeepSeek đã được chưng cất

Quá trình chưng cất trong trí tuệ nhân tạo là quá trình tạo ra các mô hình nhỏ hơn, hiệu quả hơn từ các mô hình lớn hơn, đồng thời bảo toàn phần lớn khả năng suy luận của chúng đồng thời giảm nhu cầu tính toán.

Việc triển khai V3 và R1 không thực tế đối với tất cả mọi người, vì chúng yêu cầu 8 GPU NVIDIA H200 với 141GB bộ nhớ mỗi GPU. Đó là lý do tại sao DeepSeek đã tạo ra 6 mô hình tinh chế có phạm vi từ 1,5 tỷ đến 70 tỷ tham số:

  • Họ bắt đầu với sáu mô hình nguồn mở từ Llama 3.1/3.3 và Qwen 2.5.
  • Sau đó, tạo ra 800.000 mẫu suy luận chất lượng cao bằng R1.
  • Và cuối cùng, họ tinh chỉnh các mô hình nhỏ hơn trên dữ liệu suy luận tổng hợp này.

Sau đây là cách sáu mô hình này hoạt động trong các điểm chuẩn chính, chứng minh khả năng của chúng về toán học (AIME 2024 và MATH-500), kiến ​​thức chung (GPQA Diamond) và mã hóa (LiveCode Bench và CodeForces):

Các mô hình được tinh chế của DeepSeek-R1 trong các điểm chuẩn

Có thể dự đoán được, khi số lượng tham số tăng lên, kết quả sẽ được cải thiện. Mô hình nhỏ nhất với 1,5 tỷ tham số hoạt động kém nhất, trong khi mô hình lớn nhất với 70 tỷ tham số hoạt động tốt nhất. Thật kỳ lạ, mô hình cân bằng nhất trông giống như Qwen-32B, gần như tốt bằng Llama-70B, mặc dù nó có một nửa số tham số.

Tương lai của DeepSeek

DeepSeek đã đạt được thành công đáng kể trong thời gian ngắn, được công nhận trên toàn cầu chỉ sau một đêm. Chatbot này dường như xuất hiện từ hư không, nhưng có nguy cơ nó có thể biến mất nhanh chóng. Duy trì khả năng hiển thị và lòng tin của thương hiệu trong thời gian dài là một thách thức đáng kể, đặc biệt là trong một thị trường cạnh tranh cao như vậy. Những gã khổng lồ công nghệ như Google và OpenAI có ngân sách vượt xa nguồn lực tài chính của DeepSeek và họ cũng nắm giữ lợi thế về mặt kỹ thuật.

Một trong những rào cản lớn mà DeepSeek phải đối mặt là khoảng cách tính toán. So với các đối thủ tại Hoa Kỳ, DeepSeek hoạt động ở thế bất lợi đáng kể về sức mạnh tính toán. Khoảng cách này càng trầm trọng hơn do lệnh kiểm soát xuất khẩu của Hoa Kỳ đối với các chip tiên tiến, hạn chế quyền truy cập của DeepSeek vào phần cứng mới nhất cần thiết để phát triển và triển khai các mô hình trí tuệ nhân tạo mạnh mẽ hơn.

Mặc dù DeepSeek đã thể hiện hiệu quả ấn tượng trong hoạt động của mình, nhưng việc tiếp cận các nguồn lực tính toán tiên tiến hơn có thể đẩy nhanh đáng kể tiến độ của công ty và tăng cường khả năng cạnh tranh của công ty so với các công ty có năng lực lớn hơn. Việc thu hẹp khoảng cách tính toán này là rất quan trọng để DeepSeek mở rộng quy mô đổi mới và khẳng định mình là đối thủ mạnh hơn trên trường quốc tế.

Nói như vậy, điều quan trọng là không nên vẽ nên một bức tranh quá ảm đạm, vì DeepSeek đã đạt được một điều gì đó đáng chú ý. Công ty đã chứng minh rằng ngay cả với nguồn lực hạn chế, vẫn có thể tạo ra một sản phẩm đẳng cấp thế giới—điều mà nhiều người tin rằng chỉ có thể đạt được với ngân sách hàng tỷ đô la và cơ sở hạ tầng khổng lồ. Thành công của DeepSeek có thể sẽ truyền cảm hứng cho vô số người khác và thúc đẩy hơn nữa sự tiến bộ vốn đã nhanh chóng của các công nghệ trí tuệ nhân tạo.