DeepSeek: บทใหม่แห่งปัญญาประดิษฐ์
DeepSeek เป็นปรากฏการณ์ที่แท้จริง เพียงไม่กี่วันหลังจากเปิดตัว แชทบอทของจีนก็พุ่งทะยานขึ้นสู่อันดับหนึ่งของแอปที่มีการดาวน์โหลดมากที่สุดใน App Store ของ Apple แซงหน้า ChatGPT ไปแล้ว สำหรับหลายๆ คนแล้ว การที่บริษัทที่ไม่ค่อยมีใครรู้จักและมีการลงทุนเพียงเล็กน้อย (ซึ่งมีงบประมาณน้อยกว่า OpenAI ประมาณ 14 เท่า) สามารถแซงหน้าผู้นำตลาดที่ไม่มีใครโต้แย้งได้ แม้จะชั่วคราวก็ตาม ถือเป็นเรื่องที่น่าตกใจ
ประวัติของ DeepSeek
DeepSeek ก่อตั้งโดย Liang Wengfeng มหาเศรษฐีชาวจีน Liang จบการศึกษาจากมหาวิทยาลัยเจ้อเจียง สำเร็จการศึกษาระดับปริญญาตรีวิศวกรรมศาสตร์ สาขาวิศวกรรมข้อมูลอิเล็กทรอนิกส์ในปี 2007 และปริญญาโทวิศวกรรมศาสตร์ สาขาวิศวกรรมสารสนเทศและการสื่อสารในปี 2010
ในปี 2008 Liang ได้ร่วมทีมกับเพื่อนร่วมชั้นเรียนที่มหาวิทยาลัยเพื่อรวบรวมข้อมูลที่เกี่ยวข้องกับตลาดการเงินและสำรวจการซื้อขายเชิงปริมาณโดยใช้การเรียนรู้ของเครื่องจักร ในเดือนกุมภาพันธ์ 2016 Liang และเพื่อนร่วมชั้นเรียนวิศวกรรมอีกสองคนได้ร่วมกันก่อตั้ง High-Flyer ซึ่งเป็นบริษัทที่มุ่งเน้นการใช้ประโยชน์จากปัญญาประดิษฐ์สำหรับอัลกอริทึมการซื้อขาย (การลงทุน การระบุรูปแบบในราคาหุ้น ฯลฯ)
ในเดือนเมษายน 2023 High-Flyer ได้ก่อตั้งห้องปฏิบัติการปัญญาประดิษฐ์ทั่วไปที่อุทิศให้กับการพัฒนาเครื่องมือปัญญาประดิษฐ์ซึ่งจะไม่ใช้ในการดำเนินการซื้อขายหุ้น ภายในเดือนพฤษภาคม 2023 ห้องปฏิบัติการนี้ได้กลายเป็นหน่วยงานอิสระที่มีชื่อว่า DeepSeek
ในเดือนมกราคม 2025 DeepSeek กลายเป็นข่าวหน้าหนึ่งด้วยการเปิดตัว DeepSeek-R1 ซึ่งเป็นโมเดลปัญญาประดิษฐ์แบบโอเพนซอร์สที่ใช้การคิดแบบมีเหตุผลซึ่งมีพารามิเตอร์ 671 พันล้านตัว โมเดลนี้ได้รับความนิยมอย่างรวดเร็ว และกลายเป็นแอปฟรีอันดับหนึ่งใน App Store ของ Apple ในสหรัฐอเมริกา

Liang Wengfeng
เหตุการณ์สำคัญ:
- 2016. ก่อตั้ง High-Flyer บริษัทนี้มุ่งเน้นไปที่อัลกอริทึมการซื้อขายที่ขับเคลื่อนด้วยปัญญาประดิษฐ์ในช่วงแรก ซึ่งได้วางรากฐานสำหรับ DeepSeek
- 2023. ก่อตั้ง DeepSeek ก่อตั้งขึ้นในเดือนเมษายนในฐานะห้องปฏิบัติการปัญญาประดิษฐ์ทั่วไปภายใต้ High-Flyer DeepSeek ได้รับสถานะอิสระในเดือนพฤษภาคม
- 2025 เปิดตัว DeepSeek-R1 ซึ่งกลายเป็นปรากฏการณ์ทั่วโลกอย่างรวดเร็ว โดยติดอันดับหนึ่งในแชทบ็อตที่ได้รับความนิยมสูงสุด
การเดินทางสู่จุดสูงสุดของ DeepSeek นั้นไม่ง่ายเลย ในช่วงแรก บริษัทใช้ชิปกราฟิก Nvidia A100 ซึ่งต่อมารัฐบาลสหรัฐฯ ได้ห้ามการส่งออกไปยังจีน จากนั้นนักพัฒนาก็เปลี่ยนไปใช้ชิป H800 ที่มีประสิทธิภาพน้อยกว่า แต่ชิปเหล่านี้ก็ถูกจำกัดไม่นานหลังจากนั้น แม้จะมีความท้าทายเหล่านี้ แต่ DeepSeek ก็สามารถสร้างโมเดล R1 ขั้นสูงได้โดยใช้ชิป H800 มูลค่าเพียง 5.6 ล้านเหรียญสหรัฐ หากนำมาเปรียบเทียบกันแล้ว การฝึกอบรม GPT-4 คาดว่าจะมีค่าใช้จ่ายอยู่ระหว่าง 50–100 ล้านดอลลาร์
“ความท้าทายที่ใหญ่ที่สุดของเราไม่เคยเป็นเรื่องเงิน แต่เป็นการห้ามขายชิประดับไฮเอนด์” เหลียงกล่าว

คุณสมบัติและเทคโนโลยีสำคัญของ DeepSeek
แตกต่างจากแชทบ็อตยอดนิยมอื่นๆ หลายๆ ตัว โมเดล DeepSeek เป็นโอเพ่นซอร์ส ซึ่งหมายความว่าผู้ใช้สามารถสำรวจวิธีการทำงานของเทคโนโลยีเบื้องหลังได้ ความโปร่งใสนี้สร้างความไว้วางใจ เนื่องจากช่วยให้แน่ใจว่าแชทบ็อตไม่ใช่ "กล่องดำ" ที่ลึกลับ พฤติกรรมของมันสามารถตรวจสอบและทำความเข้าใจได้โดยชุมชน
ส่วนประกอบโอเพ่นซอร์สช่วยให้ผู้พัฒนาและนักวิจัยสามารถมีส่วนร่วมในการปรับปรุง แก้ไขข้อบกพร่อง หรือปรับเทคโนโลยีให้เหมาะกับความต้องการเฉพาะเจาะจงได้ นั่นคือเหตุผลที่โครงการโอเพ่นซอร์สจึงมักพัฒนาอย่างรวดเร็วเนื่องจากการสนับสนุนจากชุมชน คุณจะเห็นคุณสมบัติใหม่ การปรับปรุง และแอปพลิเคชันที่เกิดขึ้นเร็วกว่าระบบที่เป็นกรรมสิทธิ์
โซลูชันทางเทคนิคที่สำคัญบางส่วนที่ทำให้โมเดล DeepSeek ทำงานได้อย่างมีประสิทธิภาพมากที่สุด:
- MoE (Mixture of Experts)
- MLA (Multi-head Latent Attention)
- MTP (Multi-Token Prediction)

การผสมผสานผู้เชี่ยวชาญ (Mixture of Experts: MoE) เป็นเทคนิคการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการรวมการคาดการณ์ของโมเดลเฉพาะทางหลาย ๆ โมเดล ("ผู้เชี่ยวชาญ") เพื่อปรับปรุงประสิทธิภาพโดยรวมของแชทบอท
วิธีการทำงานใน DeepSeek มีดังนี้:
- DeepSeek อาจมีเครือข่ายประสาทเทียมเฉพาะทาง 256 เครือข่ายขนาดใหญ่ (ผู้เชี่ยวชาญ) ผู้เชี่ยวชาญแต่ละคนเป็นโมเดลขนาดเล็กที่ได้รับการฝึกให้จัดการกับรูปแบบหรือคุณลักษณะเฉพาะในข้อมูล ตัวอย่างเช่น ในการประมวลผลภาษาธรรมชาติ ผู้เชี่ยวชาญคนหนึ่งอาจเชี่ยวชาญในด้านไวยากรณ์ อีกคนเชี่ยวชาญด้านความหมาย อีกคนเชี่ยวชาญด้านความรู้เฉพาะโดเมน เป็นต้น
- เครือข่ายเกตติ้งจะตัดสินใจว่าจะเปิดใช้งานผู้เชี่ยวชาญคนใดสำหรับโทเค็นอินพุตแต่ละรายการ เครือข่ายจะประเมินอินพุตและกำหนดน้ำหนักให้กับผู้เชี่ยวชาญ โดยเลือกผู้เชี่ยวชาญ 8 อันดับแรกที่มีความเกี่ยวข้องกับโทเค็นปัจจุบันมากที่สุด วิธีนี้จะช่วยให้มั่นใจว่ามีการใช้เฉพาะผู้เชี่ยวชาญกลุ่มย่อยเล็ก ๆ ของทั้งหมดในแต่ละช่วงเวลา
- แทนที่จะเรียกใช้ผู้เชี่ยวชาญทั้งหมด 256 คนสำหรับโทเค็นทุกอัน (ซึ่งจะต้องใช้การคำนวณมาก) มีเพียงผู้เชี่ยวชาญ 8 อันดับแรกเท่านั้นที่เปิดใช้งาน วิธีนี้ช่วยลดต้นทุนการคำนวณได้อย่างมากในขณะที่ยังคงใช้ประโยชน์จากความจุทั้งหมดของโมเดลได้
ด้วยการเปิดใช้งานผู้เชี่ยวชาญเพียงกลุ่มย่อย DeepSeek จึงสามารถใช้ประโยชน์จากทรัพยากรได้อย่างมีประสิทธิภาพ โมเดลสามารถปรับขนาดให้ใหญ่ขึ้นได้ (ในแง่ของพารามิเตอร์) โดยไม่ต้องเพิ่มการคำนวณตามสัดส่วน

ความสนใจแฝงแบบหลายหัว (MLA) เป็นกลไกที่มีประสิทธิภาพซึ่งรวมจุดแข็งของความสนใจแบบหลายหัวและการแสดงพื้นที่แฝงเพื่อปรับปรุงประสิทธิภาพและประสิทธิผล
วิธีการทำงานใน DeepSeek มีดังนี้:
- ในการให้ความสนใจแบบหลายหัวมาตรฐาน อินพุตจะถูกแบ่งออกเป็น "หัว" หลายหัว ซึ่งแต่ละหัวจะเรียนรู้ที่จะโฟกัสที่ด้านต่างๆ ของข้อมูล
- ข้อมูลอินพุต (เช่น ข้อความ รูปภาพ หรือข้อมูลที่มีโครงสร้างอื่นๆ) จะถูกเข้ารหัสเป็นการแสดงที่มีมิติสูงก่อน
- การแสดงอินพุตจะถูกฉายลงในพื้นที่แฝงที่มีมิติต่ำกว่าโดยใช้การแปลงที่เรียนรู้ (เช่น ชั้นเครือข่ายประสาท)
- การแสดงที่แฝงจะถูกแบ่งออกเป็นหลายหัว ซึ่งแต่ละหัวจะคำนวณคะแนนความสนใจในพื้นที่แฝง ซึ่งช่วยให้แบบจำลองสามารถโฟกัสที่ด้านต่างๆ ของข้อมูลได้อย่างมีประสิทธิภาพ
- MLA ลดต้นทุนการคำนวณของกลไกความสนใจโดยการทำงานในพื้นที่แฝง ทำให้สามารถประมวลผลชุดข้อมูลขนาดใหญ่หรือลำดับยาวได้
การผสมผสานระหว่างการใส่ใจหลายหัวและการแสดงแบบแฝงทำให้โมเดลสามารถจับรูปแบบและความสัมพันธ์ที่ซับซ้อนในข้อมูลได้ ส่งผลให้ประสิทธิภาพในการทำงานดีขึ้น เช่น การประมวลผลภาษาธรรมชาติ ระบบคำแนะนำ หรือการวิเคราะห์ข้อมูล

รูปแบบการทำนายแบบหลายโทเค็นใน DeepSeek
การทำนายหลายโทเค็น (Multi-token prediction: MTP) เป็นเทคนิคที่ใช้ในโมเดลภาษาเพื่อทำนายโทเค็นหลายตัว (คำหรือคำย่อย) ล่วงหน้าในลำดับ แทนที่จะทำนายเฉพาะโทเค็นตัวถัดไปเท่านั้น แนวทางนี้สามารถปรับปรุงความสามารถของโมเดลในการสร้างข้อความที่สอดคล้องและถูกต้องตามบริบทได้ เนื่องจากแนวทางนี้สนับสนุนให้โมเดลพิจารณาความสัมพันธ์และโครงสร้างในระยะยาวในข้อมูล
วิธีการทำงานใน DeepSeek มีดังนี้:
- ลำดับอินพุต (เช่น ประโยคหรือย่อหน้า) จะถูกเข้ารหัสโดยใช้สถาปัตยกรรมตามตัวแปลง ซึ่งจะรวบรวมข้อมูลตามบริบทเกี่ยวกับแต่ละโทเค็นในลำดับ
- โมเดล DeepSeek มีเฮดเอาต์พุตหลายเฮด ซึ่งแต่ละเฮดจะได้รับการฝึกให้ทำนายโทเค็นในอนาคตที่แตกต่างกัน
- เฮด 1 ทำนายโทเค็นตัวถัดไป เฮด 2 ทำนายโทเค็นตัวถัดไป เฮด 3 ทำนายโทเค็นสองตำแหน่งข้างหน้า
- ในเวลาอนุมาน โมเดลจะสร้างข้อความโดยอัตโนมัติ แต่การฝึกโทเค็นหลายตัวช่วยให้มั่นใจว่าการทำนายแต่ละครั้งจะได้รับข้อมูลจากบริบทที่กว้างขึ้น ส่งผลให้สร้างข้อความได้สอดคล้องและแม่นยำยิ่งขึ้น
DeepSeek ใช้การทำนายโทเค็นหลายตัวเพื่อปรับปรุงคุณภาพของโมเดลภาษา ทำให้มีประสิทธิภาพมากขึ้นในการทำงาน เช่น การสร้างข้อความ การแปล และการสรุป
รุ่นปัจจุบัน
DeepSeek รุ่นล่าสุด 2 รุ่น ได้แก่ DeepSeek-V3 ที่เปิดตัวในเดือนธันวาคม 2024 และ DeepSeek-R1 ที่เปิดตัวในเดือนมกราคม 2025
V3 เป็นคู่แข่งโดยตรงของ GPT 4o ในขณะที่ R1 สามารถเปรียบเทียบกับโมเดล o1 ของ OpenAI ได้:

DeepSeek-V3 เป็นตัวเลือกที่เชื่อถือได้สำหรับงานในชีวิตประจำวันส่วนใหญ่ สามารถตอบคำถามในหัวข้อใดก็ได้ โดดเด่นด้วยการสนทนาที่ฟังดูเป็นธรรมชาติและแสดงความคิดสร้างสรรค์ โมเดลนี้เหมาะสำหรับการเขียน การสร้างเนื้อหา หรือการตอบคำถามทั่วไปที่มักได้รับคำตอบมาแล้วหลายครั้ง
ในทางกลับกัน DeepSeek-R1 โดดเด่นเมื่อต้องแก้ปัญหาที่ซับซ้อน ตรรกะ และงานการใช้เหตุผลแบบทีละขั้นตอน R1 ได้รับการออกแบบมาเพื่อจัดการกับคำถามที่ท้าทายซึ่งต้องการการวิเคราะห์อย่างละเอียดและวิธีแก้ปัญหาที่มีโครงสร้าง โมเดลนี้ยอดเยี่ยมสำหรับการเขียนโค้ดที่ท้าทายและคำถามที่เน้นตรรกะ
| แบบอย่าง | จุดแข็ง | จุดอ่อน |
| DeepSeek-V3 | ความช่วยเหลือทั่วไปในการเขียนโค้ดและการอธิบายแนวคิดในแง่ที่ง่ายกว่า | อาจต้องเสียสละความเชี่ยวชาญเฉพาะด้านบางส่วนเพื่อความคล่องตัว |
| การเขียนเชิงสร้างสรรค์โดยเข้าใจบริบทอย่างลึกซึ้ง | อาจสรุปโดยรวมเกินไปในโดเมนที่เป็นเทคนิคขั้นสูง | |
| เหมาะสำหรับการสร้างเนื้อหาอย่างรวดเร็ว | ขาดความสามารถในการใช้เหตุผล | |
| DeepSeek-R1 | สามารถจัดการงานทางเทคนิคเฉพาะได้ | ดิ้นรนกับบริบทที่กว้างขึ้นหรือคำถามที่คลุมเครือ |
| ความแม่นยำสูงในโดเมนเฉพาะทาง (เช่น คณิตศาสตร์หรือโค้ด) | เอาต์พุตแบบตายตัวและมีสูตรสำเร็จในงานสร้างสรรค์ | |
| เหมาะสำหรับการเขียนทางเทคนิค เช่น เอกสารทางกฎหมายหรือบทสรุปทางวิชาการ | ปรับตัวตามสไตล์และการเปลี่ยนแปลงโทนสีได้น้อยลง |
ทั้งสองรุ่นมีคุณสมบัติทางเทคนิคที่คล้ายกัน:
| DeepSeek-V3 | DeepSeek-R1 | |
| แบบจำลองฐาน | DeepSeek-V3-Base | DeepSeek-V3-Base |
| พิมพ์ | รุ่นเอนกประสงค์ | แบบจำลองการใช้เหตุผล |
| พารามิเตอร์ | 671 พันล้าน (เปิดใช้งานแล้ว 37 พันล้าน) | 671 พันล้าน (เปิดใช้งานแล้ว 37 พันล้าน) |
| ความยาวของบริบท | 128,000 | 128,000 |
ความแตกต่างที่สำคัญอยู่ที่การฝึกอบรม นี่คือวิธีการฝึกอบรม DeepSeek-R1 บน V3:
- การปรับจูนแบบเริ่มต้นเย็น: แทนที่จะทำให้โมเดลล้นหลามด้วยข้อมูลปริมาณมากทันที โมเดลจะเริ่มต้นด้วยชุดข้อมูลคุณภาพสูงขนาดเล็กกว่าเพื่อปรับแต่งการตอบสนองตั้งแต่เริ่มต้น
- การเรียนรู้แบบเสริมแรงโดยไม่มีป้ายกำกับของมนุษย์: แตกต่างจาก V3, DeepSeek-R1 พึ่งพา RL ทั้งหมด ซึ่งหมายความว่าโมเดลเรียนรู้ที่จะใช้เหตุผลอย่างอิสระแทนที่จะเลียนแบบข้อมูลการฝึกอบรมเท่านั้น
- การสุ่มตัวอย่างการปฏิเสธสำหรับข้อมูลสังเคราะห์: โมเดลจะสร้างการตอบสนองหลายแบบ และจะเลือกเฉพาะคำตอบที่มีคุณภาพดีที่สุดเพื่อฝึกอบรมตัวเองต่อไป
- การผสมผสานข้อมูลที่มีการดูแลและข้อมูลสังเคราะห์: ข้อมูลการฝึกอบรมจะผสานการตอบสนองที่สร้างโดยปัญญาประดิษฐ์ที่ดีที่สุดเข้ากับข้อมูลที่ปรับแต่งอย่างละเอียดภายใต้การดูแลจาก DeepSeek-V3
- กระบวนการ RL สุดท้าย: การเรียนรู้แบบเสริมแรงรอบสุดท้ายช่วยให้มั่นใจได้ว่าโมเดลจะสรุปผลได้ดีกับคำแนะนำที่หลากหลาย และสามารถให้เหตุผลได้อย่างมีประสิทธิภาพในหัวข้อต่างๆ
ตอนนี้มาดูเกณฑ์มาตรฐานเพื่อดูว่า V3 และ R1 เปรียบเทียบกับรุ่นยอดนิยมอื่น ๆ ได้อย่างไร:

AIME 2024 และ MATH-500 เป็นเกณฑ์มาตรฐานทางคณิตศาสตร์ GPQA Diamond และ MMLU เป็นการทดสอบความรู้ทั่วไป และสุดท้าย Codeforces และ SWE-bench Verified เป็นเกณฑ์มาตรฐานการเขียนโค้ด
แบบจำลอง DeepSeek ที่กลั่นแล้ว
การกลั่นในปัญญาประดิษฐ์เป็นกระบวนการสร้างแบบจำลองที่เล็กลงและมีประสิทธิภาพมากขึ้นจากแบบจำลองที่มีขนาดใหญ่ขึ้น โดยรักษาพลังในการใช้เหตุผลไว้เป็นส่วนใหญ่ในขณะที่ลดความต้องการในการคำนวณ
การปรับใช้ V3 และ R1 นั้นไม่เหมาะสำหรับทุกคน เนื่องจากต้องใช้ GPU NVIDIA H200 จำนวน 8 ตัวพร้อมหน่วยความจำ 141GB ต่อตัว นั่นเป็นเหตุผลที่ DeepSeek จึงสร้างโมเดลที่กลั่นกรองแล้ว 6 โมเดลซึ่งมีพารามิเตอร์ตั้งแต่ 1,500 ถึง 70,000 ล้านพารามิเตอร์:
- พวกเขาเริ่มต้นด้วยโมเดลโอเพ่นซอร์ส 6 โมเดลจาก Llama 3.1/3.3 และ Qwen 2.5
- จากนั้นจึงสร้างตัวอย่างการใช้เหตุผลคุณภาพสูงจำนวน 800,000 ตัวอย่างโดยใช้ R1
- และสุดท้าย พวกเขาปรับแต่งโมเดลขนาดเล็กลงบนข้อมูลการใช้เหตุผลสังเคราะห์เหล่านี้
นี่คือผลงานของโมเดลทั้ง 6 โมเดลในเกณฑ์มาตรฐานสำคัญ โดยแสดงให้เห็นถึงความสามารถทางคณิตศาสตร์ (AIME 2024 และ MATH-500) ความรู้ทั่วไป (GPQA Diamond) และการเขียนโค้ด (LiveCode Bench และ CodeForces):

ตามที่คาดไว้ เมื่อจำนวนพารามิเตอร์เพิ่มขึ้น ผลลัพธ์จะดีขึ้น โมเดลที่เล็กที่สุดที่มีพารามิเตอร์ 1.5 พันล้านตัวมีประสิทธิภาพแย่ที่สุด ในขณะที่โมเดลที่ใหญ่ที่สุดที่มีพารามิเตอร์ 70 พันล้านตัวมีประสิทธิภาพดีที่สุด ที่น่าสนใจคือ โมเดลที่สมดุลที่สุดนั้นดูเหมือน Qwen-32B ซึ่งเกือบจะดีเท่ากับ Llama-70B แม้ว่าจะมีพารามิเตอร์น้อยกว่าครึ่งหนึ่งก็ตาม
อนาคตของ DeepSeek
DeepSeek ประสบความสำเร็จอย่างน่าทึ่งภายในเวลาอันสั้น โดยได้รับการยอมรับในระดับโลกแทบจะในชั่วข้ามคืน แชทบอทดูเหมือนจะปรากฏขึ้นโดยไม่รู้สาเหตุ แต่ก็มีความเสี่ยงที่มันอาจจะหายไปอย่างรวดเร็วเช่นกัน การรักษาการมองเห็นแบรนด์และความไว้วางใจในระยะยาวถือเป็นความท้าทายที่สำคัญ โดยเฉพาะอย่างยิ่งในตลาดที่มีการแข่งขันสูงเช่นนี้ ยักษ์ใหญ่ด้านเทคโนโลยีอย่าง Google และ OpenAI มีงบประมาณที่เกินกว่าทรัพยากรทางการเงินของ DeepSeek มาก และยังมีข้อได้เปรียบทางเทคนิคอีกด้วย
อุปสรรคสำคัญประการหนึ่งที่ DeepSeek เผชิญคือช่องว่างการประมวลผล เมื่อเปรียบเทียบกับคู่แข่งในสหรัฐฯ แล้ว DeepSeek ดำเนินการในสถานะที่เสียเปรียบอย่างมากในแง่ของพลังการประมวลผล ช่องว่างนี้ยิ่งเลวร้ายลงเนื่องจากการควบคุมการส่งออกชิปขั้นสูงของสหรัฐฯ ซึ่งจำกัดการเข้าถึงฮาร์ดแวร์ล่าสุดที่จำเป็นในการพัฒนาและปรับใช้โมเดลปัญญาประดิษฐ์ที่มีประสิทธิภาพมากขึ้นของ DeepSeek
แม้ว่า DeepSeek จะแสดงให้เห็นถึงประสิทธิภาพที่น่าประทับใจในการดำเนินงาน แต่การเข้าถึงทรัพยากรการประมวลผลขั้นสูงยิ่งขึ้นสามารถเร่งความก้าวหน้าได้อย่างมากและเพิ่มความสามารถในการแข่งขันกับบริษัทที่มีความสามารถสูงกว่า การปิดช่องว่างการประมวลผลนี้ถือเป็นสิ่งสำคัญสำหรับ DeepSeek ในการขยายนวัตกรรมและสร้างตัวเองให้เป็นผู้ท้าชิงที่แข็งแกร่งขึ้นบนเวทีระดับโลก
ถึงกระนั้น สิ่งสำคัญคือต้องไม่วาดภาพที่ดูสิ้นหวังเกินไป เพราะ DeepSeek ได้บรรลุสิ่งที่น่าทึ่งไปแล้ว บริษัทได้พิสูจน์แล้วว่าแม้จะมีทรัพยากรจำกัด แต่ก็สามารถสร้างผลิตภัณฑ์ระดับโลกได้ ซึ่งหลายคนเชื่อว่าจะทำได้ก็ต่อเมื่อมีงบประมาณเป็นพันล้านดอลลาร์และโครงสร้างพื้นฐานขนาดใหญ่ ความสำเร็จของ DeepSeek น่าจะสร้างแรงบันดาลใจให้กับคนอื่นๆ อีกนับไม่ถ้วน และเร่งความก้าวหน้าอย่างรวดเร็วของเทคโนโลยีปัญญาประดิษฐ์ให้เร็วขึ้นไปอีก