DeepSeek: 인공지능의 새로운 장
DeepSeek은 진정한 현상입니다. 출시된 지 며칠 만에 중국 챗봇이 애플 앱스토어에서 가장 많이 다운로드된 앱의 1위 자리를 차지하며 ChatGPT를 제치고 1위를 차지했습니다. 많은 사람들에게, 상대적으로 잘 알려지지 않은 회사(OpenAI의 예산이 약 14배에 불과함)가 일시적이기는 하지만 확실한 시장 선두 주자를 추월했다는 사실은 충격이었습니다.
DeepSeek의 역사
DeepSeek은 중국의 억만장자 량 웬펑(Liang Wengfeng)이 설립했습니다. 저장대학교에서 공부한 량 씨는 2007년에 전자정보공학 학사 학위를, 2010년에 정보 및 통신공학 석사 학위를 받았습니다.
2008년에 량 씨는 대학 동기들과 팀을 이루어 금융 시장과 관련된 데이터를 축적하고 머신러닝을 이용한 양적 거래를 탐구했습니다. 2016년 2월, Liang과 다른 두 명의 공대 동창은 거래 알고리즘(투자, 주가 패턴 파악 등)에 인공지능을 활용하는 회사인 High-Flyer를 공동 설립했습니다.
2023년 4월, High-Flyer는 주식 거래에 사용되지 않는 인공지능 도구 개발을 전담하는 인공지능 종합 연구소를 설립했습니다. 2023년 5월, 이 연구소는 DeepSeek라는 독립 법인으로 분리되었습니다.
2025년 1월, DeepSeek은 6,710억 개의 매개 변수를 가진 오픈 소스 추론 인공지능 모델인 DeepSeek-R1의 출시로 헤드라인을 장식했습니다. 이 모델은 빠르게 인기를 얻어 미국 애플 앱 스토어에서 무료 앱 1위를 차지했습니다.

Liang Wengfeng
주요 이정표:
- 2016. High-Flyer 설립. 이 회사는 처음에는 인공지능 기반의 거래 알고리즘에 중점을 두었고, DeepSeek의 토대를 마련했습니다.
- 2023. DeepSeek 설립. 4월에 High-Flyer 산하의 인공 일반 지능 연구소로 설립된 DeepSeek은 5월에 독립했습니다.
- 2025년. DeepSeek-R1 출시. 이 제품은 순식간에 전 세계적으로 큰 인기를 끌면서 가장 인기 있는 챗봇 중 하나로 차트 1위를 차지했습니다.
DeepSeek이 정상에 오르는 과정은 결코 쉽지 않았습니다. 초창기에는 Nvidia A100 그래픽 칩에 의존했지만, 나중에 미국 정부에 의해 중국 수출이 금지되었습니다. 개발자들은 그 후 성능이 떨어지는 H800 칩으로 전환했지만, 이 칩도 얼마 지나지 않아 제한을 받게 되었습니다. 이러한 어려움에도 불구하고, DeepSeek은 560만 달러 상당의 H800 칩을 사용하여 고급 R1 모델을 만들었습니다. 이를 비교해 보면, GPT-4를 훈련하는 데는 5천만~1억 달러의 비용이 소요될 것으로 추정됩니다.
“우리의 가장 큰 도전은 돈이 아니라, 고급 칩에 대한 수출 금지입니다."라고 Liang은 말했습니다.

DeepSeek의 기능과 핵심 기술
다른 많은 인기 있는 챗봇과 달리, DeepSeek 모델은 오픈 소스입니다. 즉, 사용자들이 이 기술이 어떻게 작동하는지 내부적으로 탐색할 수 있습니다. 이러한 투명성은 신뢰를 구축합니다. 챗봇이 신비로운 “블랙박스”가 아니라는 것을 보장하기 때문입니다. 커뮤니티에서 챗봇의 행동을 조사하고 이해할 수 있습니다.
오픈 소스 구성 요소를 통해 개발자와 연구자들은 개선에 기여하고, 버그를 수정하거나, 특정 요구에 맞게 기술을 조정할 수 있습니다. 그래서 오픈 소스 프로젝트는 커뮤니티의 기여 덕분에 빠르게 발전하는 경향이 있습니다. 독점 시스템보다 더 빨리 새로운 기능, 개선 사항, 응용 프로그램이 등장하는 것을 볼 수 있습니다.
DeepSeek 모델을 최대한 효율적으로 작동하게 만드는 몇 가지 중요한 기술 솔루션은 다음과 같습니다.
- MoE(전문가 혼합)
- MLA(다중 헤드 잠재적 주의)
- MTP(다중 토큰 예측)

전문가 혼합(Mixture of Experts, MoE)은 여러 전문 모델(이하 “전문가”)의 예측을 결합하여 챗봇의 전반적인 성능을 향상시키는 머신 러닝 기법입니다.
다음은 DeepSeek에서 작동하는 방식입니다.
- DeepSeek에는 256개의 전문 신경망(전문가)으로 구성된 대규모 풀이 있을 가능성이 큽니다. 각 전문가는 데이터의 특정 패턴이나 특징을 처리하도록 훈련된 작은 모델입니다. 예를 들어, 자연어 처리 분야에서 한 전문가는 구문에 특화되어 있을 수 있고, 다른 전문가는 의미론에 특화되어 있을 수 있으며, 또 다른 전문가는 특정 분야에 특화되어 있을 수 있습니다.
- 게이팅 네트워크는 각 입력 토큰에 대해 어떤 전문가를 활성화할지 결정합니다. 이 네트워크는 입력을 평가하고 전문가에게 가중치를 할당하여 현재 토큰과 가장 관련성이 높은 상위 8명의 전문가를 선택합니다. 이렇게 하면 전체 전문가 중 소수의 하위 집합만 특정 시점에 사용되도록 할 수 있습니다.
- 모든 토큰에 대해 256명의 전문가를 모두 가동하는 대신(계산 비용이 많이 듭니다), 상위 8명의 전문가만 가동합니다. 이렇게 하면 모델의 전체 용량을 활용하면서 계산 비용을 대폭 줄일 수 있습니다.
소수의 전문가만 가동함으로써 DeepSeek은 자원 효율성을 달성합니다. 이 모델은 계산의 비례적 증가 없이도 (매개변수 측면에서) 매우 큰 규모로 확장할 수 있습니다.

다중 헤드 잠재적 주의(MLA)는 다중 헤드 주의와 잠재적 공간 표현의 장점을 결합하여 효율성과 성능을 향상시키는 강력한 메커니즘입니다.
다음은 DeepSeek에서 작동하는 방식입니다.
- 표준 다중 헤드 주의에서는 입력이 여러 개의 “헤드”로 분할되며, 각 헤드마다 데이터의 다양한 측면에 집중하는 법을 배웁니다.
- 입력 데이터(예: 텍스트, 이미지 또는 기타 구조화된 데이터)는 먼저 고차원 표현으로 인코딩됩니다.
- 입력 표현은 학습된 변환(예: 신경망 레이어)을 사용하여 저차원 잠재 공간으로 투영됩니다.
- 잠재 표현은 여러 개의 헤드로 분할되며, 각 헤드는 잠재 공간에서 주의 점수를 계산합니다. 이를 통해 모델이 데이터의 다양한 측면에 효율적으로 집중할 수 있습니다.
- 잠재 공간에서 작동함으로써 MLA는 주의 메커니즘의 계산 비용을 줄여 대용량 데이터 세트나 긴 시퀀스를 처리할 수 있게 해줍니다.
다중 헤드 주의와 잠재 표현의 결합으로 인해 모델이 데이터의 복잡한 패턴과 관계를 포착할 수 있게 되어, 자연어 처리, 추천 시스템, 데이터 분석과 같은 작업에서 더 나은 성과를 거둘 수 있게 해줍니다.

DeepSeek의 다중 토큰 예측의 변형
다중 토큰 예측(MTP)은 언어 모델에서 사용되는 기술로, 다음 토큰이 아닌 순서상 앞의 여러 토큰(단어 또는 하위 단어)을 예측합니다. 이 접근 방식은 모델이 데이터의 장기적인 의존성과 구조를 고려하도록 유도하기 때문에 일관되고 문맥적으로 정확한 텍스트를 생성하는 모델의 능력을 향상시킬 수 있습니다.
DeepSeek에서 작동하는 방식은 다음과 같습니다.
- 입력 시퀀스(예: 문장 또는 단락)는 시퀀스의 각 토큰에 대한 문맥 정보를 캡처하는 트랜스포머 기반 아키텍처를 사용하여 인코딩됩니다.
- DeepSeek 모델에는 여러 개의 출력 헤드가 있으며, 각 헤드는 서로 다른 미래의 토큰을 예측하도록 훈련됩니다.
- 헤드 1은 다음 토큰을 예측합니다. 헤드 2는 그 다음 토큰을 예측합니다. 헤드 3은 두 위치 앞의 토큰을 예측합니다.
- 추론 시, 모델은 텍스트를 자동 회귀적으로 생성하지만, 멀티 토큰 훈련은 각 예측이 더 넓은 맥락에서 정보를 얻도록 보장하여 보다 일관되고 정확한 텍스트 생성을 가능하게 합니다.
DeepSeek은 언어 모델의 품질을 향상시키기 위해 멀티 토큰 예측을 적용하여 텍스트 생성, 번역, 요약과 같은 작업에서 더 효과적으로 사용할 수 있도록 합니다.
현재 모델
가장 최근의 DeepSeek 모델 두 가지는 2024년 12월에 출시된 DeepSeek-V3와 2025년 1월에 출시된 DeepSeek-R1입니다.
V3는 GPT 4o의 직접적인 경쟁자이고, R1은 OpenAI의 o1 모델과 비교할 수 있습니다.

DeepSeek-V3는 대부분의 일상적인 작업에 적합한 신뢰할 수 있는 선택이며, 어떤 주제에 대한 질문에도 대답할 수 있습니다. 자연스러운 대화를 하고 창의성을 발휘할 수 있다는 점에서 뛰어납니다. 이 모델은 글쓰기, 콘텐츠 제작 또는 이전에 여러 번 답변했을 가능성이 있는 일반적인 질문에 답변하는 데 적합합니다.
반면, DeepSeek-R1은 복잡한 문제 해결, 논리, 단계별 추론 작업에 탁월합니다. R1은 철저한 분석과 체계적인 해결책이 필요한 까다로운 질문을 해결하기 위해 설계되었습니다. 이 모델은 코딩 문제와 논리적으로 어려운 질문에 적합합니다.
| 모델 | 장점 | 약점 |
| DeepSeek-V3 | 일반적인 코딩 지원 및 개념을 더 쉽게 설명 | 다재다능함을 위해 일부 틈새 전문성을 희생할 수 있습니다 |
| 문맥을 깊이 이해하는 창의적 글쓰기 | 고도의 기술적 영역에서 과도한 일반화를 할 수 있습니다 | |
| 빠른 콘텐츠 생성에 적합 | 추론 능력이 부족하다 | |
| DeepSeek-R1 | 틈새 기술 작업 처리 가능 | 더 넓은 맥락이나 애매한 질문에 대한 고민 |
| 전문 분야(예: 수학 또는 코드)에서 높은 정확도 | 창의적 작업의 엄격하고 공식적인 결과물 | |
| 법률 문서나 학술 요약문과 같은 기술적 글쓰기에 최적화 | 스타일과 어조의 변화에 적응하기 어려움 |
두 모델 모두 기술 사양이 비슷합니다:
| DeepSeek-V3 | DeepSeek-R1 | |
| 기본 모델 | DeepSeek-V3-Base | DeepSeek-V3-Base |
| 입력 | 범용 모델 | Reasoning model |
| 매개 변수 | 6,710억(활성화된 370억) | 6,710억(활성화된 370억) |
| 컨텍스트 길이 | 128,000 | 128,000 |
그들의 훈련 방식이 핵심적인 차이점입니다. V3에서 DeepSeek-R1이 훈련된 방법은 다음과 같습니다.
- 콜드 스타트 미세 조정: 많은 양의 데이터로 모델을 압도하는 대신, 처음부터 응답을 개선하기 위해 작은 고품질 데이터 세트로 시작합니다.
- 인간 레이블이 없는 강화 학습: V3와 달리, DeepSeek-R1은 전적으로 RL에 의존합니다. 즉, 훈련 데이터를 모방하는 대신 독립적으로 추론하는 법을 배웁니다.
- 합성 데이터에 대한 거부 샘플링: 이 모델은 여러 가지 응답을 생성하고, 그중에서도 가장 질이 좋은 답변만 선택하여 스스로를 더 훈련시킵니다.
- 감독 학습 데이터와 합성 데이터의 혼합: 훈련 데이터는 AI가 생성한 최상의 응답을 DeepSeek-V3의 감독 학습을 통해 미세 조정된 데이터와 병합합니다.
- 최종 RL 프로세스: 최종 강화 학습 라운드는 모델이 다양한 프롬프트에 잘 적용되고 다양한 주제에 걸쳐 효과적으로 추론할 수 있도록 합니다.
이제 벤치마크를 통해 V3와 R1이 다른 인기 모델과 어떻게 비교되는지 살펴보겠습니다.

AIME 2024와 MATH-500은 수학 벤치마크이고, GPQA Diamond와 MMLU는 일반 지식 테스트이며, 마지막으로 Codeforces와 SWE-bench Verified는 코딩 벤치마크입니다.
Distilled DeepSeek 모델
인공지능의 증류는 더 큰 모델에서 더 작고 효율적인 모델을 생성하는 과정으로, 계산 요구량을 줄이면서 추론 능력의 상당 부분을 보존합니다.
V3와 R1을 배포하는 것은 모든 사람에게 실용적이지 않습니다. 각각 141GB의 메모리를 가진 8개의 NVIDIA H200 GPU가 필요하기 때문입니다. 그래서 DeepSeek은 15억에서 700억까지의 파라미터를 가진 6개의 정제된 모델을 만들었습니다.
- 그들은 Llama 3.1/3.3과 Qwen 2.5의 6개의 오픈 소스 모델로 시작했습니다.
- 그런 다음, R1을 사용하여 800,000개의 고품질 추론 샘플을 생성했습니다.
- 그리고 마지막으로, 이 합성 추론 데이터에 대해 더 작은 모델을 미세 조정했습니다.
다음은 수학(AIME 2024 및 MATH-500), 일반 지식(GPQA Diamond), 코딩(LiveCode Bench 및 CodeForces)에서 이들의 능력을 입증하는 주요 벤치마크에서 이 여섯 가지 모델이 어떻게 수행되었는지를 보여줍니다.

예상대로, 매개변수의 수가 증가할수록 결과가 개선되었습니다. 15억 개의 매개변수를 가진 가장 작은 모델이 가장 낮은 성능을 보였고, 700억 개의 매개변수를 가진 가장 큰 모델이 가장 높은 성능을 보였습니다. 흥미롭게도, 가장 균형 잡힌 모델은 Qwen-32B로, 매개변수가 절반 정도밖에 되지 않지만 Llama-70B와 거의 비슷한 성능을 보였습니다.
DeepSeek의 미래
DeepSeek은 단기간에 놀라운 성공을 거두어 거의 하룻밤 사이에 세계적인 인정을 받았습니다. 챗봇은 갑자기 등장한 것처럼 보였지만, 그만큼 빨리 사라질 위험도 있습니다. 특히 경쟁이 치열한 시장에서 브랜드의 가시성과 신뢰를 장기적으로 유지하는 것은 큰 도전 과제입니다. Google과 OpenAI 같은 거대 기술 기업은 DeepSeek의 재정적 자원을 훨씬 능가하는 예산을 보유하고 있으며, 기술적 우위도 가지고 있습니다.
DeepSeek이 직면한 주요 장애물 중 하나는 컴퓨팅 격차입니다. 미국의 경쟁사들과 비교했을 때, DeepSeek은 컴퓨팅 파워 측면에서 상당한 불이익을 받고 있습니다. 이 격차는 미국이 첨단 칩에 대한 수출 통제를 강화함으로써 더욱 심화되고 있으며, 이로 인해 DeepSeek은 더 강력한 인공지능 모델을 개발하고 배포하는 데 필요한 최신 하드웨어에 대한 접근이 제한되고 있습니다.
DeepSeek는 운영 효율성이 매우 뛰어나지만, 더 발전된 컴퓨팅 리소스에 액세스할 수 있다면 진행 속도를 크게 높이고 더 뛰어난 역량을 갖춘 회사들과의 경쟁에서 우위를 점할 수 있을 것입니다. DeepSeek가 혁신을 확장하고 글로벌 무대에서 더 강력한 경쟁자로 자리매김하기 위해서는 이러한 컴퓨팅 격차를 줄이는 것이 매우 중요합니다.
그렇다고 해서 너무 암울한 그림을 그리는 것은 좋지 않습니다. DeepSeek는 이미 놀라운 성과를 거두었기 때문입니다. 이 회사는 제한된 자원으로도 세계적 수준의 제품을 만들 수 있다는 것을 증명했습니다. 많은 사람들이 수십억 달러의 예산과 대규모 인프라를 통해서만 달성할 수 있다고 믿었던 것입니다. DeepSeek의 성공은 수많은 사람들에게 영감을 주고, 이미 빠르게 발전하고 있는 인공지능 기술의 발전을 더욱 가속화할 것입니다.