DeepSeek: Babak Baru dalam Kecerdasan Buatan
DeepSeek adalah sebuah fenomena yang nyata. Hanya beberapa hari setelah dirilis, chatbot asal Tiongkok ini melejit ke puncak aplikasi yang paling banyak diunduh di Apple App Store, menggeser ChatGPT. Bagi banyak orang, sangat mengejutkan bahwa perusahaan yang relatif tidak dikenal dengan investasi minimal - anggarannya kira-kira 14 kali lebih kecil dari OpenAI - berhasil melampaui, meskipun untuk sementara, pemimpin pasar yang tidak perlu dipersoalkan.
Sejarah DeepSeek
DeepSeek didirikan oleh miliarder Cina, Liang Wengfeng. Dididik di Universitas Zhejiang, Liang menerima gelar Sarjana Teknik di bidang teknik informasi elektronik pada tahun 2007 dan gelar Magister Teknik di bidang teknik informasi dan komunikasi pada tahun 2010.
Pada tahun 2008, Liang membentuk tim dengan teman sekelasnya di universitas untuk mengumpulkan data yang terkait dengan pasar keuangan dan mengeksplorasi perdagangan kuantitatif menggunakan pembelajaran mesin. Pada Februari 2016, Liang dan dua teman sekelasnya di jurusan teknik mendirikan High-Flyer, sebuah perusahaan yang berfokus pada pemanfaatan kecerdasan buatan untuk algoritme trading (melakukan investasi, menemukan pola harga saham, dan lain-lain).
Pada bulan April 2023, High-Flyer mendirikan laboratorium kecerdasan umum buatan yang didedikasikan untuk mengembangkan alat kecerdasan buatan yang tidak akan digunakan untuk melakukan perdagangan saham. Pada Mei 2023, lab ini menjadi entitas independen bernama DeepSeek.
Pada Januari 2025, DeepSeek menjadi berita utama dengan merilis DeepSeek-R1, model kecerdasan buatan penalaran sumber terbuka dengan 671 miliar parameter. Model ini dengan cepat mendapatkan popularitas, menjadi aplikasi gratis nomor satu di Apple App Store AS.

Liang Wengfeng
Pencapaian penting:
- 2016. Fondasi High-Flyer. Perusahaan ini awalnya berfokus pada algoritme perdagangan yang didukung kecerdasan buatan yang menjadi dasar bagi DeepSeek.
- 2023. Yayasan DeepSeek. Didirikan pada bulan April sebagai laboratorium kecerdasan umum buatan di bawah High-Flyer, DeepSeek menjadi independen pada bulan Mei.
- 2025. Rilis DeepSeek-R1. Dengan cepat menjadi sensasi di seluruh dunia, menduduki puncak tangga lagu sebagai salah satu chatbot paling populer.
Perjalanan DeepSeek menuju puncak bukanlah hal yang mudah. Pada masa-masa awalnya, perusahaan ini mengandalkan chip grafis Nvidia A100, yang kemudian dilarang diekspor ke Tiongkok oleh pemerintah AS. Para pengembang kemudian beralih ke chip H800 yang kurang bertenaga, tetapi itu juga segera dibatasi. Terlepas dari tantangan ini, DeepSeek berhasil menciptakan model R1 yang canggih dengan hanya menggunakan chip H800 senilai $5,6 juta. Sebagai gambaran, pelatihan GPT-4 diperkirakan menelan biaya antara $50-100 juta.
“Tantangan terbesar kami bukanlah uang, melainkan embargo terhadap chip kelas atas,” ujar Liang.

Fitur-fitur DeepSeek dan teknologi utama
Tidak seperti banyak chatbot populer lainnya, model DeepSeek bersifat open-source, yang berarti pengguna dapat menjelajahi cara kerja teknologi di balik layar. Transparansi ini membangun kepercayaan, karena memastikan chatbot bukanlah “kotak hitam” yang misterius - perilakunya dapat diperiksa dan dipahami oleh komunitas.
Komponen open-source memungkinkan pengembang dan peneliti untuk menyumbangkan perbaikan, memperbaiki bug, atau mengadaptasi teknologi untuk kebutuhan tertentu. Itulah mengapa proyek sumber terbuka cenderung berkembang dengan cepat karena kontribusi komunitas. Anda akan melihat fitur-fitur baru, peningkatan, dan aplikasi muncul lebih cepat dibandingkan dengan sistem berpemilik.
Beberapa solusi teknis penting yang membuat model DeepSeek bekerja seefisien mungkin:
- MoE (Campuran Pakar)
- MLA (Perhatian Laten Multi-Kepala)
- MTP (Prediksi Multi-Token)

Mixture of Experts (MoE) adalah teknik pembelajaran mesin yang melibatkan penggabungan prediksi dari beberapa model khusus (“ahli”) untuk meningkatkan kinerja chatbot secara keseluruhan.
Begini cara kerjanya di DeepSeek:
- DeepSeek kemungkinan besar memiliki kumpulan besar 256 jaringan saraf khusus (pakar). Setiap pakar adalah model yang lebih kecil yang dilatih untuk menangani pola atau fitur tertentu dalam data. Sebagai contoh, dalam pemrosesan bahasa alami, satu pakar mungkin berspesialisasi dalam sintaksis, pakar lain dalam semantik, pakar lain dalam pengetahuan khusus domain, dll.
- Jaringan gating memutuskan pakar mana yang akan diaktifkan untuk setiap token input. Jaringan ini mengevaluasi input dan memberikan bobot kepada para pakar, memilih 8 pakar teratas yang paling relevan dengan token saat ini. Hal ini memastikan bahwa hanya sebagian kecil dari total pakar yang digunakan pada waktu tertentu.
- Alih-alih menjalankan semua 256 pakar untuk setiap token (yang akan menjadi mahal secara komputasi), hanya 8 pakar teratas yang diaktifkan. Hal ini secara drastis mengurangi biaya komputasi sambil tetap memanfaatkan kapasitas penuh model.
Dengan hanya mengaktifkan sebagian kecil pakar, DeepSeek mencapai efisiensi sumber daya. Model ini dapat ditingkatkan ke ukuran yang sangat besar (dalam hal parameter) tanpa peningkatan komputasi yang proporsional.

Multi-head Latent Attention (MLA) adalah mekanisme yang kuat yang menggabungkan kekuatan perhatian multi-head dan representasi ruang laten untuk meningkatkan efisiensi dan kinerja.
Berikut cara kerjanya di DeepSeek:
- Dalam perhatian multi-kepala standar, input dibagi menjadi beberapa “kepala”, yang masing-masing belajar untuk fokus pada aspek data yang berbeda.
- Data input (misalnya, teks, gambar, atau data terstruktur lainnya) pertama-tama dikodekan ke dalam representasi dimensi tinggi.
- Representasi input diproyeksikan ke dalam ruang laten berdimensi lebih rendah menggunakan transformasi yang dipelajari (misalnya, lapisan jaringan saraf).
- Representasi laten dibagi menjadi beberapa kepala, yang masing-masing menghitung skor perhatian dalam ruang laten. Hal ini memungkinkan model untuk fokus pada aspek yang berbeda dari data secara efisien.
- Dengan beroperasi di ruang laten, MLA mengurangi biaya komputasi mekanisme perhatian, sehingga memungkinkan untuk memproses set data yang besar atau urutan yang panjang.
Kombinasi perhatian multi-kepala dan representasi laten memungkinkan model untuk menangkap pola dan hubungan yang kompleks dalam data, sehingga menghasilkan kinerja yang lebih baik dalam tugas-tugas seperti pemrosesan bahasa alami, sistem rekomendasi, atau analisis data.

Varian Prediksi Multi-Token di DeepSeek
Prediksi multi-token (MTP) adalah teknik yang digunakan dalam model bahasa untuk memprediksi beberapa token (kata atau subkata) di depan dalam suatu urutan, bukan hanya token berikutnya. Pendekatan ini dapat meningkatkan kemampuan model untuk menghasilkan teks yang koheren dan akurat secara kontekstual, karena mendorong model untuk mempertimbangkan ketergantungan jangka panjang dan struktur dalam data.
Berikut ini cara kerjanya di DeepSeek:
- Urutan input (misalnya, kalimat atau paragraf) dikodekan menggunakan arsitektur berbasis transformator, yang menangkap informasi kontekstual tentang setiap token dalam urutan tersebut.
- Model DeepSeek memiliki beberapa output head, masing-masing dilatih untuk memprediksi token masa depan yang berbeda.
- Kepala 1 memprediksi token berikutnya. Kepala 2 memprediksi token setelah itu. Kepala 3 memprediksi token dua posisi di depan.
- Pada saat inferensi, model menghasilkan teks secara autoregresif, tetapi pelatihan multi-token memastikan bahwa setiap prediksi diinformasikan oleh konteks yang lebih luas, yang mengarah pada pembuatan teks yang lebih koheren dan akurat.
DeepSeek menerapkan prediksi multi-token untuk meningkatkan kualitas model bahasanya, sehingga lebih efektif dalam tugas-tugas seperti pembuatan teks, penerjemahan, dan peringkasan.
Model saat ini
Dua model DeepSeek terbaru adalah DeepSeek-V3 yang dirilis pada bulan Desember 2024 dan DeepSeek-R1 yang dirilis pada bulan Januari 2025.
V3 merupakan pesaing langsung dari GPT 4o, sedangkan R1 dapat dibandingkan dengan model o1 dari OpenAI:

DeepSeek-V3 adalah pilihan yang dapat diandalkan untuk sebagian besar tugas sehari-hari, yang mampu menjawab pertanyaan tentang topik apa pun. Ia bersinar dalam melakukan percakapan yang terdengar alami dan menampilkan kreativitas. Model ini bagus untuk menulis, membuat konten, atau menjawab pertanyaan umum yang kemungkinan besar sudah sering dijawab sebelumnya.
Di sisi lain, DeepSeek-R1, bersinar dalam hal pemecahan masalah yang kompleks, logika, dan tugas penalaran langkah demi langkah. R1 dirancang untuk menangani pertanyaan menantang yang membutuhkan analisis menyeluruh dan solusi terstruktur. Model ini sangat bagus untuk tantangan pengkodean dan pertanyaan yang membutuhkan logika.
| Model | Kekuatan | Kelemahan |
| DeepSeek-V3 | Bantuan pengkodean umum dan menjelaskan konsep dalam istilah yang lebih sederhana | Mungkin mengorbankan beberapa keahlian khusus untuk keserbagunaan |
| Penulisan kreatif dengan pemahaman konteks yang mendalam | Dapat melakukan generalisasi berlebihan dalam domain yang sangat teknis | |
| Sangat cocok untuk pembuatan konten yang cepat | Kurang memiliki kemampuan penalaran | |
| DeepSeek-R1 | Dapat menangani tugas-tugas teknis khusus | Berjuang dengan konteks yang lebih luas atau pertanyaan yang ambigu |
| Akurasi tinggi dalam domain khusus (matematika atau kode, misalnya) | Output yang kaku dan formula dalam tugas-tugas kreatif | |
| Dioptimalkan untuk penulisan teknis seperti dokumen hukum atau ringkasan akademis | Kurang mudah beradaptasi dengan perubahan gaya dan nada |
Kedua model memiliki spesifikasi teknis yang serupa:
| DeepSeek-V3 | DeepSeek-R1 | |
| Model dasar | DeepSeek-V3-Base | DeepSeek-V3-Base |
| Jenis | Model tujuan umum | Model penalaran |
| Parameter | 671 miliar (37 miliar diaktifkan) | 671 miliar (37 miliar diaktifkan) |
| Panjang konteks | 128 ribu | 128 ribu |
Perbedaan utamanya ada pada pelatihan mereka. Berikut ini adalah bagaimana DeepSeek-R1 dilatih pada V3:
- Penyempurnaan Awal yang Dingin: Daripada membebani model dengan volume data yang besar secara langsung, model ini dimulai dengan set data yang lebih kecil dan berkualitas tinggi untuk menyempurnakan responsnya sejak awal.
- Pembelajaran Penguatan Tanpa Label Manusia: Tidak seperti V3, DeepSeek-R1 sepenuhnya bergantung pada RL, yang berarti ia belajar menalar secara mandiri, bukan hanya meniru data pelatihan.
- Pengambilan Sampel Penolakan untuk Data Sintetis: Model ini menghasilkan banyak jawaban, dan hanya jawaban dengan kualitas terbaik yang dipilih untuk melatih dirinya sendiri lebih lanjut.
- Memadukan Data Terawasi & Data Sintetis: Data pelatihan menggabungkan respons terbaik yang dihasilkan AI dengan data yang diawasi dan disetel dengan baik dari DeepSeek-V3.
- Proses RL Akhir: Putaran akhir pembelajaran penguatan memastikan model menggeneralisasi dengan baik ke berbagai macam permintaan dan dapat menalar secara efektif di seluruh topik.
Sekarang, mari kita lihat beberapa tolok ukur untuk melihat bagaimana V3 dan R1 dibandingkan dengan model populer lainnya:

AIME 2024 dan MATH-500 adalah tolok ukur matematika, GPQA Diamond dan MMLU adalah tes pengetahuan umum, dan terakhir, Codeforces dan SWE-bench Verified adalah tolok ukur pengkodean.
Model DeepSeek yang disuling
Distilasi dalam kecerdasan buatan adalah proses pembuatan model yang lebih kecil dan lebih efisien dari model yang lebih besar, mempertahankan sebagian besar daya penalarannya sekaligus mengurangi kebutuhan komputasi.
Menerapkan V3 dan R1 tidak praktis untuk semua orang, karena mereka membutuhkan 8 GPU NVIDIA H200 dengan memori masing-masing 141GB. Itulah mengapa DeepSeek menciptakan 6 model yang disaring mulai dari 1,5 miliar hingga 70 miliar parameter:
- Mereka memulai dengan enam model sumber terbuka dari Llama 3.1/3.3 dan Qwen 2.5.
- Kemudian, menghasilkan 800.000 sampel penalaran berkualitas tinggi menggunakan R1.
- Dan terakhir, mereka menyempurnakan model yang lebih kecil pada data penalaran sintetis ini.
Berikut ini adalah performa keenam model tersebut dalam berbagai tolok ukur utama, yang menunjukkan kemampuan mereka dalam matematika (AIME 2024 dan MATH-500), pengetahuan umum (GPQA Diamond), dan pengkodean (LiveCode Bench dan CodeForces):

Bisa ditebak, seiring dengan bertambahnya jumlah parameter, hasilnya pun membaik. Model terkecil dengan 1,5 miliar parameter memiliki performa terburuk, sedangkan model terbesar dengan 70 miliar parameter memiliki performa terbaik. Anehnya, model yang paling seimbang terlihat seperti Qwen-32B, yang hampir sama bagusnya dengan Llama-70B, meskipun memiliki setengah dari jumlah parameter.
Masa Depan DeepSeek
DeepSeek telah mencapai kesuksesan yang luar biasa dalam waktu singkat, mendapatkan pengakuan global hampir dalam semalam. Chatbot tampaknya muncul entah dari mana, tetapi ada risiko yang bisa memudar dengan cepat. Mempertahankan visibilitas dan kepercayaan merek dalam jangka panjang merupakan tantangan yang signifikan, terutama di pasar yang sangat kompetitif. Raksasa teknologi seperti Google dan OpenAI memiliki anggaran yang jauh melebihi sumber daya keuangan DeepSeek, dan mereka juga memiliki keunggulan teknis.
Salah satu rintangan utama yang dihadapi DeepSeek adalah kesenjangan komputasi. Dibandingkan dengan rekan-rekannya di AS, DeepSeek beroperasi dengan kerugian yang signifikan dalam hal daya komputasi. Kesenjangan ini diperparah oleh kontrol ekspor AS terhadap chip canggih, yang membatasi akses DeepSeek ke perangkat keras terbaru yang diperlukan untuk mengembangkan dan menerapkan model kecerdasan buatan yang lebih kuat.
Meskipun DeepSeek telah menunjukkan efisiensi yang mengesankan dalam operasinya, akses ke sumber daya komputasi yang lebih canggih dapat secara signifikan mempercepat kemajuannya dan memperkuat daya saingnya terhadap perusahaan-perusahaan dengan kemampuan yang lebih besar. Menutup kesenjangan komputasi ini sangat penting bagi DeepSeek untuk meningkatkan inovasinya dan memantapkan dirinya sebagai pesaing yang lebih kuat di panggung global.
Meskipun demikian, penting untuk tidak melukiskan gambaran yang terlalu suram, karena DeepSeek telah mencapai sesuatu yang luar biasa. Perusahaan ini telah membuktikan bahwa dengan sumber daya yang terbatas pun, sangat mungkin untuk menciptakan produk kelas dunia-sesuatu yang banyak orang percaya hanya bisa dicapai dengan anggaran miliaran dolar dan infrastruktur yang masif. Kesuksesan DeepSeek kemungkinan akan menginspirasi banyak perusahaan lain dan semakin mempercepat kemajuan teknologi kecerdasan buatan yang sudah sangat pesat.