Вернуться на Главную

DeepSeek: Новая глава в искусственном интеллекте

DeepSeek - это настоящий феномен. Всего через несколько дней после выхода китайский чатбот взлетел на вершину рейтинга самых скачиваемых приложений в Apple App Store, сместив ChatGPT. Для многих стало шоком, что относительно неизвестная компания с минимальными инвестициями - ее бюджет примерно в 14 раз меньше, чем у OpenAI, - сумела обогнать, пусть и временно, бесспорного лидера рынка.

История DeepSeek

Компания DeepSeek была основана китайским миллиардером Лян Вэньфэном. Получив образование в Чжэцзянском университете, Лян в 2007 году получил степень бакалавра в области электронной информационной инженерии, а в 2010 году - степень магистра в области информационно-коммуникационной инженерии.

В 2008 году Лян вместе со своими однокурсниками сформировал команду для сбора данных о финансовых рынках и изучения количественной торговли с помощью машинного обучения. В феврале 2016 года Лян и еще два его однокурсника стали соучредителями компании High-Flyer, которая занимается использованием искусственного интеллекта для создания торговых алгоритмов (осуществление инвестиций, выявление закономерностей в ценах на акции и т. д.).

В апреле 2023 года High-Flyer основала лабораторию общего искусственного интеллекта, которая занималась разработкой инструментов искусственного интеллекта, не используемых для биржевой торговли. К маю 2023 года эта лаборатория стала независимой организацией под названием DeepSeek.

В январе 2025 года DeepSeek выпустила DeepSeek-R1, модель искусственного интеллекта с открытым исходным кодом, содержащую 671 миллиард параметров. Модель быстро завоевала популярность, став бесплатным приложением номер один в американском Apple App Store.

Лян Вэньфэн

Лян Вэньфэн

Основные вехи:

  • 2016. Основание High-Flyer. Эта компания, изначально занимавшаяся разработкой торговых алгоритмов на основе искусственного интеллекта, заложила основу для DeepSeek.
  • 2023. Основание DeepSeek. Основанная в апреле как лаборатория искусственного общего интеллекта при High-Flyer, DeepSeek стала самостоятельной к маю.
  • 2025. Релиз DeepSeek-R1. Он быстро стал мировой сенсацией, возглавив чарты как один из самых популярных чат-ботов.

Путь DeepSeek к вершине был нелегким. В начале своего пути компания полагалась на графические чипы Nvidia A100, которые впоследствии были запрещены к экспорту в Китай американской администрацией. Затем разработчики перешли на менее мощные чипы H800, но и они вскоре оказались под запретом. Несмотря на все эти трудности, DeepSeek удалось создать свою продвинутую модель R1, используя чипы H800 на сумму всего 5,6 миллиона долларов. Для сравнения: подготовка GPT-4 обошлась в 50-100 миллионов долларов.

«Нашей главной проблемой никогда не были деньги, это эмбарго на поставку высококачественных чипов», - сказал Лян.

DeepSeek R1

Особенности DeepSeek и ключевые технологии

В отличие от многих других популярных чат-ботов, модели DeepSeek имеют открытый исходный код, то есть пользователи могут изучить, как работает технология под капотом. Такая прозрачность укрепляет доверие, поскольку гарантирует, что чатбот не является таинственным «черным ящиком» - его поведение может быть изучено и понято сообществом.

Компоненты с открытым исходным кодом позволяют разработчикам и исследователям вносить улучшения, исправлять ошибки или адаптировать технологию под конкретные нужды. Именно поэтому проекты с открытым исходным кодом, как правило, быстро развиваются благодаря вкладу сообщества. Вы увидите, как новые функции, улучшения и приложения появляются быстрее, чем в несвободных системах.

Некоторые из важных технических решений, обеспечивающих максимально эффективную работу моделей DeepSeek:

  • MoE (Mixture of Experts)
  • MLA (Multi-head Latent Attention)
  • MTP (Multi-Token Prediction)
MoE (Mixture of Experts)

Mixture of Experts (MoE) - это техника машинного обучения, которая предполагает объединение прогнозов нескольких специализированных моделей («экспертов») для повышения общей производительности чатбота.

Вот как это работает в DeepSeek:

  • DeepSeek, вероятно, имеет большой пул из 256 специализированных нейронных сетей (экспертов). Каждый эксперт - это небольшая модель, обученная работать с определенными шаблонами или особенностями данных. Например, при обработке естественного языка один эксперт может специализироваться на синтаксисе, другой - на семантике, третий - на специфических знаниях домена и т. д.
  • Управляющая сеть решает, каких экспертов активировать для каждого входного токена. Она оценивает входные данные и присваивает экспертам веса, выбирая 8 лучших экспертов, наиболее релевантных текущему токену. Это гарантирует, что в любой момент времени будет задействовано лишь небольшое подмножество всех экспертов.
  • Вместо того чтобы запускать все 256 экспертов для каждого токена (что потребовало бы больших вычислительных затрат), активируются только 8 лучших экспертов. Это значительно снижает вычислительные затраты, но при этом задействует все возможности модели.

Активируя лишь небольшое подмножество экспертов, DeepSeek достигает эффективности использования ресурсов. Модель может масштабироваться до очень больших размеров (по количеству параметров) без пропорционального увеличения вычислений.

MLA (Multi-head Latent Attention)

Multi-head Latent Attention (MLA) - это мощный механизм, который сочетает в себе сильные стороны многоголового внимания и латентных пространственных представлений для повышения эффективности и производительности.

Вот как это работает в DeepSeek:

  • При стандартном многоголовом внимании входные данные разделяются на несколько «голов», каждая из которых учится фокусироваться на различных аспектах данных.
  • Входные данные (например, текст, изображения или другие структурированные данные) сначала кодируются в высокоразмерное представление.
  • Входное представление проецируется в низкоразмерное латентное пространство с помощью обученного преобразования (например, слоя нейронной сети).
  • Латентное представление разбивается на несколько голов, каждая из которых вычисляет оценки внимания в латентном пространстве. Это позволяет модели эффективно фокусироваться на различных аспектах данных.
  • Благодаря работе в латентном пространстве MLA снижает вычислительные затраты механизмов внимания, что делает возможным обработку больших наборов данных или длинных последовательностей.

Сочетание многоголового внимания и латентных представлений позволяет модели улавливать сложные паттерны и взаимосвязи в данных, что приводит к улучшению производительности в таких задачах, как обработка естественного языка, рекомендательные системы или анализ данных.

MTP (Multi-Token Prediction)

Вариант мультитокенового предсказания в DeepSeek

Мультитокеновое предсказание - это техника, используемая в языковых моделях для предсказания нескольких токенов (слов или подслов) в последовательности, а не только следующего токена. Такой подход может улучшить способность модели генерировать связный и контекстуально точный текст, поскольку он побуждает модель учитывать долгосрочные зависимости и структуру данных.

Вот как это работает в DeepSeek:

  • Входная последовательность (например, предложение или абзац) кодируется с помощью архитектуры на основе трансформаторов, которая собирает контекстную информацию о каждом токене в последовательности.
  • Модели DeepSeek имеют несколько выходных голов, каждая из которых обучена предсказывать разные будущие токены.
  • Голова 1 предсказывает следующий токен. Голова 2 предсказывает следующую за ней лексему. Голова 3 предсказывает токен на две позиции вперед.
  • Во время вывода модель генерирует текст авторегрессивно, но обучение с использованием нескольких токенов гарантирует, что каждое предсказание учитывает более широкий контекст, что приводит к более последовательной и точной генерации текста.

DeepSeek применяет мультитокеновое предсказание для повышения качества своих языковых моделей, что делает их более эффективными в таких задачах, как генерация, перевод и обобщение текста.

Текущие модели

Две самые последние модели DeepSeek - DeepSeek-V3, выпущенная в декабре 2024 года, и DeepSeek-R1, выпущенная в январе 2025 года.

V3 является прямым конкурентом GPT 4o, а R1 можно сравнить с моделью o1 от OpenAI:

GPT 4o, o1, V3, R1

DeepSeek-V3 - надежный выбор для большинства повседневных задач, способный ответить на вопросы по любой теме. Он умеет вести естественные разговоры и проявлять творческие способности. Эта модель хорошо подходит для написания текстов, создания контента или ответов на общие вопросы, на которые, скорее всего, уже много раз отвечали.

DeepSeek-R1, с другой стороны, проявляет себя, когда речь идет о сложных задачах, связанных с решением проблем, логикой и пошаговыми рассуждениями. R1 был разработан для решения сложных запросов, требующих тщательного анализа и структурированных решений. Эта модель отлично подходит для решения задач по кодированию и вопросов, связанных с логикой.

МодельСильные стороныСлабые стороны
DeepSeek-V3Общая помощь в кодировании и объяснение понятий более простыми словамиМожет пожертвовать некоторыми нишевыми знаниями ради универсальности
 Креативное письмо с глубоким пониманием контекстаМожет чрезмерно обобщать в высокотехнических областях
 Хорошо подходит для быстрого создания контентаНе умеет рассуждать
DeepSeek-R1Может решать нишевые технические задачиЗатруднения при работе с более широким контекстом или неоднозначными запросами
 Высокая точность в специализированных областях (например, в математике или коде).Жесткий и шаблонный подход к решению творческих задач
 Оптимизирован для написания технических текстов, таких как юридические документы или академические резюмеМенее приспособлен к изменениям стиля и тона

Обе модели имеют схожие технические характеристики:

 DeepSeek-V3DeepSeek-R1
Базовая модельDeepSeek-V3-BaseDeepSeek-V3-Base
ТипМодель общего назначенияМодель рассуждений
Параметры671 миллиард (37 миллиардов активированных)671 миллиард (37 миллиардов активированных)
Длина контекста128 тысяч128 тысяч

Ключевое различие заключается в их обучении. Вот как DeepSeek-R1 обучался на V3:

  • Тонкая настройка на холодном старте: Вместо того чтобы сразу перегружать модель большими объемами данных, она начинает с меньшего, высококачественного набора данных, чтобы с самого начала отточить свои реакции.
  • Обучение с подкреплением без человеческих меток: В отличие от V3, DeepSeek-R1 полностью полагается на RL, то есть учится рассуждать самостоятельно, а не просто подражать обучающим данным.
  • Выборка отказов для синтетических данных: Модель генерирует множество ответов, и только самые качественные ответы отбираются для дальнейшего обучения.
  • Смешивание контролируемых и синтетических данных: В обучающие данные объединяются лучшие ответы, сгенерированные ИИ, и контролируемые данные, полученные с помощью DeepSeek-V3.
  • Финальный процесс RL: Заключительный раунд обучения с подкреплением гарантирует, что модель хорошо обобщается на широкий спектр заданий и может эффективно рассуждать на разные темы.

Теперь давайте посмотрим на некоторые бенчмарки, чтобы увидеть, как V3 и R1 сравниваются с другими популярными моделями:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 и MATH-500 - математические бенчмарки, GPQA Diamond и MMLU - тесты общих знаний, и, наконец, Codeforces и SWE-bench Verified - бенчмарки кодирования.

Дистиллированные модели DeepSeek

Дистилляция в искусственном интеллекте - это процесс создания более мелких, более эффективных моделей из более крупных, сохраняющих большую часть их рассудочной силы при снижении вычислительных требований.

Развертывание V3 и R1 не всем под силу, поскольку для них требуется 8 графических процессоров NVIDIA H200 с 141 ГБ памяти каждый. Поэтому DeepSeek создала 6 дистиллированных моделей с количеством параметров от 1,5 до 70 миллиардов:

  • Они начали с шести моделей с открытым исходным кодом Llama 3.1/3.3 и Qwen 2.5.
  • Затем сгенерировали 800 000 высококачественных образцов рассуждений с помощью R1.
  • И наконец, они доработали небольшие модели на этих синтетических данных.

Вот как эти шесть моделей показали себя в ключевых бенчмарках, продемонстрировав свои способности в математике (AIME 2024 и MATH-500), общих знаниях (GPQA Diamond) и кодировании (LiveCode Bench и CodeForces):

Дистиллированные модели DeepSeek-R1 в бенчмарках

Предсказуемо, что с увеличением количества параметров результаты улучшались. Самая маленькая модель с 1,5 миллиардами параметров показала наихудшие результаты, а самая большая модель с 70 миллиардами параметров - наилучшие. Любопытно, что наиболее сбалансированной выглядит модель Qwen-32B, которая почти так же хороша, как Llama-70B, хотя имеет вдвое меньше параметров.

Будущее DeepSeek

DeepSeek добился поразительного успеха за короткое время, получив мировое признание практически в одночасье. Казалось бы, чатбот появился из ниоткуда, но есть риск, что он может так же быстро исчезнуть. Сохранение узнаваемости и доверия к бренду в течение длительного времени - серьезная задача, особенно на таком высококонкурентном рынке. Бюджеты таких технологических гигантов, как Google и OpenAI, значительно превышают финансовые ресурсы DeepSeek, и они также имеют техническое преимущество.

Одно из главных препятствий, с которым сталкивается DeepSeek, - нехватка вычислительных ресурсов. По сравнению со своими американскими коллегами DeepSeek имеет значительные недостатки в плане вычислительных мощностей. Это усугубляется тем, что США контролируют экспорт передовых чипов, что ограничивает доступ DeepSeek к новейшему оборудованию, необходимому для разработки и внедрения более мощных моделей ИИ.

Хотя компания DeepSeek демонстрирует впечатляющую эффективность своей работы, доступ к более современным вычислительным ресурсам мог бы значительно ускорить ее прогресс и повысить конкурентоспособность по сравнению с компаниями, обладающими большими возможностями. Ликвидация этого дефицита вычислительных ресурсов крайне важна для того, чтобы DeepSeek смогла расширить масштабы своих инноваций и стать более сильным соперником на мировой арене.

При этом важно не рисовать слишком мрачную картину, ведь DeepSeek уже добилась выдающихся результатов. Компания доказала, что даже при ограниченных ресурсах можно создать продукт мирового класса - то, что, по мнению многих, достижимо только при миллиардных бюджетах и огромной инфраструктуре. Успех DeepSeek, вероятно, вдохновит многих других и еще больше ускорит и без того стремительное развитие технологий ИИ.