Обратно към основната страница

DeepSeek: Нова глава в изкуствения интелект

DeepSeek е истински феномен. Само няколко дни след пускането си китайският чатбот се изкачи до върха на най-изтегляните приложения в Apple App Store, измествайки ChatGPT. За мнозина беше шок, че една сравнително неизвестна компания с минимални инвестиции - бюджетът ѝ е около 14 пъти по-малък от този на OpenAI - успя да изпревари, макар и временно, безспорния лидер на пазара.

История на DeepSeek

DeepSeek е основана от китайския милиардер Лян Уенфенг. Получил образование в университета в Джъдзян, Лианг получава бакалавърска степен по електронно информационно инженерство през 2007 г. и магистърска степен по информационно и комуникационно инженерство през 2010 г.

През 2008 г. Лианг сформира екип със свои съученици от университета, за да натрупва данни, свързани с финансовите пазари, и да изследва количествената търговия с помощта на машинно обучение. През февруари 2016 г. Лианг и още двама негови съученици по инженерство съосновават High-Flyer - компания, фокусирана върху използването на изкуствен интелект за алгоритми за търговия (правене на инвестиции, забелязване на модели в цените на акциите и т.н.).

През април 2023 г. High-Flyer създава лаборатория за изкуствен общ интелект, посветена на разработването на инструменти за изкуствен интелект, които няма да се използват за извършване на търговия с акции. Към май 2023 г. тази лаборатория се превръща в независима структура, наречена DeepSeek.

През януари 2025 г. DeepSeek влиза в заглавията на вестниците с пускането на DeepSeek-R1 - модел на разсъждаващ изкуствен интелект с отворен код с 671 милиарда параметри. Моделът бързо набира популярност, като става номер едно безплатно приложение в американския Apple App Store.

Лян Уенфенг

Лян Уенфенг

Основни етапи:

  • 2016. Основа на High-Flyer. Тази компания, първоначално фокусирана върху алгоритми за търговия с изкуствен интелект, постави основите на DeepSeek.
  • 2023. Основаване на DeepSeek. Основана през април като лаборатория за изкуствен общ интелект в рамките на High-Flyer, DeepSeek става независима през май.
  • 2025. Издаване на DeepSeek-R1. Той бързо се превръща в световна сензация, оглавявайки класациите като един от най-популярните чатботове.

Пътуването на DeepSeek към върха не беше никак лесно. В ранните си дни компанията разчиташе на графични чипове Nvidia A100, чийто износ за Китай по-късно беше забранен от американската администрация. След това разработчиците преминаха към по-малко мощните чипове H800, но скоро след това и те бяха ограничени. Въпреки тези предизвикателства DeepSeek успя да създаде своя усъвършенстван модел R1, използвайки чипове H800 на стойност само 5,6 млн. долара. В перспектива обучението на GPT-4 се оценява на 50-100 млн. долара.

„Най-голямото ни предизвикателство никога не са били парите, а ембаргото върху чиповете от висок клас“, казва Лян.

DeepSeek R1

Функции и основни технологии на DeepSeek

За разлика от много други популярни чатботове, моделите на DeepSeek са с отворен код, което означава, че потребителите могат да проучат как работи технологията под капака. Тази прозрачност изгражда доверие, тъй като гарантира, че чатботът не е мистериозна „черна кутия“ - поведението му може да бъде изследвано и разбрано от общността.

Компонентите с отворен код дават възможност на разработчиците и изследователите да допринасят за подобрения, да отстраняват грешки или да адаптират технологията за конкретни нужди. Ето защо проектите с отворен код са склонни да се развиват бързо благодарение на приноса на общността. Ще видите, че нови функции, подобрения и приложения се появяват по-бързо, отколкото при патентованите системи.

Някои от важните технически решения, благодарение на които моделите на DeepSeek работят възможно най-ефективно:

  • MoE (Mixture of Experts)
  • MLA (Multi-head Latent Attention)
  • MTP (Multi-Token Prediction)
MoE (Mixture of Experts)

Mixture of Experts (MoE) е техника за машинно обучение, която включва комбиниране на прогнозите на множество специализирани модели („експерти“), за да се подобри цялостното представяне на чатбота.

Ето как работи тя в DeepSeek:

  • DeepSeek вероятно разполага с голям набор от 256 специализирани невронни мрежи (експерти). Всеки експерт е по-малък модел, обучен да обработва специфични модели или характеристики в данните. Например при обработката на естествен език един експерт може да се специализира в синтаксиса, друг - в семантиката, трети - в специфичните за областта знания и т.н.
  • Мрежата за контрол решава кои експерти да активира за всеки входен токен. Тя оценява входния сигнал и задава тегла на експертите, като избира 8-те най-добри експерти, които са най-подходящи за текущия токен. По този начин се гарантира, че във всеки един момент се използва само малка подгрупа от общия брой експерти.
  • Вместо да се използват всички 256 експерти за всеки токен (което би било изчислително скъпо), се активират само 8-те най-добри експерти. Това драстично намалява изчислителните разходи, като същевременно се използва пълният капацитет на модела.

Като активира само малка подгрупа от експерти, DeepSeek постига ресурсна ефективност. Моделът може да се мащабира до много голям размер (по отношение на параметрите), без да се увеличава пропорционално изчислителната мощност.

MLA (Multi-head Latent Attention)

Многоглавото латентно внимание (Multi-head Latent Attention - MLA) е мощен механизъм, който съчетава силните страни на многоглавото внимание и представянето на латентното пространство, за да подобри ефективността и производителността.

Ето как работи той в DeepSeek:

  • При стандартното многоглаво внимание входните данни се разделят на няколко „глави“, всяка от които се научава да се фокусира върху различни аспекти на данните.
  • Входните данни (напр. текст, изображения или други структурирани данни) първо се кодират във високомерно представяне.
  • Входното представяне се проектира в по-нискоизмерно латентно пространство, като се използва научена трансформация (напр. слой на невронна мрежа).
  • Латентното представяне се разделя на множество глави, всяка от които изчислява оценки на вниманието в латентното пространство. Това позволява на модела да се фокусира ефективно върху различни аспекти на данните.
  • Като оперира в латентно пространство, MLA намалява изчислителните разходи на механизмите за внимание, което прави възможно обработването на големи набори от данни или дълги последователности.

Комбинацията от многоглаво внимание и латентни представяния позволява на модела да улавя сложни модели и връзки в данните, което води до по-добра ефективност при задачи като обработка на естествен език, системи за препоръки или анализ на данни.

MTP (Multi-Token Prediction)

Вариант на предсказване с няколко токена в DeepSeek

Предвиждането на множество токени (MTP) е техника, използвана в езиковите модели за предвиждане на множество токени (думи или подсловове) напред в последователността, а не само на следващия токен. Този подход може да подобри способността на модела да генерира последователен и контекстуално точен текст, тъй като насърчава модела да вземе предвид по-дългосрочни зависимости и структура в данните.

Ето как работи това в DeepSeek:

  • Входната последователност (напр. изречение или параграф) се кодира с помощта на архитектура, базирана на трансформатор, която улавя контекстуална информация за всеки токен в последователността.
  • Моделите на DeepSeek имат множество изходни глави, всяка от които е обучена да предсказва различен бъдещ токен.
  • Глава 1 предсказва следващия токен. Глава 2 предсказва следващия токен. Глава 3 предсказва токена две позиции напред.
  • По време на извода моделът генерира текст по авторегресивен начин, но обучението с няколко глави гарантира, че всяко предсказване се основава на по-широк контекст, което води до по-последователно и точно генериране на текст.

DeepSeek прилага многоточковото предсказване, за да подобри качеството на своите езикови модели, което ги прави по-ефективни при задачи като генериране на текст, превод и обобщаване.

Текущи модели

Два от най-новите модели на DeepSeek са DeepSeek-V3, пуснат през декември 2024 г., и DeepSeek-R1, пуснат през януари 2025 г.

V3 е пряк конкурент на GPT 4o, докато R1 може да се сравни с модела o1 на OpenAI:

GPT 4o, o1, V3, R1

DeepSeek-V3 е надежден избор за повечето ежедневни задачи и може да отговаря на въпроси по всякакви теми. Той блести при провеждането на естествено звучащи разговори и демонстрирането на креативност. Този модел е добър за писане, създаване на съдържание или отговаряне на общи въпроси, на които вероятно вече е отговаряно много пъти.

DeepSeek-R1, от друга страна, блести, когато става въпрос за сложни задачи за решаване на проблеми, логика и разсъждения стъпка по стъпка. R1 е проектиран да се справя с предизвикателни заявки, които изискват задълбочен анализ и структурирани решения. Този модел е чудесен за предизвикателства, свързани с кодиране, и за тежки логически въпроси.

МоделСилни страниСлаби страни
DeepSeek-V3Обща помощ при кодиране и обяснение на понятията с по-прости терминиМоже да пожертвате някои експертни познания за нишата в полза на гъвкавостта
 Творческо писане с дълбоко разбиране на контекстаМоже да прекалява с обобщенията във високотехнологични области
 Подходящ за бързо генериране на съдържаниеЛипсва способност за разсъждение
DeepSeek-R1Може да се справя с нишови технически задачиТрудности с по-широк контекст или двусмислени запитвания
 Висока точност в специализирани области (например математика или код)Строги и шаблонни резултати при творческите задачи
 Оптимизиран за техническо писане, например правни документи или академични резюметаПо-малко адаптивни към промени в стила и тона

И двата модела имат сходни технически характеристики:

 DeepSeek-V3DeepSeek-R1
Базов моделDeepSeek-V3-BaseDeepSeek-V3-Base
ТипМодел с общо предназначениеМодел на разсъждение
Параметри671 милиарда (37 милиарда активирани)671 милиарда (37 милиарда активирани)
Дължина на контекста128 хиляди128 хиляди

Основната разлика е в обучението им. Ето как DeepSeek-R1 е обучен на V3:

  • Фина настройка при студено стартиране: Вместо моделът да бъде претоварен веднага с големи обеми от данни, той започва с по-малък, висококачествен набор от данни, за да прецизира отговорите си от самото начало.
  • Обучение с усилване без човешки етикети: За разлика от V3, DeepSeek-R1 разчита изцяло на RL, което означава, че се научава да разсъждава самостоятелно, а не просто да имитира данни за обучение.
  • Извадка за отхвърляне на синтетични данни: Моделът генерира множество отговори и само най-качествените отговори се избират за по-нататъшно обучение.
  • Смесване на контролирани и синтетични данни: Тренировъчните данни обединяват най-добрите отговори, генерирани от изкуствен интелект, с надзираваните фино настроени данни от DeepSeek-V3.
  • Окончателен процес на RL: Финалният кръг на обучение с подсилване гарантира, че моделът се обобщава добре към голямо разнообразие от подкани и може да разсъждава ефективно по различни теми.

Сега нека разгледаме някои сравнителни показатели, за да видим как V3 и R1 се сравняват с други популярни модели:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 и MATH-500 са сравнителни тестове по математика, GPQA Diamond и MMLU са тестове за общи познания и накрая, Codeforces и SWE-bench Verified са сравнителни тестове за кодиране.

Дестилирани модели на DeepSeek

Дестилацията в изкуствения интелект е процесът на създаване на по-малки, по-ефективни модели от по-големи, като се запазва голяма част от тяхната аргументационна сила и същевременно се намаляват изчислителните изисквания.

Внедряването на V3 и R1 не е практично за всеки, тъй като те изискват 8 графични процесора NVIDIA H200 с по 141 GB памет. Ето защо DeepSeek създаде 6 дестилирани модела, вариращи от 1,5 милиарда до 70 милиарда параметри:

  • Те започнаха с шест модела с отворен код от Llama 3.1/3.3 и Qwen 2.5.
  • След това генерираха 800 000 висококачествени извадки за разсъждения, използвайки R1.
  • И накрая, те прецизираха по-малките модели върху тези синтетични данни за разсъждения.

Ето как тези шест модела се представиха в ключови сравнителни тестове, демонстрирайки способностите си в областта на математиката (AIME 2024 и MATH-500), общите знания (GPQA Diamond) и кодирането (LiveCode Bench и CodeForces):

Дестилирани модели на DeepSeek-R1 в бенчмаркове

Очаквано, с увеличаването на броя на параметрите резултатите се подобряват. Най-малкият модел с 1,5 милиарда параметри се представи най-зле, докато най-големият модел със 70 милиарда параметри се представи най-добре. Любопитно е, че най-балансираният модел изглежда като Qwen-32B, който е почти толкова добър, колкото Llama-70B, въпреки че има два пъти по-малко параметри.

Бъдещето на DeepSeek

DeepSeek постигна забележителен успех за кратко време, получавайки световно признание почти за една нощ. Чатботът сякаш се появи от нищото, но има риск да избледнее също толкова бързо. Поддържането на разпознаваемостта на марката и доверието в дългосрочен план е сериозно предизвикателство, особено на такъв силно конкурентен пазар. Технологични гиганти като Google и OpenAI разполагат с бюджети, които далеч надхвърлят финансовите ресурси на DeepSeek, а освен това имат и техническо предимство.

Едно от основните препятствия пред DeepSeek е недостигът на изчислителна техника. В сравнение с американските си колеги DeepSeek е в значително по-неблагоприятно положение от гледна точка на изчислителната мощност. Това изоставане се задълбочава от контрола на САЩ върху износа на усъвършенствани чипове, който ограничава достъпа на DeepSeek до най-новия хардуер, необходим за разработване и внедряване на по-мощни модели на ИИ.

Въпреки че DeepSeek показа впечатляваща ефективност в дейността си, достъпът до по-модерни изчислителни ресурси би могъл значително да ускори напредъка ѝ и да засили конкурентоспособността ѝ спрямо компании с по-големи възможности. Преодоляването на този недостиг на изчислителни ресурси е от решаващо значение за DeepSeek, за да разшири мащаба на своите иновации и да се утвърди като по-силен претендент на световната сцена.

Въпреки това е важно да не се рисува твърде мрачна картина, защото DeepSeek вече е постигнал нещо забележително. Компанията доказа, че дори с ограничени ресурси е възможно да се създаде продукт от световна класа - нещо, което мнозина смятаха, че е постижимо само с милиардни бюджети и огромна инфраструктура. Успехът на DeepSeek вероятно ще вдъхнови безброй други и ще ускори още повече и без това бързото развитие на технологиите за изкуствен интелект.