Retour à la page principale

DeepSeek : un nouveau chapitre dans l'intelligence artificielle

DeepSeek est un véritable phénomène. Quelques jours seulement après sa sortie, le chatbot chinois s'est hissé en tête des applications les plus téléchargées sur l'App Store d'Apple, détrônant ChatGPT. Pour beaucoup, ce fut un choc qu'une entreprise relativement inconnue avec un investissement minimal (son budget est environ 14 fois inférieur à celui d'OpenAI) ait réussi à dépasser, même temporairement, le leader incontesté du marché.

Historique de DeepSeek

DeepSeek a été fondée par le milliardaire chinois Liang Wengfeng. Diplômé de l'université du Zhejiang, Liang a obtenu une licence d'ingénieur en ingénierie de l'information électronique en 2007 et un master d'ingénieur en ingénierie de l'information et de la communication en 2010.

En 2008, Liang a formé une équipe avec ses camarades de classe pour accumuler des données relatives aux marchés financiers et explorer le trading quantitatif à l'aide de l'apprentissage automatique. En février 2016, Liang et deux autres camarades de classe en ingénierie ont cofondé High-Flyer, une entreprise spécialisée dans l'utilisation de l'intelligence artificielle pour les algorithmes de trading (réalisation d'investissements, détection de tendances dans les cours des actions, etc.).

En avril 2023, High-Flyer a créé un laboratoire d'intelligence artificielle générale dédié au développement d'outils d'intelligence artificielle qui ne seraient pas utilisés pour effectuer des transactions boursières. En mai 2023, ce laboratoire est devenu une entité indépendante nommée DeepSeek.

En janvier 2025, DeepSeek a fait la une des journaux avec la sortie de DeepSeek-R1, un modèle d'IA de raisonnement open source de 671 milliards de paramètres. Le modèle a rapidement gagné en popularité, devenant l'application gratuite numéro un sur l'App Store d'Apple aux États-Unis.

Liang Wengfeng

Liang Wengfeng

Principales étapes :

  • 2016. Fondation de High-Flyer. Cette société, initialement spécialisée dans les algorithmes de trading basés sur l'IA, a jeté les bases de DeepSeek.
  • 2023. Fondation de DeepSeek. Fondé en avril en tant que laboratoire d'intelligence artificielle générale sous l'égide de High-Flyer, DeepSeek est devenu indépendant en mai.
  • 2025. Sortie de DeepSeek-R1. Il est rapidement devenu un phénomène mondial, se hissant en tête des classements des chatbots les plus populaires.

Le parcours de DeepSeek vers le sommet n'a pas été facile. À ses débuts, l'entreprise s'est appuyée sur les puces graphiques Nvidia A100, dont l'exportation vers la Chine a ensuite été interdite par l'administration américaine. Les développeurs sont alors passés aux puces H800, moins puissantes, mais celles-ci ont également été interdites peu après. Malgré ces difficultés, DeepSeek a réussi à créer son modèle avancé R1 en utilisant des puces H800 d'une valeur de seulement 5,6 millions de dollars. Pour mettre les choses en perspective, on estime que la formation du GPT-4 coûte entre 50 et 100 millions de dollars.

« Notre plus grand défi n'a jamais été l'argent, c'est l'embargo sur les puces haut de gamme », a déclaré Liang.

DeepSeek R1

Fonctionnalités et technologies clés de DeepSeek

Contrairement à de nombreux autres chatbots populaires, les modèles DeepSeek sont open source, ce qui signifie que les utilisateurs peuvent explorer le fonctionnement de la technologie en profondeur. Cette transparence renforce la confiance, car elle garantit que le chatbot n'est pas une mystérieuse « boîte noire » : son comportement peut être examiné et compris par la communauté.

Les composants open source permettent aux développeurs et aux chercheurs d'apporter des améliorations, de corriger des bogues ou d'adapter la technologie à des besoins spécifiques. C'est pourquoi les projets open source ont tendance à évoluer rapidement grâce aux contributions de la communauté. Vous verrez apparaître de nouvelles fonctionnalités, améliorations et applications plus rapidement qu'avec les systèmes propriétaires.

Voici quelques-unes des solutions techniques importantes qui permettent aux modèles DeepSeek de fonctionner aussi efficacement que possible :

  • MoE (Mixture of Experts)
  • MLA (Multi-head Latent Attention)
  • MTP (Multi-Token Prediction)
MoE (Mixture of Experts)

Le mélange d'experts (MoE) est une technique d'apprentissage automatique qui consiste à combiner les prédictions de plusieurs modèles spécialisés (les « experts ») pour améliorer les performances globales du chatbot.

Voici comment cela fonctionne dans DeepSeek :

  • DeepSeek dispose probablement d'un vaste ensemble de 256 réseaux neuronaux spécialisés (experts). Chaque expert est un modèle plus petit formé pour traiter des modèles ou des caractéristiques spécifiques dans les données. Par exemple, dans le traitement du langage naturel, un expert peut se spécialiser dans la syntaxe, un autre dans la sémantique, un autre encore dans les connaissances spécifiques à un domaine, etc.
  • Un réseau de portes décide quels experts activer pour chaque token d'entrée. Il évalue l'entrée et attribue des poids aux experts, en sélectionnant les 8 experts les plus pertinents pour le token en cours. Cela garantit que seul un petit sous-ensemble du total des experts est utilisé à un moment donné.
  • Au lieu d'exécuter les 256 experts pour chaque token (ce qui serait coûteux en termes de calcul), seuls les 8 meilleurs experts sont activés. Cela réduit considérablement le coût de calcul tout en exploitant pleinement la capacité du modèle.

En activant seulement un petit sous-ensemble d'experts, DeepSeek optimise l'utilisation des ressources. Le modèle peut être adapté à une très grande échelle (en termes de paramètres) sans augmentation proportionnelle du calcul.

MLA (Multi-head Latent Attention)

L'attention latente multi-tête (MLA) est un mécanisme puissant qui combine les forces de l'attention multi-tête et des représentations d'espace latent pour améliorer l'efficacité et la performance.

Voici comment cela fonctionne dans DeepSeek :

  • Dans l'attention multi-tête standard, l'entrée est divisée en plusieurs « têtes », chacune d'entre elles apprenant à se concentrer sur différents aspects des données.
  • Les données d'entrée (par exemple, du texte, des images ou d'autres données structurées) sont d'abord encodées dans une représentation à haute dimension.
  • La représentation d'entrée est projetée dans un espace latent de dimension inférieure à l'aide d'une transformation apprise (par exemple, une couche de réseau neuronal).
  • La représentation latente est divisée en plusieurs têtes, chacune d'entre elles calculant des scores d'attention dans l'espace latent. Cela permet au modèle de se concentrer efficacement sur différents aspects des données.
  • En opérant dans un espace latent, le MLA réduit le coût de calcul des mécanismes d'attention, ce qui permet de traiter de grands ensembles de données ou de longues séquences.

La combinaison de l'attention multi-tête et des représentations latentes permet au modèle de capturer des modèles et des relations complexes dans les données, ce qui améliore les performances dans des tâches telles que le traitement du langage naturel, les systèmes de recommandation ou l'analyse de données.

MTP (Multi-Token Prediction)

Variante de la prédiction multitoken dans DeepSeek

La prédiction multi-tokens est une technique utilisée dans les modèles de langage pour prédire plusieurs tokens (mots ou sous-mots) à l'avance dans une séquence, plutôt que le token suivant uniquement. Cette approche peut améliorer la capacité du modèle à générer un texte cohérent et contextuellement précis, car elle encourage le modèle à prendre en compte les dépendances et la structure à plus long terme dans les données.

Voici comment cela fonctionne dans DeepSeek :

  • La séquence d'entrée (par exemple, une phrase ou un paragraphe) est encodée à l'aide d'une architecture basée sur un transformateur, qui capture les informations contextuelles de chaque token de la séquence.
  • Les modèles DeepSeek ont plusieurs têtes de sortie, chacune étant entraînée à prédire un token différent.
  • La tête 1 prédit le token suivant. La tête 2 prédit le token suivant. La tête 3 prédit le token deux positions plus loin.
  • Au moment de l'inférence, le modèle génère du texte de manière autorégressive, mais l'entraînement multitoken garantit que chaque prédiction est éclairée par un contexte plus large, ce qui permet une génération de texte plus cohérente et plus précise.

DeepSeek applique la prédiction multitoken pour améliorer la qualité de ses modèles linguistiques, les rendant plus efficaces dans des tâches telles que la génération de texte, la traduction et la synthèse.

Modèles actuels

Deux des modèles DeepSeek les plus récents sont DeepSeek-V3, sorti en décembre 2024, et DeepSeek-R1, sorti en janvier 2025.

Le V3 est un concurrent direct de GPT 4o, tandis que le R1 peut être comparé au modèle o1 d'OpenAI :

GPT 4o, o1, V3, R1

DeepSeek-V3 est un choix fiable pour la plupart des tâches quotidiennes, capable de répondre à des questions sur n'importe quel sujet. Il excelle dans les conversations au ton naturel et dans la mise en valeur de la créativité. Ce modèle est adapté à la rédaction, à la création de contenu ou à la réponse à des questions génériques qui ont probablement déjà été posées de nombreuses fois.

DeepSeek-R1, en revanche, excelle dans la résolution de problèmes complexes, la logique et les tâches de raisonnement étape par étape. R1 a été conçu pour traiter les requêtes difficiles qui nécessitent une analyse approfondie et des solutions structurées. Ce modèle est idéal pour les défis de codage et les questions à forte composante logique.

ModèlePoints fortsPoints faibles
DeepSeek-V3Assistance générale au codage et explication des concepts en termes plus simplesPeut sacrifier une certaine expertise de niche au profit de la polyvalence
 Écriture créative avec une compréhension approfondie du contextePeut généralisées à outrance dans des domaines très techniques
 Parfaitement adapté à la génération rapide de contenuManque de capacités de raisonnement
DeepSeek-R1Capable de gérer des tâches techniques de nicheDifficultés avec un contexte plus large ou des requêtes ambiguës
 Haute précision dans des domaines spécialisés (mathématiques ou code, par exemple)Résultats rigides et stéréotypés dans les tâches créatives
 Optimisé pour la rédaction technique, comme les documents juridiques ou les résumés universitairesMoins adaptable aux changements de style et de ton

Les deux modèles ont des caractéristiques techniques similaires :

 DeepSeek-V3DeepSeek-R1
Modèle de baseDeepSeek-V3-BaseDeepSeek-V3-Base
TypeModèle à usage généralModèle de raisonnement
Paramètres671 milliards (37 milliards activés)671 milliards (37 milliards activés)
Longueur du contexte128 000128 000

La principale différence réside dans leur formation. Voici comment DeepSeek-R1 a été formé sur V3 :

  • Démarrage à froid et mise au point : plutôt que de submerger le modèle avec de gros volumes de données dès le départ, il commence avec un ensemble de données plus petit et de haute qualité pour affiner ses réponses dès le départ.
  • Apprentissage par renforcement sans étiquettes humaines : contrairement à V3, DeepSeek-R1 s'appuie entièrement sur le RL, ce qui signifie qu'il apprend à raisonner de manière indépendante au lieu de simplement imiter les données d'apprentissage.
  • Échantillonnage de rejet pour les données synthétiques : le modèle génère plusieurs réponses, et seules les réponses de meilleure qualité sont sélectionnées pour s'entraîner davantage.
  • Mélange de données supervisées et synthétiques : les données d'apprentissage fusionnent les meilleures réponses générées par l'IA avec les données supervisées et affinées de DeepSeek-V3.
  • Processus final d'apprentissage par renforcement : un dernier cycle d'apprentissage par renforcement garantit que le modèle se généralise bien à une grande variété d'invites et peut raisonner efficacement sur différents sujets.

Examinons maintenant quelques benchmarks pour comparer V3 et R1 à d'autres modèles populaires :

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 et MATH-500 sont des tests de référence en mathématiques, GPQA Diamond et MMLU sont des tests de culture générale, et enfin, Codeforces et SWE-bench Verified sont des tests de référence en programmation.

Modèles distillés de DeepSeek

La distillation en intelligence artificielle est le processus qui consiste à créer des modèles plus petits et plus efficaces à partir de modèles plus grands, en préservant une grande partie de leur puissance de raisonnement tout en réduisant les besoins en calcul.

Le déploiement de V3 et R1 n'est pas pratique pour tout le monde, car ils nécessitent 8 GPU NVIDIA H200 avec 141 Go de mémoire chacun. C'est pourquoi DeepSeek a créé 6 modèles distillés allant de 1,5 milliard à 70 milliards de paramètres :

  • Ils ont commencé avec six modèles open-source de Llama 3.1/3.3 et Qwen 2.5.
  • Ensuite, ils ont généré 800 000 échantillons de raisonnement de haute qualité à l'aide de R1.
  • Enfin, ils ont affiné les modèles les plus petits à partir de ces données de raisonnement synthétiques.

Voici les résultats de ces six modèles aux principaux tests de référence, qui démontrent leurs capacités en mathématiques (AIME 2024 et MATH-500), en culture générale (GPQA Diamond) et en codage (LiveCode Bench et CodeForces) :

DeepSeek-R1 a distillé des modèles dans des benchmarks

Comme on pouvait s'y attendre, plus le nombre de paramètres augmentait, plus les résultats s'amélioraient. Le plus petit modèle, avec 1,5 milliard de paramètres, a obtenu les moins bons résultats, tandis que le plus grand modèle, avec 70 milliards de paramètres, a obtenu les meilleurs résultats. Curieusement, le modèle le plus équilibré semble être Qwen-32B, qui est presque aussi bon que Llama-70B, bien qu'il ait deux fois moins de paramètres.

L'avenir de DeepSeek

DeepSeek a connu un succès remarquable en peu de temps, acquérant une reconnaissance mondiale presque du jour au lendemain. Le chatbot semblait être apparu de nulle part, mais il risque de disparaître tout aussi rapidement. Maintenir la visibilité et la confiance de la marque sur le long terme est un défi de taille, surtout sur un marché aussi concurrentiel. Les géants de la technologie comme Google et OpenAI disposent de budgets qui dépassent de loin les ressources financières de DeepSeek, et ils ont également un avantage technique.

L'un des principaux obstacles auxquels DeepSeek est confronté est le fossé informatique. Par rapport à ses homologues américains, DeepSeek est nettement désavantagé en termes de puissance de calcul. Ce fossé est exacerbé par les contrôles à l'exportation des puces avancées par les États-Unis, qui limitent l'accès de DeepSeek au matériel le plus récent nécessaire pour développer et déployer des modèles d'IA plus puissants.

Bien que DeepSeek ait fait preuve d'une efficacité impressionnante dans ses opérations, l'accès à des ressources informatiques plus avancées pourrait accélérer considérablement ses progrès et renforcer sa compétitivité face à des entreprises aux capacités plus importantes. Il est essentiel de combler ce déficit de calcul pour que DeepSeek puisse développer ses innovations et s'imposer comme un concurrent plus fort sur la scène mondiale.

Cela dit, il est important de ne pas brosser un tableau trop sombre, car DeepSeek a déjà accompli quelque chose de remarquable. L'entreprise a prouvé que même avec des ressources limitées, il est possible de créer un produit de classe mondiale, ce que beaucoup pensaient n'être réalisable qu'avec des budgets de plusieurs milliards de dollars et des infrastructures massives. Le succès de DeepSeek est susceptible d'en inspirer d'innombrables autres et d'accélérer encore les progrès déjà rapides des technologies d'IA.