Zurück zur Hauptseite

DeepSeek: Ein neues Kapitel in der künstlichen Intelligenz

DeepSeek ist ein echtes Phänomen. Nur wenige Tage nach seiner Veröffentlichung schoss der chinesische Chatbot an die Spitze der am häufigsten heruntergeladenen Apps im Apple App Store und entthronte ChatGPT. Für viele war es ein Schock, dass es einem relativ unbekannten Unternehmen mit minimalen Investitionen – sein Budget ist etwa 14-mal kleiner als das von OpenAI – gelang, den unangefochtenen Marktführer zu übertreffen, wenn auch nur vorübergehend.

Die Geschichte von DeepSeek

DeepSeek wurde vom chinesischen Milliardär Liang Wengfeng gegründet. Liang studierte an der Zhejiang-Universität und erwarb 2007 einen Bachelor of Engineering in elektronischer Informationstechnik und 2010 einen Master of Engineering in Informations- und Kommunikationstechnik.

Im Jahr 2008 gründete Liang mit seinen Kommilitonen ein Team, um Daten über die Finanzmärkte zu sammeln und den quantitativen Handel mit Hilfe von maschinellem Lernen zu erforschen. Im Februar 2016 gründete Liang zusammen mit zwei weiteren Kommilitonen aus dem Ingenieurwesen das Unternehmen High-Flyer, das sich auf die Nutzung künstlicher Intelligenz für Handelsalgorithmen (Investitionen tätigen, Muster in Aktienkursen erkennen usw.) konzentriert.

Im April 2023 richtete High-Flyer ein Labor für künstliche allgemeine Intelligenz ein, das sich der Entwicklung von KI-Tools widmet, die nicht für den Aktienhandel verwendet werden. Im Mai 2023 wurde dieses Labor zu einer unabhängigen Einheit namens DeepSeek.

Im Januar 2025 machte DeepSeek mit der Veröffentlichung von DeepSeek-R1, einem Open-Source-KI-Modell mit 671 Milliarden Parametern, Schlagzeilen. Das Modell wurde schnell populär und zur beliebtesten kostenlosen App im US-amerikanischen Apple App Store.

Liang Wengfeng

Liang Wengfeng

Wichtige Meilensteine:

  • 2016: Gründung von High-Flyer. Dieses Unternehmen konzentrierte sich zunächst auf KI-Handelsalgorithmen und legte den Grundstein für DeepSeek.
  • 2023: Gründung von DeepSeek. DeepSeek wurde im April als Labor für künstliche allgemeine Intelligenz unter High-Flyer gegründet und im Mai unabhängig.
  • 2025. Veröffentlichung von DeepSeek-R1. DeepSeek wurde schnell zu einer weltweiten Sensation und führte als einer der beliebtesten Chatbots die Charts an.

Der Weg von DeepSeek an die Spitze war alles andere als einfach. In den Anfangstagen des Unternehmens wurden Nvidia A100-Grafikchips verwendet, die später von der US-Regierung mit einem Exportverbot nach China belegt wurden. Die Entwickler stiegen dann auf die weniger leistungsstarken H800-Chips um, doch auch diese wurden bald darauf eingeschränkt. Trotz dieser Herausforderungen gelang es DeepSeek, sein fortschrittliches R1-Modell mit H800-Chips im Wert von nur 5,6 Millionen US-Dollar zu entwickeln. Zum Vergleich: Die Kosten für das Training von GPT-4 werden auf 50 bis 100 Millionen US-Dollar geschätzt.

„Unsere größte Herausforderung war nie das Geld, sondern das Embargo für High-End-Chips“, sagte Liang.

DeepSeek R1

DeepSeek-Funktionen und Schlüsseltechnologien

Im Gegensatz zu vielen anderen beliebten Chatbots sind DeepSeek-Modelle Open-Source, d. h. Benutzer können die Funktionsweise der Technologie unter der Haube erkunden. Diese Transparenz schafft Vertrauen, da sie sicherstellt, dass der Chatbot keine mysteriöse „Black Box“ ist – sein Verhalten kann von der Community untersucht und verstanden werden.

Open-Source-Komponenten ermöglichen es Entwicklern und Forschern, Verbesserungen beizusteuern, Fehler zu beheben oder die Technologie an spezifische Anforderungen anzupassen. Deshalb entwickeln sich Open-Source-Projekte aufgrund der Beiträge der Community in der Regel schnell weiter. Neue Funktionen, Verbesserungen und Anwendungen entstehen schneller als bei proprietären Systemen.

Einige der wichtigen technischen Lösungen, die dafür sorgen, dass DeepSeek-Modelle so effizient wie möglich arbeiten:

  • MoE (Mixture of Experts)
  • MLA (Multi-head Latent Attention)
  • MTP (Multi-Token Prediction)
MoE (Mixture of Experts)

Mixture of Experts (MoE) ist eine Technik des maschinellen Lernens, bei der die Vorhersagen mehrerer spezialisierter Modelle (die ‚Experten‘) kombiniert werden, um die Gesamtleistung des Chatbots zu verbessern.

So funktioniert es in DeepSeek:

  • DeepSeek verfügt wahrscheinlich über einen großen Pool von 256 spezialisierten neuronalen Netzwerken (Experten). Jeder Experte ist ein kleineres Modell, das darauf trainiert ist, bestimmte Muster oder Merkmale in den Daten zu verarbeiten. Bei der Verarbeitung natürlicher Sprache könnte sich beispielsweise ein Experte auf Syntax, ein anderer auf Semantik, ein weiterer auf domänenspezifisches Wissen usw. spezialisiert haben.
  • Ein Gating-Netzwerk entscheidet, welche Experten für jedes Eingabetoken aktiviert werden. Es wertet die Eingabe aus und weist den Experten Gewichtungen zu, wobei die acht wichtigsten Experten für das aktuelle Token ausgewählt werden. Dadurch wird sichergestellt, dass zu jedem Zeitpunkt nur eine kleine Teilmenge der Gesamtzahl der Experten verwendet wird.
  • Anstatt alle 256 Experten für jedes Token auszuführen (was rechenintensiv wäre), werden nur die besten 8 Experten aktiviert. Dadurch werden die Rechenkosten drastisch gesenkt, während die volle Kapazität des Modells genutzt wird.

Durch die Aktivierung nur einer kleinen Teilmenge von Experten erreicht DeepSeek Ressourceneffizienz. Das Modell kann auf eine sehr große Größe (in Bezug auf die Parameter) skaliert werden, ohne dass der Rechenaufwand proportional zunimmt.

MLA (Multi-head Latent Attention)

Multi-Head Latent Attention (MLA) ist ein leistungsstarker Mechanismus, der die Stärken von Multi-Head Attention und Latent Space Representations kombiniert, um die Effizienz und Leistung zu verbessern.

So funktioniert es in DeepSeek:

  • Bei der Standard-Multi-Head Attention wird die Eingabe in mehrere „Köpfe“ aufgeteilt, von denen jeder lernt, sich auf verschiedene Aspekte der Daten zu konzentrieren.
  • Die Eingabedaten (z. B. Text, Bilder oder andere strukturierte Daten) werden zunächst in eine hochdimensionale Darstellung kodiert.
  • Die Eingabedarstellung wird mithilfe einer erlernten Transformation (z. B. einer neuronalen Netzwerkschicht) in einen niedrigdimensionalen latenten Raum projiziert.
  • Die latente Darstellung wird in mehrere Köpfe aufgeteilt, von denen jeder Aufmerksamkeitswerte im latenten Raum berechnet. Dadurch kann sich das Modell effizient auf verschiedene Aspekte der Daten konzentrieren.
  • Durch die Arbeit in einem latenten Raum reduziert MLA die Rechenkosten von Aufmerksamkeitsmechanismen und ermöglicht so die Verarbeitung großer Datensätze oder langer Sequenzen.

Die Kombination aus Multi-Head-Attention und latenten Darstellungen ermöglicht es dem Modell, komplexe Muster und Beziehungen in den Daten zu erfassen, was zu einer besseren Leistung bei Aufgaben wie der Verarbeitung natürlicher Sprache, Empfehlungssystemen oder der Datenanalyse führt.

MTP (Multi-Token Prediction)

Variante der Multi-Token-Vorhersage in DeepSeek

Die Multi-Token-Vorhersage ist eine Technik, die in Sprachmodellen verwendet wird, um mehrere Token (Wörter oder Teilwörter) in einer Sequenz vorherzusagen, und nicht nur das nächste Token. Dieser Ansatz kann die Fähigkeit des Modells verbessern, kohärenten und kontextgenaueren Text zu generieren, da er das Modell dazu anregt, längerfristige Abhängigkeiten und Strukturen in den Daten zu berücksichtigen.

So funktioniert es in DeepSeek:

  • Die Eingabesequenz (z. B. ein Satz oder Absatz) wird mithilfe einer transformatorbasierten Architektur codiert, die Kontextinformationen zu jedem Token in der Sequenz erfasst.
  • DeepSeek-Modelle verfügen über mehrere Ausgabeköpfe, die jeweils darauf trainiert sind, ein anderes zukünftiges Token vorherzusagen.
  • Kopf 1 sagt das nächste Token voraus. Kopf 2 sagt das Token danach voraus. Kopf 3 sagt das Token zwei Positionen weiter voraus.
  • Zum Zeitpunkt der Inferenz generiert das Modell autoregressiv Text, aber das Multi-Token-Training stellt sicher, dass jede Vorhersage durch einen breiteren Kontext informiert wird, was zu einer kohärenteren und genaueren Textgenerierung führt.

DeepSeek wendet die Multi-Token-Vorhersage an, um die Qualität seiner Sprachmodelle zu verbessern und sie bei Aufgaben wie Textgenerierung, Übersetzung und Zusammenfassung effektiver zu machen.

Aktuelle Modelle

Zwei der neuesten DeepSeek-Modelle sind DeepSeek-V3, das im Dezember 2024 veröffentlicht wurde, und DeepSeek-R1, das im Januar 2025 veröffentlicht wurde.

V3 ist ein direkter Konkurrent von GPT 4o, während R1 mit dem o1-Modell von OpenAI verglichen werden kann:

GPT 4o, o1, V3, R1

DeepSeek-V3 ist eine zuverlässige Wahl für die meisten alltäglichen Aufgaben und kann Fragen zu jedem Thema beantworten. Er glänzt durch natürlich klingende Gespräche und Kreativität. Dieses Modell eignet sich gut zum Schreiben, zur Erstellung von Inhalten oder zur Beantwortung allgemeiner Fragen, die wahrscheinlich schon oft beantwortet wurden.

DeepSeek-R1 hingegen glänzt bei komplexen Problemlösungs-, Logik- und schrittweisen Argumentationsaufgaben. R1 wurde für anspruchsvolle Abfragen entwickelt, die eine gründliche Analyse und strukturierte Lösungen erfordern. Dieses Modell eignet sich hervorragend für Programmieraufgaben und logikintensive Fragen.

ModellStärkenSchwächen
DeepSeek-V3Allgemeine Unterstützung bei der Kodierung und einfachere Erklärung von KonzeptenKann etwas Nischenexpertise für Vielseitigkeit opfern
 Kreatives Schreiben mit tiefem Verständnis des KontextsKann in hochtechnischen Bereichen zu sehr verallgemeinern
 Gut geeignet für die schnelle Erstellung von InhaltenMangel an Denkvermögen
DeepSeek-R1Kann technische Nischenaufgaben bewältigenProbleme mit dem breiteren Kontext oder mehrdeutigen Fragen
 Hohe Genauigkeit in spezialisierten Bereichen (z. B. Mathematik oder Code)Starre und formelhafte Ergebnisse bei kreativen Aufgaben
 Optimiert für technische Texte wie juristische Dokumente oder akademische ZusammenfassungenWeniger anpassungsfähig an Stil- und Tonänderungen

Beide Modelle haben ähnliche technische Spezifikationen:

 DeepSeek-V3DeepSeek-R1
BasismodellDeepSeek-V3-BaseDeepSeek-V3-Base
TypUniversalmodellArgumentationsmodell
Parameter671 Milliarden (37 Milliarden aktiviert)671 Milliarden (37 Milliarden aktiviert)
Länge des Kontexts128 Tausend128 Tausend

Der Hauptunterschied liegt in der Schulung. So wurde DeepSeek-R1 auf V3 geschult:

  • Kaltstart-Feinabstimmung: Anstatt das Modell sofort mit großen Datenmengen zu überfluten, beginnt es mit einem kleineren, hochwertigen Datensatz, um seine Antworten von Anfang an zu verfeinern.
  • Verstärkungslernen ohne menschliche Labels: Im Gegensatz zu V3 verlässt sich DeepSeek-R1 vollständig auf RL, d. h. es lernt, selbstständig zu argumentieren, anstatt nur Trainingsdaten nachzuahmen.
  • Ablehnungsstichproben für synthetische Daten: Das Modell generiert mehrere Antworten, und nur die qualitativ besten Antworten werden ausgewählt, um sich selbst weiter zu trainieren.
  • Kombination von überwachten und synthetischen Daten: Die Trainingsdaten kombinieren die besten KI-generierten Antworten mit den überwachten, fein abgestimmten Daten von DeepSeek-V3.
  • Abschließender RL-Prozess: Eine abschließende Runde des verstärkenden Lernens stellt sicher, dass das Modell gut auf eine Vielzahl von Aufforderungen verallgemeinert und effektiv themenübergreifend argumentieren kann.

Schauen wir uns nun einige Benchmarks an, um zu sehen, wie V3 und R1 im Vergleich zu anderen beliebten Modellen abschneiden:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 und MATH-500 sind Mathematik-Benchmarks, GPQA Diamond und MMLU sind Allgemeinwissenstests und schließlich sind Codeforces und SWE-bench Verified Coding-Benchmarks.

Destillierte DeepSeek-Modelle

Destillation in der künstlichen Intelligenz ist der Prozess der Erstellung kleinerer, effizienterer Modelle aus größeren, wobei ein Großteil ihrer Denkleistung erhalten bleibt, während der Rechenaufwand reduziert wird.

Die Bereitstellung von V3 und R1 ist nicht für jeden praktisch, da sie 8 NVIDIA H200-Grafikprozessoren mit jeweils 141 GB Speicher erfordern. Aus diesem Grund hat DeepSeek 6 destillierte Modelle mit 1,5 bis 70 Milliarden Parametern erstellt:

  • Sie begannen mit sechs Open-Source-Modellen von Llama 3.1/3.3 und Qwen 2.5.
  • Dann wurden mithilfe von R1 800.000 hochwertige Argumentationsbeispiele generiert.
  • Und schließlich wurden die kleineren Modelle anhand dieser synthetischen Argumentationsdaten verfeinert.

Hier ist, wie sich diese sechs Modelle in wichtigen Benchmarks geschlagen haben, wobei ihre Fähigkeiten in Mathematik (AIME 2024 und MATH-500), Allgemeinwissen (GPQA Diamond) und Programmierung (LiveCode Bench und CodeForces) unter Beweis gestellt wurden:

DeepSeek-R1-Destillatmodelle in Benchmarks

Wie zu erwarten war, verbesserten sich die Ergebnisse mit zunehmender Anzahl der Parameter. Das kleinste Modell mit 1,5 Milliarden Parametern schnitt am schlechtesten ab, während das größte Modell mit 70 Milliarden Parametern am besten abschnitt. Interessanterweise ähnelt das ausgewogenste Modell Qwen-32B, das fast so gut ist wie Llama-70B, obwohl es nur halb so viele Parameter hat.

Die Zukunft von DeepSeek

DeepSeek hat in kurzer Zeit bemerkenswerte Erfolge erzielt und fast über Nacht weltweite Anerkennung erlangt. Der Chatbot schien aus dem Nichts zu erscheinen, aber es besteht die Gefahr, dass er genauso schnell wieder in der Versenkung verschwindet. Die langfristige Aufrechterhaltung der Sichtbarkeit und des Vertrauens in die Marke ist eine große Herausforderung, insbesondere in einem so wettbewerbsintensiven Markt. Technologiegiganten wie Google und OpenAI verfügen über Budgets, die die finanziellen Ressourcen von DeepSeek bei Weitem übersteigen, und sie haben auch einen technischen Vorsprung.

Eine der größten Hürden für DeepSeek ist die Rechenlücke. Im Vergleich zu seinen US-amerikanischen Konkurrenten hat DeepSeek einen erheblichen Nachteil in Bezug auf die Rechenleistung. Diese Lücke wird durch die US-amerikanischen Exportkontrollen für fortschrittliche Chips noch verschärft, die den Zugang von DeepSeek zu der neuesten Hardware einschränken, die für die Entwicklung und den Einsatz leistungsfähigerer KI-Modelle benötigt wird.

Obwohl DeepSeek eine beeindruckende Effizienz in seinen Abläufen bewiesen hat, könnte der Zugang zu fortschrittlicheren Rechenressourcen seine Fortschritte erheblich beschleunigen und seine Wettbewerbsfähigkeit gegenüber Unternehmen mit größeren Fähigkeiten stärken. Die Schließung dieser Rechenlücke ist für DeepSeek von entscheidender Bedeutung, um seine Innovationen zu skalieren und sich als stärkerer Konkurrent auf der globalen Bühne zu etablieren.

Allerdings sollte man das Bild nicht zu düster malen, denn DeepSeek hat bereits Bemerkenswertes erreicht. Das Unternehmen hat bewiesen, dass es auch mit begrenzten Ressourcen möglich ist, ein Weltklasseprodukt zu schaffen – etwas, von dem viele glaubten, dass es nur mit Milliardenbudgets und einer riesigen Infrastruktur erreichbar sei. Der Erfolg von DeepSeek wird wahrscheinlich unzählige andere inspirieren und die bereits rasante Weiterentwicklung von KI-Technologien weiter beschleunigen.