Volver a la página principal

DeepSeek: un nuevo capítulo en la inteligencia artificial

DeepSeek es un verdadero fenómeno. Apenas unos días después de su lanzamiento, el chatbot chino se disparó hasta la cima de las aplicaciones más descargadas en la App Store de Apple, destronando a ChatGPT. Para muchos, fue una sorpresa que una empresa relativamente desconocida con una inversión mínima (su presupuesto es aproximadamente 14 veces menor que el de OpenAI) lograra superar, aunque fuera temporalmente, al líder indiscutible del mercado.

Historia de DeepSeek

DeepSeek fue fundada por el multimillonario chino Liang Wengfeng. Formado en la Universidad de Zhejiang, Liang obtuvo una licenciatura en Ingeniería de la Información Electrónica en 2007 y un máster en Ingeniería de la Información y las Comunicaciones en 2010.

En 2008, Liang formó un equipo con sus compañeros de clase de la universidad para acumular datos relacionados con los mercados financieros y explorar el trading cuantitativo utilizando el aprendizaje automático. En febrero de 2016, Liang y otros dos compañeros de ingeniería fundaron High-Flyer, una empresa centrada en el aprovechamiento de la inteligencia artificial para algoritmos de negociación (realización de inversiones, detección de patrones en los precios de las acciones, etc.).

En abril de 2023, High-Flyer estableció un laboratorio de inteligencia artificial general dedicado al desarrollo de herramientas de inteligencia artificial que no se utilizarían para realizar operaciones bursátiles. En mayo de 2023, este laboratorio se convirtió en una entidad independiente llamada DeepSeek.

En enero de 2025, DeepSeek fue noticia con el lanzamiento de DeepSeek-R1, un modelo de IA de razonamiento de código abierto de 671 000 millones de parámetros. El modelo ganó popularidad rápidamente, convirtiéndose en la aplicación gratuita número uno en la App Store de Apple de EE. UU.

Liang Wengfeng

Liang Wengfeng

Hitos clave:

  • 2016. Fundación de High-Flyer. Esta empresa, centrada inicialmente en algoritmos de comercio de IA, sentó las bases de DeepSeek.
  • 2023. Fundación de DeepSeek. Fundada en abril como laboratorio de inteligencia artificial general bajo High-Flyer, DeepSeek se independizó en mayo.
  • 2025. Lanzamiento de DeepSeek-R1. Rápidamente se convirtió en una sensación mundial, encabezando las listas como uno de los chatbots más populares.

El viaje de DeepSeek a la cima no ha sido nada fácil. En sus inicios, la empresa dependía de los chips gráficos Nvidia A100, que más tarde fueron prohibidos de exportar a China por la administración estadounidense. Los desarrolladores cambiaron entonces a los chips H800, menos potentes, pero estos también fueron restringidos poco después. A pesar de estos desafíos, DeepSeek logró crear su avanzado modelo R1 utilizando solo chips H800 por valor de 5,6 millones de dólares. Para ponerlo en perspectiva, se estima que entrenar a GPT-4 cuesta entre 50 y 100 millones de dólares.

«Nuestro mayor desafío nunca ha sido el dinero, sino el embargo de chips de alta gama», ha dicho Liang.

DeepSeek R1

Características y tecnologías clave de DeepSeek

A diferencia de muchos otros chatbots populares, los modelos de DeepSeek son de código abierto, lo que significa que los usuarios pueden explorar cómo funciona la tecnología bajo el capó. Esta transparencia genera confianza, ya que garantiza que el chatbot no es una misteriosa «caja negra»: su comportamiento puede ser examinado y comprendido por la comunidad.

Los componentes de código abierto permiten a los desarrolladores e investigadores contribuir con mejoras, corregir errores o adaptar la tecnología a necesidades específicas. Por eso los proyectos de código abierto tienden a evolucionar rápidamente gracias a las contribuciones de la comunidad. Verás surgir nuevas funciones, mejoras y aplicaciones más rápido que con los sistemas propietarios.

Algunas de las importantes soluciones técnicas que hacen que los modelos de DeepSeek funcionen de la forma más eficiente posible:

  • MoE (mezcla de expertos)
  • MLA (atención latente multitarea)
  • MTP (predicción multitoken)
MoE (Mixture of Experts)

La mezcla de expertos (MoE) es una técnica de aprendizaje automático que consiste en combinar las predicciones de múltiples modelos especializados (los «expertos») para mejorar el rendimiento general del chatbot.

Así es como funciona en DeepSeek:

  • DeepSeek probablemente tiene un gran conjunto de 256 redes neuronales especializadas (expertos). Cada experto es un modelo más pequeño entrenado para manejar patrones o características específicas en los datos. Por ejemplo, en el procesamiento del lenguaje natural, un experto puede especializarse en sintaxis, otro en semántica, otro en conocimientos específicos de un dominio, etc.
  • Una red de compuerta decide qué expertos activar para cada token de entrada. Evalúa la entrada y asigna pesos a los expertos, seleccionando los 8 mejores expertos más relevantes para el token actual. Esto asegura que solo se utilice un pequeño subconjunto del total de expertos en un momento dado.
  • En lugar de ejecutar los 256 expertos para cada token (lo que sería computacionalmente costoso), solo se activan los 8 mejores expertos. Esto reduce drásticamente el coste computacional sin dejar de aprovechar toda la capacidad del modelo.

Al activar solo un pequeño subconjunto de expertos, DeepSeek logra la eficiencia de los recursos. El modelo puede escalar a un tamaño muy grande (en términos de parámetros) sin un aumento proporcional en la computación.

MLA (Multi-head Latent Attention)

La atención latente multicabeza (MLA) es un poderoso mecanismo que combina las fortalezas de la atención multicabeza y las representaciones de espacio latente para mejorar la eficiencia y el rendimiento.

Así es como funciona en DeepSeek:

  • En la atención multicabeza estándar, la entrada se divide en múltiples «cabezas», cada una de las cuales aprende a centrarse en diferentes aspectos de los datos.
  • Los datos de entrada (por ejemplo, texto, imágenes u otros datos estructurados) se codifican primero en una representación de alta dimensión.
  • La representación de entrada se proyecta en un espacio latente de menor dimensión utilizando una transformación aprendida (por ejemplo, una capa de red neuronal).
  • La representación latente se divide en múltiples cabezas, cada una de las cuales calcula puntuaciones de atención en el espacio latente. Esto permite que el modelo se centre en diferentes aspectos de los datos de manera eficiente.
  • Al operar en un espacio latente, el MLA reduce el coste computacional de los mecanismos de atención, lo que hace posible procesar grandes conjuntos de datos o secuencias largas.

La combinación de la atención multicabezal y las representaciones latentes permite al modelo captar patrones y relaciones complejos en los datos, lo que conduce a un mejor rendimiento en tareas como el procesamiento del lenguaje natural, los sistemas de recomendación o el análisis de datos.

MTP (Multi-Token Prediction)

Variante de predicción multitoken en DeepSeek

La predicción de múltiples tokens es una técnica utilizada en los modelos de lenguaje para predecir múltiples tokens (palabras o subpalabras) en una secuencia, en lugar de solo el siguiente token. Este enfoque puede mejorar la capacidad del modelo para generar texto coherente y contextualmente preciso, ya que anima al modelo a considerar las dependencias y la estructura a largo plazo en los datos.

Así es como funciona en DeepSeek:

  • La secuencia de entrada (por ejemplo, una frase o un párrafo) se codifica utilizando una arquitectura basada en transformadores, que captura información contextual sobre cada token de la secuencia.
  • Los modelos DeepSeek tienen múltiples cabezas de salida, cada una de ellas entrenada para predecir un token futuro diferente.
  • La cabeza 1 predice el siguiente token. La cabeza 2 predice el token posterior a ese. La cabeza 3 predice el token dos posiciones más adelante.
  • En el momento de la inferencia, el modelo genera texto de forma autorregresiva, pero el entrenamiento multitoken garantiza que cada predicción se base en un contexto más amplio, lo que da lugar a una generación de texto más coherente y precisa.

DeepSeek aplica la predicción multitoken para mejorar la calidad de sus modelos de lenguaje, haciéndolos más eficaces en tareas como la generación de texto, la traducción y el resumen.

Modelos actuales

Dos de los modelos más recientes de DeepSeek son DeepSeek-V3, lanzado en diciembre de 2024, y DeepSeek-R1, lanzado en enero de 2025.

El V3 es un competidor directo de GPT 4o, mientras que el R1 puede compararse con el modelo o1 de OpenAI:

GPT 4o, o1, V3, R1

DeepSeek-V3 es una opción fiable para la mayoría de las tareas cotidianas, capaz de responder a preguntas sobre cualquier tema. Destaca por mantener conversaciones con un tono natural y mostrar creatividad. Este modelo es bueno para escribir, crear contenido o responder a preguntas genéricas que probablemente se hayan respondido muchas veces antes.

DeepSeek-R1, por otro lado, destaca cuando se trata de tareas complejas de resolución de problemas, lógica y razonamiento paso a paso. R1 fue diseñado para abordar consultas desafiantes que requieren un análisis exhaustivo y soluciones estructuradas. Este modelo es ideal para desafíos de codificación y preguntas con mucha lógica.

ModeloPuntos fuertesPuntos débiles
DeepSeek-V3Asistencia general en materia de codificación y explicación de conceptos en términos más sencillosPuede sacrificar cierta experiencia en un nicho en aras de la versatilidad
 Escritura creativa con profundo conocimiento del contextoPuede generalizar en exceso en ámbitos muy técnicos.
 Adecuado para la generación rápida de contenidosCarece de capacidad de razonamiento
DeepSeek-R1Puede manejar tareas técnicas específicasProblemas con el contexto más amplio o consultas ambiguas
 Alta precisión en dominios especializados (matemáticas o código, por ejemplo)Resultados rígidos y formulistas en tareas creativas
 Optimizado para la redacción técnica, como documentos legales o resúmenes académicosMenos adaptable a los cambios de estilo y tono

Ambos modelos tienen especificaciones técnicas similares:

 DeepSeek-V3DeepSeek-R1
Modelo baseDeepSeek-V3-BaseDeepSeek-V3-Base
TipoModelo de uso generalModelo de razonamiento
Parámetros671 000 millones (37 000 millones activados)671 000 millones (37 000 millones activados)
Longitud del contexto128 mil128 mil

La diferencia clave está en su entrenamiento. Así es como DeepSeek-R1 se entrenó en V3:

  • Puesta a punto de arranque en frío: en lugar de abrumar al modelo con grandes volúmenes de datos de inmediato, comienza con un conjunto de datos más pequeño y de alta calidad para refinar sus respuestas desde el principio.
  • Aprendizaje por refuerzo sin etiquetas humanas: a diferencia de V3, DeepSeek-R1 se basa completamente en RL, lo que significa que aprende a razonar de forma independiente en lugar de simplemente imitar los datos de entrenamiento.
  • Muestreo de rechazo para datos sintéticos: el modelo genera múltiples respuestas y solo se seleccionan las de mejor calidad para seguir entrenándose.
  • Mezcla de datos supervisados y sintéticos: los datos de entrenamiento combinan las mejores respuestas generadas por la IA con los datos supervisados y afinados de DeepSeek-V3.
  • Proceso final de RL: una ronda final de aprendizaje por refuerzo garantiza que el modelo se generalice bien a una amplia variedad de indicaciones y pueda razonar eficazmente entre temas.

Ahora, veamos algunos puntos de referencia para comparar V3 y R1 con otros modelos populares:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 y MATH-500 son pruebas de referencia de matemáticas, GPQA Diamond y MMLU son pruebas de conocimientos generales y, por último, Codeforces y SWE-bench Verified son pruebas de referencia de codificación.

Modelos destilados de DeepSeek

La destilación en inteligencia artificial es el proceso de crear modelos más pequeños y eficientes a partir de otros más grandes, conservando gran parte de su poder de razonamiento y reduciendo al mismo tiempo las demandas computacionales.

Implementar V3 y R1 no es práctico para todos, ya que requieren 8 GPU NVIDIA H200 con 141 GB de memoria cada una. Por eso DeepSeek creó 6 modelos destilados que van desde 1500 millones hasta 70 000 millones de parámetros:

  • Comenzaron con seis modelos de código abierto de Llama 3.1/3.3 y Qwen 2.5.
  • A continuación, generaron 800 000 muestras de razonamiento de alta calidad utilizando R1.
  • Y, por último, afinaron los modelos más pequeños con estos datos de razonamiento sintético.

Así es como se comportaron estos seis modelos en los principales puntos de referencia, demostrando sus capacidades en matemáticas (AIME 2024 y MATH-500), conocimientos generales (GPQA Diamond) y codificación (LiveCode Bench y CodeForces):

Modelos destilados DeepSeek-R1 en puntos de referencia

Como era de esperar, a medida que aumentaba el número de parámetros, los resultados mejoraban. El modelo más pequeño, con 1500 millones de parámetros, fue el que peor funcionó, mientras que el modelo más grande, con 70 000 millones de parámetros, fue el que mejor funcionó. Curiosamente, el modelo más equilibrado parece ser Qwen-32B, que es casi tan bueno como Llama-70B, aunque tiene la mitad de parámetros.

El futuro de DeepSeek

DeepSeek ha logrado un éxito notable en poco tiempo, ganando reconocimiento mundial casi de la noche a la mañana. El chatbot pareció aparecer de la nada, pero existe el riesgo de que desaparezca con la misma rapidez. Mantener la visibilidad y la confianza de la marca a largo plazo es un desafío importante, especialmente en un mercado tan competitivo. Gigantes tecnológicos como Google y OpenAI tienen presupuestos que superan con creces los recursos financieros de DeepSeek, y también tienen una ventaja técnica.

Uno de los principales obstáculos a los que se enfrenta DeepSeek es la brecha informática. En comparación con sus homólogos estadounidenses, DeepSeek opera en una situación de clara desventaja en términos de potencia computacional. Esta brecha se ve agravada por los controles de exportación de Estados Unidos sobre los chips avanzados, que limitan el acceso de DeepSeek al hardware más reciente necesario para desarrollar y desplegar modelos de IA más potentes.

Aunque DeepSeek ha demostrado una eficiencia impresionante en sus operaciones, el acceso a recursos computacionales más avanzados podría acelerar significativamente su progreso y fortalecer su competitividad frente a empresas con mayores capacidades. Cerrar esta brecha computacional es crucial para que DeepSeek amplíe sus innovaciones y se establezca como un competidor más fuerte en el escenario global.

Dicho esto, es importante no pintar un panorama demasiado sombrío, porque DeepSeek ya ha logrado algo extraordinario. La empresa ha demostrado que, incluso con recursos limitados, es posible crear un producto de primera categoría, algo que muchos creían que solo se podía lograr con presupuestos de miles de millones de dólares y una infraestructura masiva. Es probable que el éxito de DeepSeek inspire a muchos otros y acelere aún más el ya rápido avance de las tecnologías de IA.