DeepSeek: Um novo capítulo na inteligência artificial
O DeepSeek é um verdadeiro fenômeno. Apenas alguns dias após seu lançamento, o chatbot chinês disparou para o topo dos aplicativos mais baixados na Apple App Store, destronando o ChatGPT. Para muitos, foi um choque o fato de uma empresa relativamente desconhecida com investimento mínimo - seu orçamento é cerca de 14 vezes menor que o da OpenAI - ter conseguido superar, mesmo que temporariamente, o líder indiscutível do mercado.
História da DeepSeek
A DeepSeek foi fundada pelo bilionário chinês Liang Wengfeng. Educado na Universidade de Zhejiang, Liang recebeu um diploma de bacharel em engenharia de informação eletrônica em 2007 e um mestrado em engenharia de informação e comunicação em 2010.
Em 2008, Liang formou uma equipe com seus colegas de universidade para acumular dados relacionados aos mercados financeiros e explorar o comércio quantitativo usando o aprendizado de máquina. Em fevereiro de 2016, Liang e dois outros colegas de engenharia co-fundaram a High-Flyer, uma empresa focada em alavancar a inteligência artificial para algoritmos de negociação (fazer investimentos, detectar padrões nos preços das ações, etc.).
Em abril de 2023, a High-Flyer estabeleceu um laboratório de inteligência artificial geral dedicado ao desenvolvimento de ferramentas de inteligência artificial que não seriam usadas para realizar negociações de ações. Em maio de 2023, esse laboratório se tornou uma entidade independente chamada DeepSeek.
Em janeiro de 2025, a DeepSeek ganhou as manchetes com o lançamento do DeepSeek-R1, um modelo de IA de raciocínio de código aberto com 671 bilhões de parâmetros. O modelo rapidamente ganhou popularidade, tornando-se o aplicativo gratuito número um na Apple App Store dos EUA.

Liang Wengfeng
Principais marcos:
- 2016. Fundação da High-Flyer. Essa empresa inicialmente focada em algoritmos de negociação de IA lançou as bases para o DeepSeek.
- 2023. Fundação da DeepSeek. Fundada em abril como um laboratório de inteligência artificial geral sob a High-Flyer, a DeepSeek tornou-se independente em maio.
- 2025. Lançamento do DeepSeek-R1. Ele rapidamente se tornou uma sensação mundial, chegando ao topo das paradas como um dos chatbots mais populares.
A jornada da DeepSeek até o topo não foi nada fácil. Em seus primórdios, a empresa contava com os chips gráficos Nvidia A100, cuja exportação para a China foi posteriormente proibida pelo governo dos EUA. Em seguida, os desenvolvedores passaram a usar os chips H800, menos potentes, mas eles também foram restringidos logo depois. Apesar desses desafios, a DeepSeek conseguiu criar seu modelo R1 avançado usando apenas US$ 5,6 milhões em chips H800. Para colocar isso em perspectiva, estima-se que o treinamento do GPT-4 custe entre US$ 50 e 100 milhões.
“Nosso maior desafio nunca foi o dinheiro, mas sim o embargo aos chips de alta qualidade”, disse Liang.

Recursos e tecnologias-chave do DeepSeek
Ao contrário de muitos outros chatbots populares, os modelos do DeepSeek são de código aberto, o que significa que os usuários podem explorar como a tecnologia funciona nos bastidores. Essa transparência gera confiança, pois garante que o chatbot não seja uma “caixa preta” misteriosa - seu comportamento pode ser examinado e compreendido pela comunidade.
Os componentes de código aberto permitem que os desenvolvedores e pesquisadores contribuam com melhorias, corrijam bugs ou adaptem a tecnologia para necessidades específicas. É por isso que os projetos de código aberto tendem a evoluir rapidamente devido às contribuições da comunidade. Você verá novos recursos, aprimoramentos e aplicativos surgirem mais rapidamente do que nos sistemas proprietários.
Algumas das soluções técnicas importantes que fazem com que os modelos do DeepSeek funcionem da forma mais eficiente possível:
- MoE (Mixture of Experts, mistura de especialistas)
- MLA (Multi-head Latent Attention, atenção latente de várias cabeças)
- MTP (Multi-Token Prediction, previsão de vários tokens)

Mixture of Experts (MoE, mistura de especialistas) é uma técnica de aprendizado de máquina que envolve a combinação das previsões de vários modelos especializados (os “especialistas”) para melhorar o desempenho geral do chatbot.
Veja como isso funciona no DeepSeek:
- O DeepSeek provavelmente tem um grande conjunto de 256 redes neurais especializadas (especialistas). Cada especialista é um modelo menor treinado para lidar com padrões ou recursos específicos nos dados. Por exemplo, no processamento de linguagem natural, um especialista pode se especializar em sintaxe, outro em semântica, outro em conhecimento específico do domínio, etc.
- Uma rede de gating decide quais especialistas devem ser ativados para cada token de entrada. Ela avalia a entrada e atribui pesos aos especialistas, selecionando os oito especialistas mais relevantes para o token atual. Isso garante que apenas um pequeno subconjunto do total de especialistas seja usado em um determinado momento.
- Em vez de executar todos os 256 especialistas para cada token (o que seria computacionalmente caro), apenas os 8 principais especialistas são ativados. Isso reduz drasticamente o custo computacional e ainda aproveita a capacidade total do modelo.
Ao ativar apenas um pequeno subconjunto de especialistas, o DeepSeek obtém eficiência de recursos. O modelo pode ser dimensionado para um tamanho muito grande (em termos de parâmetros) sem um aumento proporcional na computação.

O MLA (Multi-head Latent Attention, atenção latente de várias cabeças) é um mecanismo avançado que combina os pontos fortes da atenção de várias cabeças e das representações de espaço latente para melhorar a eficiência e o desempenho.
Veja como ele funciona no DeepSeek:
- Na atenção padrão de várias cabeças, a entrada é dividida em várias “cabeças”, cada uma das quais aprende a se concentrar em diferentes aspectos dos dados.
- Os dados de entrada (por exemplo, texto, imagens ou outros dados estruturados) são primeiro codificados em uma representação de alta dimensão.
- A representação de entrada é projetada em um espaço latente de dimensão inferior usando uma transformação aprendida (por exemplo, uma camada de rede neural).
- A representação latente é dividida em várias cabeças, cada uma das quais calcula os escores de atenção no espaço latente. Isso permite que o modelo se concentre em diferentes aspectos dos dados de forma eficiente.
- Ao operar em um espaço latente, o MLA reduz o custo computacional dos mecanismos de atenção, tornando viável o processamento de grandes conjuntos de dados ou sequências longas.
A combinação de atenção de várias cabeças e representações latentes permite que o modelo capture padrões e relacionamentos complexos nos dados, o que leva a um melhor desempenho em tarefas como processamento de linguagem natural, sistemas de recomendação ou análise de dados.

Variante da previsão de várias palavras no DeepSeek
A previsão multitoken (MTP) é uma técnica usada em modelos de linguagem para prever vários tokens (palavras ou subpalavras) à frente em uma sequência, em vez de apenas o próximo token. Essa abordagem pode melhorar a capacidade do modelo de gerar texto coerente e contextualmente preciso, pois incentiva o modelo a considerar dependências e estruturas de longo prazo nos dados.
Veja como isso funciona no DeepSeek:
- A sequência de entrada (por exemplo, uma frase ou parágrafo) é codificada usando uma arquitetura baseada em transformador, que captura informações contextuais sobre cada token na sequência.
- Os modelos do DeepSeek têm várias cabeças de saída, cada uma treinada para prever um token futuro diferente.
- A cabeça 1 prevê o próximo token. A cabeça 2 prevê o token seguinte. A cabeça 3 prevê o token duas posições à frente.
- No momento da inferência, o modelo gera texto de forma autorregressiva, mas o treinamento com vários tokens garante que cada previsão seja informada por um contexto mais amplo, levando a uma geração de texto mais coerente e precisa.
O DeepSeek aplica a previsão de vários tokens para aprimorar a qualidade de seus modelos de linguagem, tornando-os mais eficazes em tarefas como geração de texto, tradução e resumo.
Modelos atuais
Dois dos modelos mais recentes do DeepSeek são o DeepSeek-V3, lançado em dezembro de 2024, e o DeepSeek-R1, lançado em janeiro de 2025.
O V3 é um concorrente direto do GPT 4o, enquanto o R1 pode ser comparado ao modelo o1 da OpenAI:

O DeepSeek-V3 é uma opção confiável para a maioria das tarefas cotidianas, capaz de responder a perguntas sobre qualquer assunto. Ele se destaca por ter conversas com som natural e mostrar criatividade. Esse modelo é bom para escrever, criar conteúdo ou responder a perguntas genéricas que provavelmente já foram respondidas muitas vezes antes.
O DeepSeek-R1, por outro lado, se destaca quando se trata de tarefas complexas de resolução de problemas, lógica e raciocínio passo a passo. O R1 foi projetado para lidar com consultas desafiadoras que exigem análise completa e soluções estruturadas. Esse modelo é excelente para desafios de codificação e perguntas com muita lógica.
| Modelo | Pontos fortes | Pontos fracos |
| DeepSeek-V3 | Assistência geral à codificação e explicação de conceitos em termos mais simples | Pode sacrificar alguns conhecimentos de nicho em prol da versatilidade |
| Redação criativa com profundo entendimento do contexto | Pode generalizar demais em domínios altamente técnicos | |
| Adequado para geração rápida de conteúdo | Falta de capacidade de raciocínio | |
| DeepSeek-R1 | Pode lidar com tarefas técnicas de nicho | Dificuldades com contexto mais amplo ou consultas ambíguas |
| Alta precisão em domínios especializados (matemática ou código, por exemplo) | Resultados rígidos e estereotipados em tarefas criativas | |
| Otimizado para redação técnica, como documentos jurídicos ou resumos acadêmicos | Menos adaptável a mudanças de estilo e tom |
Ambos os modelos têm especificações técnicas semelhantes:
| DeepSeek-V3 | DeepSeek-R1 | |
| Modelo básico | DeepSeek-V3-Base | DeepSeek-V3-Base |
| Tipo | Modelo de uso geral | Modelo de raciocínio |
| Parâmetros | 671 bilhões (37 bilhões ativados) | 671 bilhões (37 bilhões ativados) |
| Comprimento do contexto | 128 mil | 128 mil |
A principal diferença está em seu treinamento. Veja como o DeepSeek-R1 foi treinado na V3:
- Ajuste fino de início frio: Em vez de sobrecarregar o modelo com grandes volumes de dados imediatamente, ele começa com um conjunto de dados menor e de alta qualidade para refinar suas respostas desde o início.
- Aprendizado por reforço sem rótulos humanos: Ao contrário do V3, o DeepSeek-R1 depende inteiramente da RL, o que significa que ele aprende a raciocinar de forma independente em vez de apenas imitar os dados de treinamento.
- Amostragem de rejeição para dados sintéticos: O modelo gera várias respostas, e somente as respostas de melhor qualidade são selecionadas para treinamento adicional.
- Combinação de dados supervisionados e sintéticos: Os dados de treinamento mesclam as melhores respostas geradas pela IA com os dados supervisionados e ajustados do DeepSeek-V3.
- Processo final de RL: Uma rodada final de aprendizagem por reforço garante que o modelo se generalize bem para uma ampla variedade de solicitações e possa raciocinar de forma eficaz em todos os tópicos.
Agora, vamos dar uma olhada em alguns benchmarks para ver como o V3 e o R1 se comparam a outros modelos populares:

O AIME 2024 e o MATH-500 são benchmarks de matemática, o GPQA Diamond e o MMLU são testes de conhecimento geral e, por fim, o Codeforces e o SWE-bench Verified são benchmarks de codificação.
Modelos destilados do DeepSeek
A destilação em inteligência artificial é o processo de criação de modelos menores e mais eficientes a partir de modelos maiores, preservando grande parte de seu poder de raciocínio e reduzindo as demandas computacionais.
A implantação do V3 e do R1 não é prática para todos, já que eles exigem 8 GPUs NVIDIA H200 com 141 GB de memória cada. É por isso que o DeepSeek criou 6 modelos destilados que variam de 1,5 bilhão a 70 bilhões de parâmetros:
- Eles começaram com seis modelos de código aberto do Llama 3.1/3.3 e do Qwen 2.5.
- Em seguida, geraram 800.000 amostras de raciocínio de alta qualidade usando o R1.
- Por fim, eles ajustaram os modelos menores nesses dados de raciocínio sintético.
Veja como esses seis modelos se saíram nos principais benchmarks, demonstrando suas habilidades em matemática (AIME 2024 e MATH-500), conhecimento geral (GPQA Diamond) e codificação (LiveCode Bench e CodeForces):

Como era de se esperar, à medida que o número de parâmetros aumentava, os resultados melhoravam. O menor modelo com 1,5 bilhão de parâmetros teve o pior desempenho, enquanto o maior modelo com 70 bilhões de parâmetros teve o melhor desempenho. Curiosamente, o modelo mais equilibrado parece ser o Qwen-32B, que é quase tão bom quanto o Llama-70B, embora tenha metade do número de parâmetros.
O futuro do DeepSeek
O DeepSeek alcançou um sucesso notável em um curto espaço de tempo, ganhando reconhecimento global quase da noite para o dia. O chatbot parecia ter surgido do nada, mas há o risco de desaparecer com a mesma rapidez. Manter a visibilidade e a confiança da marca a longo prazo é um desafio significativo, especialmente em um mercado tão altamente competitivo. Gigantes da tecnologia, como o Google e a OpenAI, têm orçamentos que excedem em muito os recursos financeiros da DeepSeek, e eles também têm uma vantagem técnica.
Um dos principais obstáculos que a DeepSeek enfrenta é a lacuna de computação. Em comparação com suas contrapartes americanas, o DeepSeek opera em uma desvantagem significativa em termos de poder computacional. Essa lacuna é exacerbada pelos controles de exportação dos EUA sobre chips avançados, que limitam o acesso da DeepSeek ao hardware mais recente necessário para desenvolver e implantar modelos de IA mais poderosos.
Embora a DeepSeek tenha demonstrado uma eficiência impressionante em suas operações, o acesso a recursos computacionais mais avançados poderia acelerar significativamente seu progresso e fortalecer sua competitividade em relação a empresas com mais recursos. Fechar essa lacuna de computação é crucial para que a DeepSeek dimensione suas inovações e se estabeleça como uma concorrente mais forte no cenário global.
Dito isso, é importante não pintar um quadro muito sombrio, pois a DeepSeek já alcançou algo notável. A empresa provou que, mesmo com recursos limitados, é possível criar um produto de classe mundial - algo que muitos acreditavam ser possível apenas com orçamentos de bilhões de dólares e infraestrutura maciça. O sucesso da DeepSeek provavelmente inspirará inúmeras outras empresas e acelerará ainda mais o já rápido avanço das tecnologias de IA.