Torna alla pagina principale

DeepSeek: un nuovo capitolo nell'intelligenza artificiale

DeepSeek è un vero fenomeno. Pochi giorni dopo il suo rilascio, il chatbot cinese è schizzato in cima alle app più scaricate sull'App Store di Apple, detronizzando ChatGPT. Per molti è stato uno shock che un'azienda relativamente sconosciuta con un investimento minimo (il suo budget è circa 14 volte inferiore a quello di OpenAI) sia riuscita a superare, anche se temporaneamente, l'indiscusso leader di mercato.

Storia di DeepSeek

DeepSeek è stata fondata dal miliardario cinese Liang Wengfeng. Laureatosi in ingegneria dell'informazione elettronica nel 2007 e in ingegneria dell'informazione e della comunicazione nel 2010 presso l'Università di Zhejiang, Liang ha formato nel 2008 un team con i suoi compagni di università per raccogliere dati relativi ai mercati finanziari ed esplorare il trading quantitativo utilizzando l'apprendimento automatico.

Nel febbraio 2016, Liang e altri due compagni di corso di ingegneria hanno co-fondato High-Flyer, una società focalizzata sullo sfruttamento dell'intelligenza artificiale per gli algoritmi di trading (effettuare investimenti, individuare modelli nei prezzi delle azioni, ecc.). Nel febbraio 2016, Liang e altri due compagni di classe di ingegneria hanno co-fondato High-Flyer, una società focalizzata sullo sfruttamento dell'intelligenza artificiale per gli algoritmi di trading (effettuare investimenti, individuare modelli nei prezzi delle azioni, ecc.).

Nell'aprile 2023, High-Flyer ha istituito un laboratorio di intelligenza artificiale generale dedicato allo sviluppo di strumenti di intelligenza artificiale che non sarebbero stati utilizzati per effettuare operazioni di borsa. Nel maggio 2023, questo laboratorio è diventato un'entità indipendente denominata DeepSeek.

Nel gennaio 2025, DeepSeek fece notizia con il rilascio di DeepSeek-R1, un modello di intelligenza artificiale di ragionamento open source con 671 miliardi di parametri. Il modello guadagnò rapidamente popolarità, diventando l'app gratuita numero uno sull'App Store di Apple negli Stati Uniti.

Liang Wengfeng

Liang Wengfeng

Tappe fondamentali:

  • 2016. Fondazione di High-Flyer. Questa azienda, inizialmente focalizzata sugli algoritmi di trading basati sull'intelligenza artificiale, ha gettato le basi per DeepSeek.
  • 2023. Fondazione di DeepSeek. Fondato in aprile come laboratorio di intelligenza artificiale generale sotto High-Flyer, DeepSeek è diventato indipendente a maggio.
  • 2025. Lancio di DeepSeek-R1. È diventato rapidamente una sensazione mondiale, raggiungendo le vette delle classifiche come uno dei chatbot più popolari.

Il viaggio di DeepSeek verso la vetta è stato tutt'altro che facile. All'inizio, l'azienda si affidava ai chip grafici Nvidia A100, che in seguito sono stati vietati dall'esportazione in Cina dall'amministrazione statunitense. Gli sviluppatori sono poi passati ai chip H800, meno potenti, ma anche questi sono stati presto soggetti a restrizioni. Nonostante queste difficoltà, DeepSeek è riuscita a creare il suo modello avanzato R1 utilizzando solo chip H800 per un valore di 5,6 milioni di dollari. Per dare un'idea, si stima che l'addestramento di GPT-4 costi tra i 50 e i 100 milioni di dollari.

“La nostra sfida più grande non è mai stata il denaro, ma l'embargo sui chip di fascia alta”, ha detto Liang.

DeepSeek R1

Funzionalità e tecnologie chiave di DeepSeek

A differenza di molti altri popolari chatbot, i modelli DeepSeek sono open-source, il che significa che gli utenti possono esplorare come funziona la tecnologia sotto il cofano. Questa trasparenza crea fiducia, in quanto garantisce che il chatbot non sia una misteriosa “scatola nera”: il suo comportamento può essere esaminato e compreso dalla comunità.

I componenti open-source consentono a sviluppatori e ricercatori di contribuire a miglioramenti, correggere bug o adattare la tecnologia a esigenze specifiche. Ecco perché i progetti open source tendono a evolversi rapidamente grazie ai contributi della comunità. Vedrai emergere nuove funzionalità, miglioramenti e applicazioni più velocemente che con i sistemi proprietari.

Alcune delle importanti soluzioni tecniche che fanno funzionare i modelli DeepSeek nel modo più efficiente possibile:

  • MoE (Miscela di esperti)
  • MLA (Attenzione latente multi-testa)
  • MTP (Previsione multi-token)
MoE (Mixture of Experts)

La miscela di esperti (MoE) è una tecnica di apprendimento automatico che consiste nel combinare le previsioni di più modelli specializzati (gli “esperti”) per migliorare le prestazioni complessive del chatbot.

Ecco come funziona in DeepSeek:

  • DeepSeek ha probabilmente un ampio pool di 256 reti neurali specializzate (esperti). Ogni esperto è un modello più piccolo addestrato a gestire modelli o caratteristiche specifici nei dati. Ad esempio, nell'elaborazione del linguaggio naturale, un esperto potrebbe essere specializzato in sintassi, un altro in semantica, un altro ancora in conoscenze specifiche di un determinato settore, ecc.
  • Una rete di gate decide quali esperti attivare per ogni token di input. Valuta l'input e assegna pesi agli esperti, selezionando gli 8 esperti più rilevanti per il token corrente. In questo modo si garantisce che in un dato momento venga utilizzato solo un piccolo sottoinsieme degli esperti totali.
  • Invece di eseguire tutti i 256 esperti per ogni token (che sarebbe computazionalmente costoso), vengono attivati solo gli 8 migliori esperti. Questo riduce drasticamente il costo computazionale, sfruttando comunque la piena capacità del modello.

Attivando solo un piccolo sottoinsieme di esperti, DeepSeek raggiunge l'efficienza delle risorse. Il modello può scalare fino a dimensioni molto grandi (in termini di parametri) senza un aumento proporzionale del calcolo.

MLA (Multi-head Latent Attention)

L'attenzione latente multi-head (MLA) è un potente meccanismo che combina i punti di forza dell'attenzione multi-head e delle rappresentazioni dello spazio latente per migliorare l'efficienza e le prestazioni.

Ecco come funziona in DeepSeek:

  • Nell'attenzione multi-head standard, l'input è suddiviso in più “head”, ognuna delle quali impara a concentrarsi su diversi aspetti dei dati.
  • I dati di input (ad esempio testo, immagini o altri dati strutturati) vengono prima codificati in una rappresentazione ad alta dimensione.
  • La rappresentazione di input viene proiettata in uno spazio latente di dimensione inferiore utilizzando una trasformazione appresa (ad esempio uno strato di rete neurale).
  • La rappresentazione latente viene suddivisa in più teste, ognuna delle quali calcola i punteggi di attenzione nello spazio latente. Ciò consente al modello di concentrarsi in modo efficiente su diversi aspetti dei dati.
  • Operando in uno spazio latente, l'MLA riduce il costo computazionale dei meccanismi di attenzione, rendendo possibile l'elaborazione di grandi set di dati o di sequenze lunghe.

La combinazione di attenzione multi-head e rappresentazioni latenti consente al modello di catturare modelli e relazioni complessi nei dati, portando a migliori prestazioni in attività come l'elaborazione del linguaggio naturale, i sistemi di raccomandazione o l'analisi dei dati.

Variante della previsione multi-token in DeepSeek

Variante della previsione multi-token in DeepSeek

La previsione multi-token è una tecnica utilizzata nei modelli linguistici per prevedere più token (parole o sotto-parole) in una sequenza, piuttosto che solo il token successivo. Questo approccio può migliorare la capacità del modello di generare un testo coerente e contestualmente accurato, in quanto incoraggia il modello a considerare le dipendenze a lungo termine e la struttura nei dati.

Ecco come funziona in DeepSeek:

  • La sequenza di input (ad esempio una frase o un paragrafo) viene codificata utilizzando un'architettura basata su un trasformatore, che acquisisce informazioni contestuali su ogni token nella sequenza.
  • I modelli DeepSeek hanno più teste di output, ciascuna addestrata per prevedere un token futuro diverso.
  • La testa 1 prevede il token successivo. La testa 2 prevede il token successivo. La testa 3 prevede il token due posizioni più avanti.
  • Al momento dell'inferenza, il modello genera testo autoregressivamente, ma l'addestramento multi-token assicura che ogni previsione sia informata da un contesto più ampio, portando a una generazione di testo più coerente e accurata.

DeepSeek applica la previsione multi-token per migliorare la qualità dei suoi modelli linguistici, rendendoli più efficaci in attività come la generazione di testo, la traduzione e la sintesi.

Modelli attuali

Due dei modelli più recenti di DeepSeek sono DeepSeek-V3, rilasciato nel dicembre 2024, e DeepSeek-R1, rilasciato nel gennaio 2025.

V3 è un diretto concorrente di GPT 4o, mentre R1 può essere paragonato al modello o1 di OpenAI:

GPT 4o, o1, V3, R1

DeepSeek-V3 è una scelta affidabile per la maggior parte delle attività quotidiane, in grado di rispondere a domande su qualsiasi argomento. È eccellente nel tenere conversazioni dal suono naturale e nel mostrare creatività. Questo modello è adatto per scrivere, creare contenuti o rispondere a domande generiche a cui è stato probabilmente già risposto molte volte.

DeepSeek-R1, invece, eccelle quando si tratta di risolvere problemi complessi, di logica e di ragionamento passo dopo passo. R1 è stato progettato per affrontare domande impegnative che richiedono un'analisi approfondita e soluzioni strutturate. Questo modello è ottimo per le sfide di codifica e le domande di logica complessa.

ModelloPunti di forzaPunti deboli
DeepSeek-V3Assistenza generale nella codifica e spiegazione dei concetti in termini più sempliciPuò sacrificare alcune competenze di nicchia per la versatilità
 Scrittura creativa con profonda comprensione del contestoPotrebbe generalizzare eccessivamente in ambiti altamente tecnici
 Ideale per la generazione rapida di contenutiMancanza di capacità di ragionamento
DeepSeek-R1In grado di gestire compiti tecnici di nicchiaLotte con un contesto più ampio o domande ambigue
 Elevata precisione in ambiti specializzati (matematica o codici, ad esempio)Risultati rigidi e stereotipati nei compiti creativi
 Ottimizzato per la scrittura tecnica, come documenti legali o riassunti accademiciMeno adattabile ai cambiamenti di stile e tono

Entrambi i modelli hanno specifiche tecniche simili:

 DeepSeek-V3DeepSeek-R1
Modello baseDeepSeek-V3-BaseDeepSeek-V3-Base
TipoModello per uso genericoModello ragionamento
Parametri671 miliardi (37 miliardi attivati)671 miliardi (37 miliardi attivati)
Lunghezza del contesto128 mila128 mila

La differenza fondamentale sta nel loro addestramento. Ecco come DeepSeek-R1 è stato addestrato su V3:

  • Avvio a freddo Messa a punto: invece di sovraccaricare subito il modello con grandi volumi di dati, si inizia con un set di dati più piccolo e di alta qualità per perfezionare le sue risposte fin dall'inizio.
  • Apprendimento per rinforzo senza etichette umane: a differenza di V3, DeepSeek-R1 si basa interamente sull'RL, il che significa che impara a ragionare in modo indipendente invece di limitarsi a imitare i dati di addestramento.
  • Campionamento di rifiuto per dati sintetici: il modello genera risposte multiple e solo quelle di migliore qualità vengono selezionate per l'ulteriore addestramento.
  • Combinazione di dati supervisionati e sintetici: i dati di addestramento uniscono le migliori risposte generate dall'IA con i dati supervisionati e perfezionati di DeepSeek-V3.
  • Processo finale di RL: un ultimo ciclo di apprendimento per rinforzo assicura che il modello generalizzi bene a un'ampia varietà di richieste e possa ragionare efficacemente su diversi argomenti.

Ora, diamo un'occhiata ad alcuni benchmark per vedere come V3 e R1 si confrontano con altri modelli popolari:

DeepSeek-R1 vs OpenAI o1 vs OpenAI o1 mini vs DeepSeek-V3

AIME 2024 e MATH-500 sono benchmark matematici, GPQA Diamond e MMLU sono test di cultura generale e infine Codeforces e SWE-bench Verified sono benchmark di programmazione.

Modelli distillati di DeepSeek

La distillazione nell'intelligenza artificiale è il processo di creazione di modelli più piccoli ed efficienti a partire da modelli più grandi, preservandone gran parte della potenza di ragionamento e riducendo al contempo le esigenze computazionali.

L'implementazione di V3 e R1 non è pratica per tutti, poiché richiedono 8 GPU NVIDIA H200 con 141 GB di memoria ciascuna. Ecco perché DeepSeek ha creato 6 modelli distillati che vanno da 1,5 miliardi a 70 miliardi di parametri:

  • Hanno iniziato con sei modelli open source da Llama 3.1/3.3 e Qwen 2.5.
  • Quindi, hanno generato 800.000 campioni di ragionamento di alta qualità utilizzando R1.
  • E infine, hanno messo a punto i modelli più piccoli su questi dati di ragionamento sintetico.

Ecco come si sono comportati questi sei modelli nei benchmark chiave, dimostrando le loro capacità in matematica (AIME 2024 e MATH-500), cultura generale (GPQA Diamond) e programmazione (LiveCode Bench e CodeForces):

DeepSeek-R1 ha distillato modelli nei benchmark

Come prevedibile, all'aumentare del numero di parametri, i risultati sono migliorati. Il modello più piccolo con 1,5 miliardi di parametri ha ottenuto i risultati peggiori, mentre il modello più grande con 70 miliardi di parametri ha ottenuto i risultati migliori. Curiosamente, il modello più equilibrato sembra essere Qwen-32B, che è quasi altrettanto buono di Llama-70B, sebbene abbia la metà dei parametri.

Il futuro di DeepSeek

DeepSeek ha ottenuto un notevole successo in breve tempo, guadagnandosi il riconoscimento globale quasi dall'oggi al domani. Il chatbot sembra essere apparso dal nulla, ma c'è il rischio che possa svanire altrettanto rapidamente. Mantenere la visibilità del marchio e la fiducia nel lungo termine è una sfida significativa, soprattutto in un mercato così altamente competitivo. I giganti della tecnologia come Google e OpenAI hanno budget che superano di gran lunga le risorse finanziarie di DeepSeek e hanno anche un vantaggio tecnico.

Uno dei principali ostacoli che DeepSeek deve affrontare è il divario computazionale. Rispetto ai suoi omologhi statunitensi, DeepSeek opera in una situazione di notevole svantaggio in termini di potenza computazionale. Questo divario è aggravato dai controlli sulle esportazioni statunitensi di chip avanzati, che limitano l'accesso di DeepSeek all'hardware più recente necessario per sviluppare e implementare modelli di IA più potenti.

Sebbene DeepSeek abbia dimostrato un'efficienza impressionante nelle sue operazioni, l'accesso a risorse computazionali più avanzate potrebbe accelerare significativamente i suoi progressi e rafforzare la sua competitività nei confronti di aziende con maggiori capacità. Colmare questo divario di calcolo è fondamentale per consentire a DeepSeek di ampliare le sue innovazioni e affermarsi come un concorrente più forte sulla scena globale.

Detto questo, è importante non dipingere un quadro troppo cupo, perché DeepSeek ha già ottenuto qualcosa di straordinario. L'azienda ha dimostrato che anche con risorse limitate è possibile creare un prodotto di livello mondiale, qualcosa che molti credevano fosse realizzabile solo con budget miliardari e infrastrutture imponenti. Il successo di DeepSeek ispirerà probabilmente innumerevoli altri e accelererà ulteriormente il già rapido progresso delle tecnologie di IA.