Quando non conosco nel dettaglio un argomento e non ho le competenze tecniche per capirlo fino in fondo, ho sempre la voglia di approfondire. Oggi, grazie all’intelligenza artificiale, è diventato più “semplice” fare ricerche mirate, trovare materiale di studio e anche chiedere supporto per organizzare le informazioni in un articolo.
Ecco, il testo qui di seguito nasce proprio da un percorso di analisi, comprensione e sintesi di vari punti di vista — non necessariamente quelli più popolari — riguardo il caso “DeepSeek”, al centro dell’attenzione nel mondo dell’IA.
Negli ultimi giorni, la startup cinese DeepSeek ha fatto notizia sostenendo di aver addestrato un modello di intelligenza artificiale (chiamato R1) con un budget dichiarato di poco superiore ai 5 milioni di dollari.
Un’affermazione del genere stride con gli investimenti di decine — se non centinaia — di milioni, fino a miliardi di dollari, che aziende come OpenAI, Anthropic e Google allocano per sviluppare i propri modelli di linguaggio di ultima generazione (noti anche come LLM, Large Language Model).
Il clamore ha rapidamente influenzato alcuni settori del mercato, portando, secondo le cronache, anche a un calo del valore delle azioni di Nvidia, la principale fornitrice di GPU per il training di reti neurali complesse.
Ma dove sta la verità? Martin Vechev, direttore dell’INSAIT (Istituto per l’informatica, l’intelligenza artificiale e la tecnologia) di origine bulgara, ha pubblicato un commento approfondito per fare chiarezza, evidenziando possibili fraintendimenti e incongruenze.
In questo articolo — diviso in due grandi blocchi tematici — cercherò di spiegare come si è arrivati a questa situazione e chi potrebbe realmente trarre vantaggio dall’evoluzione di modelli IA più economici e, al tempo stesso, avanzati.
Riepilogo Articolo - Luca Cazzaniga
PARTE I: LA DISCUSSIONE SUI COSTI E LE CRITICHE DI MARTIN VECHEV
1. Il contesto: DeepSeek e i “pochi milioni” di dollari
Negli ultimi giorni, sono emersi diversi articoli che celebrano l’impresa di DeepSeek: riuscire a sviluppare un modello linguistico avanzato, in grado di competere con i grandi player del settore, sostenendo un costo di training pubblico di circa 5-6 milioni di dollari. Se si mette questo dato a confronto con i capitali investiti da OpenAI per GPT-4 o con quelli di altre realtà, il confronto sembra surreale: come fa una startup a ottenere un risultato simile con una frazione delle risorse?
La notizia è rimbalzata sui media di settore e ha avuto effetti persino sul mercato azionario di Nvidia, poiché molte aziende dipendono da GPU e da infrastrutture hardware di punta per addestrare i propri modelli.
2. Il commento di Martin Vechev: “costi fuorvianti”
Secondo il professor Vechev, i calcoli di DeepSeek non sarebbero del tutto trasparenti. Il valore di 5-6 milioni di dollari si riferirebbe, infatti, a una singola sessione di training del modello R1, un evento che, a livello teorico, potrebbe avere un costo anche plausibile se si esaminano i prezzi di mercato delle GPU “noleggiate” e si fa riferimento a un periodo temporale e a un carico di lavoro specifico. Tuttavia, lo sviluppo di un modello linguistico non si esaurisce con un soloesperimento di addestramento. Al contrario, comporta:
- Iterazioni multiple su architetture differenti.
- Test e validazioni su set di dati diversi, con cicli di training ripetuti più volte.
- Raccolta, filtraggio e pulizia dei dati, operazioni che possono incidere in modo significativo sui costi totali.
- Stoccaggio e manutenzione dell’hardware, che spesso richiedono centri di calcolo specializzati (data center) con costi di elettricità, raffreddamento e personale qualificato.
Vechev ricorda che, in molti casi, le GPU necessarie per un’operazione di addestramento su larga scala — come le H800utilizzate da DeepSeek — possono essere a loro volta una frazione del totale di GPU presenti negli spazi di calcolo proprietari o in quelli di grandi investitori (nel caso di DeepSeek, si fa spesso riferimento a un fondo cinese e a un data center con decine di migliaia di GPU). Tutto ciò fa schizzare i costi reali a cifre potenzialmente molto più elevate.
3. Perché i media parlano solo dei 5 milioni?
Spesso, le testate giornalistiche sono attratte dalle “bombe” mediatiche: un titolo come “Nuovo modello IA con soli 6 milioni di dollari” fa più notizia di un articolo che entri nei dettagli tecnici, spiegando che ci sono numerosi test, versioni e ottimizzazioni che portano i costi ben oltre quei 5 o 6 milioni. È un fenomeno comune in ambito tecnologico, dove ogni notizia che suona “miracolosa” cattura rapidamente l’attenzione, rimbalzando di testata in testata senza un controllo approfondito delle fonti.
4. Tecnologia e mix di esperti (MoE)
Parte del fascino esercitato da DeepSeek risiede nelle architetture Mixture of Experts (MoE), di cui l’azienda fa largo uso con alcuni miglioramenti propri. Il principio di MoE è quello di dividere la rete neurale in “esperti” specializzati in compiti specifici (ad esempio, comprensione del testo, calcoli matematici, riconoscimento di entità nominali, ecc.). Al momento dell’inferenza, solo l’esperto o gli esperti più adatti vengono attivati, riducendo il carico computazionale.
L’idea non è nuova e OpenAI la utilizza già in alcuni contesti (ad esempio, c’era chi sosteneva che GPT-4 adottasse un approccio MoE), ma DeepSeek sembra aver implementato delle ottimizzazioni particolarmente efficaci, soprattutto per aggirare i limiti delle GPU H800. Tuttavia, osserva Vechev, arrivare a un MoE di successo richiede mesi di tentativi, test e “risorse di calcolo = $$$”. In sostanza soldi da investire per fare testing
5. I dati di addestramento: un capitolo costoso e misterioso
Un altro elemento messo in luce da Vechev riguarda i dati di addestramento. Spesso non è chiaro quali fonti, volumi e strategie di preprocessing vengano impiegate. L’ipotesi che DeepSeek possa aver “copiato” da modelli di altre aziende (tramite una pratica chiamata distillazione) non è da escludere, ma neppure da dare per scontata. Anche la semplice distillazione da un modello come GPT-4, infatti, necessita di numerose API call, generazione di enormi set di domande-risposte e un lavoro di rinforzo (RL) ad altissimo consumo di risorse. In sintesi, niente è gratis e i costi schizzano.
6. Le dimensioni di R1 e V3
Molti “addetti ai lavori” hanno osservato che i modelli DeepSeek, come R1 e la versione V3 (quest’ultima non focalizzata sul ragionamento ma su altre capacità), possiedono un numero di parametri nell’ordine di 600+ miliardi. Allenare e gestire tali modelli implica un impiego notevole di potenza di calcolo. La distillazione diventa quindi una tecnica fondamentale per ricondurre queste entità gigantesche a versioni più “leggere” (ad esempio modelli da 30 miliardi di parametri), utili per l’utilizzo in contesti con meno risorse hardware.
7. Aspettative e sviluppi futuri
Vechev prevede una dinamica piuttosto standard nel mondo dell’intelligenza artificiale: i big player “chiusi” (come OpenAI, Anthropic e Google) risponderanno mostrando test specifici e aree di applicazione dove i modelli di DeepSeek (R1 o altri) non riescono ancora a eccellere. Allo stesso tempo, l’open source e le realtà “aperte” cercheranno di colmare velocemente il gap, potendo contare su community di sviluppatori globali. Tuttavia, anche quando un modello è “aperto”, rimane il grosso tema del costo di allestimento e mantenimento di un’infrastruttura in grado di gestire training su larga scala.
Il punto dolente, che Vechev ricorda, è che la spesa finale potrebbe essere comunque compresa tra 50 e 100 milioni di dollari, se si considera tutto il processo di sperimentazione, ablation study e accumulo di dati, ben lontano quindi dal conto di 5-6 milioni superficialmente riportato dai media.
PARTE II: LA “REAZIONE TARDIVA”, IL RITARDO NELLA COPERTURA MEDIATICA E CHI TRAE VANTAGGIO DALLA RIVOLUZIONE DEEPSEEK
8. Le reazioni dopo l’annuncio
Il 27 gennaio, in un commento su Stratechery, un esperto di tecnologia (che in precedenza aveva già scritto brevi riflessioni su DeepSeek) ammette di essere rimasto sorpreso non tanto dall’aspetto tecnico, quanto dalla reazione sovradimensionata del pubblico e degli analisti ai traguardi di DeepSeek.
Lo paragona a ciò che accadde a settembre 2023, quando Huawei lanciò lo smartphone Mate 60 Pro con un chip a 7nm prodotto da SMIC, un’impresa che per chi seguiva da vicino la fabbricazione dei semiconduttori non era sorprendente, ma che generò un vero e proprio shock a Washington D.C. Tale shock portò a un inasprimento del cosiddetto chip ban, un regime di restrizioni sulle esportazioni di GPU e altri componenti di alta gamma verso la Cina.
L’analogia con DeepSeek è chiara: molto spesso, il dibattito su innovazioni tecnologiche cinesi e sulle conseguenze geopolitiche tende a prendere pieghe emotive, focalizzandosi meno sui dettagli tecnici e più sull’“effetto sorpresa” e sulla risposta politica. Di conseguenza, anche i media finiscono per polarizzare le notizie, trascurando una visione più equilibrata dei progressi reali.
9. Cosa è stato annunciato di preciso: R1 e V3
Due elementi spiccano nelle novità DeepSeek:
- V3, presentato intorno a Natale, ha suscitato clamore per il suo dichiarato costo di addestramento (poco più di 5 milioni di dollari). Questo modello integra diverse soluzioni all’avanguardia come la citata architettura MoE(Mixture of Experts) e un nuovo approccio al ridimensionamento della memoria chiamato DeepSeekMLA (Multi-Head Latent Attention).
- R1, annunciato più di recente, si concentra sulle capacità di “ragionamento” (chain-of-thought), ponendosi in competizione con modelli come “o1” di OpenAI. Inoltre, esiste una variante chiamata R1-Zero, che avrebbe sviluppato capacità di ragionamento con un approccio di puro reinforcement learning, senza supervisione umana.
10. Distillazione e “furto” di idee?
Una parte importante della discussione riguarda la pratica della distillazione. Un’azienda può sfruttare via API un modello di punta (come GPT-4) per generare enormi dataset di domande-risposte, da utilizzare poi per allenare un proprio modello più “leggero” o, comunque, meno costoso da istruire da zero. Se le big tech sostengono il costo maggiore di portare avanti la ricerca e lo sviluppo di modelli di fascia altissima, altri soggetti “replicano” in qualche modo tali performance grazie all’accesso alle API e a processi di RL (reinforcement learning) personalizzati.
Questo meccanismo rischia di accelerare la “commoditizzazione” delle IA, minando i margini di profitto (o i vantaggi competitivi) di chi ha fatto i primi, costosi investimenti.
11. La questione del chip ban e l’effetto boomerang
Uno dei dati più interessanti è che DeepSeek dichiara di aver usato chip Nvidia H800, che sono considerati versioni “limitate” degli H100 (proibiti dall’esportazione diretta in Cina a causa delle restrizioni statunitensi). Molti analisti partivano dall’assunto che, senza l’accesso agli H100 di punta, la Cina avrebbe avuto enormi difficoltà nel produrre modelli IA competitivi.
Invece, DeepSeek ha dimostrato che, con un lavoro certosino di ottimizzazione delle architetture e dei flussi di calcolo, è possibile raggiungere prestazioni elevate anche con GPU “censurate” o “depontenziate”.
Paradossalmente, il chip ban potrebbe aver spinto la creatività e l’innovazione in Cina, portando a nuove strategie di compressione dei parametri e di gestione del training (come la programmazione a basso livello in PTX, un linguaggio vicino all’assembly). In tal modo, DeepSeek ha ridotto il fabbisogno di banda memoria e ha sfruttato GPU meno potenti per ottenere risultati notevoli, senza violare le restrizioni.
12. Chi ci guadagna davvero?
A questo punto, la domanda cruciale è: “Chi trae vantaggio da uno scenario in cui le IA diventano più economiche da addestrare e, di conseguenza, meno costose da utilizzare (inference)?”. Ecco alcuni possibili beneficiari:
- Big Tech e consumer tech companies: se il costo dell’inferenza (l’uso operativo dell’IA) si abbassa, le grandi aziende che offrono servizi a miliardi di utenti (pensiamo a Microsoft, Meta, Google, Amazon) potranno integrare l’IA su vasta scala. Microsoft, ad esempio, potrebbe spendere meno in data center GPU e offrire servizi più competitivi ai propri clienti di Azure.
- Apple: la Mela potrebbe essere uno dei grandi vincitori. La sua architettura Apple Silicon, con memoria unificata fino a 192GB, è particolarmente adatta per l’inferenza locale, soprattutto se i modelli di rete neurale sono resi più compatti tramite tecniche come la compressione della key-value store (alla base di DeepSeekMLA). In altre parole, un Mac di fascia alta potrebbe gestire localmente inferenze complesse, senza doversi collegare a un cloud esterno, aprendo scenari applicativi interessanti in termini di privacy e prestazioni.
- Meta: se l’IA diventa più economica, i progetti di Mark Zuckerberg in settori come il metaverso e la gestione avanzata dei contenuti per i social network (Facebook, Instagram) potrebbero beneficiare di costi inferiori e di un più rapido rilascio di funzionalità basate sull’intelligenza artificiale.
- Start-up IA “open source”: la diffusione di modelli aperti (con le relative “pesi” pubblici) può favorire l’ecosistema di sviluppatori e piccole imprese, che possono sviluppare soluzioni verticali sfruttando la base di codice e i modelli senza pagare costosi abbonamenti ai colossi del settore.
13. Il futuro di Nvidia (e il suo “momento di crisi”)
Nvidia, leader indiscusso delle GPU per l’IA, sta vivendo oscillazioni di mercato e incertezze proprio perché DeepSeek mostra che è possibile ridurre la dipendenza dal “brute force hardware” attraverso ottimizzazioni software avanzate. Se sempre più aziende decidono di investire in soluzioni di compressione e routing, potrebbero non avere più bisogno della quantità spropositata di GPU che si ipotizzava inizialmente.
Ciò non toglie che Nvidia possa ancora trarre vantaggio da scenari di crescita generale dell’IA: più si utilizzano modelli di ragionamento (che richiedono calcoli aggiuntivi), più c’è bisogno di potenza. Inoltre, la stessa DeepSeek, se avesse a disposizione H100 o chip ancora più evoluti, probabilmente sposterebbe i propri limiti ancora più in alto.
14. L’importanza della trasparenza e dell’open source
DeepSeek, oltre a pubblicare molti dei propri paper (come quello su V3 accessibile qui), rende disponibili i pesi dei propri modelli. Questo approccio “aperto” è una dichiarazione d’intenti: l’azienda cinese sostiene di voler attrarre talenti globali e costruire un ecosistema. Non tutti, ovviamente, concordano con la bontà di questa strategia. C’è chi ritiene che il modello “closed” di OpenAI, Antrophic e Google offra vantaggi nel controllo degli abusi e nella gestione più sicura di tecnologie avanzate.
D’altro canto, l’esperienza ci insegna che, una volta che gli algoritmi circolano, diventa difficile arginarne la diffusione. L’open source potrebbe addirittura accelerare l’innovazione, come già successo con altri progetti in passato (basti pensare a Linux o a TensorFlow nella prima fase).
15. Siamo alla vigilia di un AGI?
Molti si chiedono se modelli come R1-Zero (capace di auto-istruirsi tramite puro reinforcement learning) non segnino l’avvento di una General AI (AGI). Il ragionamento multistep e la catena dei pensieri (chain-of-thought) emergono in modo spontaneo, il che fa pensare che certe capacità logiche non abbiano più bisogno di supervisione umana diretta. Questo tema, già dibattuto in modo intenso negli ultimi anni, torna a fare capolino, portando alcuni esperti a ipotizzare scenari di crescita esponenziale dell’IA. Altri, invece, rimangono scettici, sottolineando che la “presenza” di abilità di ragionamento non equivale a una comprensione del mondo e che mancano ancora elementi fondamentali per parlare di vera intelligenza generale.
16. Una riflessione sul “distillare la conoscenza”
In un mondo dove un gruppo di ingegneri cinesi può, di fatto, “distillare” la conoscenza da modelli occidentali, e dove i modelli stessi possono poi “insegnarsi” nuove strategie di ragionamento, l’intero panorama dell’innovazione si trasforma radicalmente. Se in passato si faceva a gara per pubblicare paper e conquistare brevetti, ora si assiste a uno scenario di competizione-ibrida, in cui la soluzione più efficiente spesso prevale sulle pure dimensioni di un’azienda e sul suo budget “ufficiale”.
17. Chi resta indietro?
Secondo alcuni analisti, chi rischia davvero in questa corsa non sono tanto i giganti che hanno già una base utenti enorme (Microsoft, Apple, Meta), quanto piuttosto i fornitori di soluzioni IA intermedie (come alcune startup occidentali), che vedono eroso il loro business se i colossi — o altre realtà “open” — offrono gratuitamente o a costi ridotti strumenti di pari o superiore qualità. Modelli come R1 e V3, infatti, mostrano che la Cina non solo sta “recuperando”, ma sta anche portando metodi e strategie in grado di competere a pieno con l’Occidente.
18. Apple, la privacy e il potenziale dell’inferenza locale
Un tema a parte merita Apple. Se i modelli di inferenza diventano sufficientemente “compressi” e se l’hardware permette di fare calcoli localmente senza esaurire la batteria o far surriscaldare il dispositivo, allora potremmo vedere una vera rivoluzione nel mondo “on-device AI”. La visione di Apple, che punta sulla protezione dei dati personali e sulla possibilità di eseguire elaborazioni direttamente sui propri chip ARM (con memoria unificata), si sposa perfettamente con tecniche come la compressione avanzata delle “key-value store” e la riduzione degli overhead di calcolo. In prospettiva, iPad, MacBook o iPhone di fascia alta potrebbero diventare vere e proprie centrali di intelligenza artificiale, senza dipendere costantemente dal cloud.
19. Uno sguardo al futuro
Se c’è una lezione da trarre dal “caso DeepSeek”, è che le innovazioni in IA viaggiano a una velocità spesso sottostimata dal grande pubblico (e da alcuni analisti). I costi possono scendere rapidamente grazie a un approccio “software first” e a nuovi algoritmi di ottimizzazione. Al tempo stesso, occorre una certa dose di umiltà nel valutare i sistemi concorrenti: la Cina non è rimasta ferma, e le misure restrittive (chip ban) potrebbero addirittura aver incentivato l’adozione di strategie ingegneristiche più creative.
Conclusione Finale
Il “caso DeepSeek” è un perfetto esempio di come i media possano enfatizzare un singolo dato — in questo caso, i famosi 5-6 milioni di dollari — scatenando reazioni a catena sia nel mondo tecnologico sia nei mercati finanziari. In realtà, lo sviluppo di un LLM di fascia alta coinvolge una quantità di lavoro sperimentale, di test, di ricerca e di ottimizzazione che raramente viene esposta nelle comunicazioni ufficiali. Da qui l’importanza di analizzare le fonti originali, di ascoltare le voci di esperti come Martin Vechev e di valutare con attenzione il contesto in cui certe notizie vengono diffuse.
Con modelli come R1 e R1-Zero, DeepSeek mostra che l’innovazione non è prerogativa esclusiva dei grandi laboratori statunitensi. Siamo di fronte a un mondo in cui i confini tra “centro” e “periferia” dell’innovazione si vanno assottigliando, e in cui soluzioni teoricamente “limitanti” (come GPU meno potenti) si trasformano in opportunità di inventare algoritmi e architetture più efficienti.
Per i giganti occidentali, dal canto loro, si aprono scenari di utilizzo illimitato se i costi di inferenza diminuiscono e se la distillazione rende i modelli più compatti. Apple, in particolare, potrebbe approfittare di queste novità per consolidare il suo approccio “on-device” all’IA, tutelando privacy e riducendo il carico sul cloud.
In definitiva, la storia di DeepSeek ci insegna a non fermarci ai titoli clamorosi e a guardare sotto la superficie per comprendere le dinamiche reali di un settore in rapidissima evoluzione. Molto spesso, dietro i proclami da “innovazione rivoluzionaria a basso costo” si cela un lavoro di ottimizzazione complesso, con sforzi e investimenti effettivi molto superiori alle cifre di copertina. Capire questi meccanismi è essenziale per chiunque voglia orientarsi nel mondo dell’intelligenza artificiale, in perenne trasformazione.
Fonti e Riferimenti
- Martin Vechev of INSAIT: DeepSeek $6M cost of training is misleading
- DeepSeek FAQ su Stratechery
- Paper ufficiale di DeepSeek-V3 su arXiv
- High-Flyer Fund
- Termini di utilizzo di DeepSeek (DS ToS)
- [AI vs. Tech Candidati e reclutatori: il nuovo Battlefront nelle interviste tecniche] – menzione originale all’interno dei commenti di Vechev.
- Approfondimenti su GPU e PTX (documentazione Nvidia)
(Articolo aggiornato a gennaio 2025. Link consultati in data successiva potrebbero aver subito modifiche o aggiornamenti.)
Lascia un commento