Asset allocation, Deepseek e l’impatto sul settore tech

Come noto, una società cinese di intelligenza artificiale, DeepSeek, ha recentemente annunciato di aver sviluppato un modello linguistico open source di grandi dimensioni, relativamente poco costoso da addestrare e che richiede meno energia e potenza di elaborazione rispetto alle principali applicazioni. Il risultato è stato un significativo sell off dei titoli tecnologici statunitensi, in particolare... Leggi tutto

Gen 31, 2025 - 00:29
 0
Asset allocation, Deepseek e l’impatto sul settore tech

Come noto, una società cinese di intelligenza artificiale, DeepSeek, ha recentemente annunciato di aver sviluppato un modello linguistico open source di grandi dimensioni, relativamente poco costoso da addestrare e che richiede meno energia e potenza di elaborazione rispetto alle principali applicazioni. Il risultato è stato un significativo sell off dei titoli tecnologici statunitensi, in particolare delle società di semiconduttori specializzate in chip per applicazioni AI.

DeepSeek è un laboratorio cinese di IA di alto livello, anche se relativamente piccolo. Il suo team è autore di numerosi articoli di ricerca, possiede una vasta esperienza con le GPU (unità di elaborazione grafica) ed è stato scorporato da un hedge fund quantitativo cinese. Ha attirato l’attenzione lanciando un modello avanzato di linguaggio di grandi dimensioni (LLM) che è stato presumibilmente addestrato a un costo sostanzialmente inferiore rispetto a modelli simili esistenti.

Il 25 dicembre 2024, DeepSeek ha rilasciato il suo modello V3 come software open source. Nel loro documento, hanno dichiarato che il costo finale dell’addestramento per il modello è stato di soli 5,6 milioni di dollari, ma hanno affermato che il V3 dimostra prestazioni paragonabili a quelle del principale LLM, il GPT-4. Il modello V3 è simile ai modelli esistenti e offre la capacità di rispondere alle domande degli utenti con risposte immediate. Il costo di formazione riportato di 5,6 milioni di dollari potrebbe non essere realistico, in quanto esclude diverse spese effettive e reali, come la sperimentazione. Tuttavia, il modello V3 sembra essere altamente efficiente e significativamente meno costoso da addestrare rispetto alle sue controparti statunitensi.

Il 20 gennaio 2025 DeepSeek ha rilasciato R1, anch’esso completamente open source. Questo è il pezzo che ha sconvolto il mondo. La differenza principale tra R1 e V3 è che R1 è un modello “a catena di pensiero” – in altre parole, ragiona e si prende il tempo di pensare alle risposte. Le prestazioni di R1 sono paragonabili a quelle del modello o1 più performante sviluppato da OpenAI. R1 è sicuramente meno costoso da addestrare rispetto a o1, anche se la differenza esatta è incerta. DeepSeek ha anche valutato l’utilizzo o l’inferenza a un decimo del costo di o1.

Quali innovazioni significative ha introdotto DeepSeek? Ecco di seguito la view di Dominic Rizzo, portfolio manager, Global Technology Equity di T. Rowe Price.

Gran parte del loro vantaggio in termini di costi deriva da sostanziali progressi ingegneristici che riducono i requisiti di memoria e di calcolo e migliorano l’utilizzo delle GPU. La necessità è la madre dell’innovazione. Ancora più importante, probabilmente, è che DeepSeek ha impiegato l’apprendimento per rinforzo per addestrare R1, consentendo al modello di apprendere ed evolvere autonomamente senza l’intervento umano.

Riflessioni e implicazioni

Sebbene inizialmente possa sembrare che R1 possa essere negativo per le infrastrutture di IA, a causa dell’ottimizzazione della spesa, l’impatto del modello di DeepSeek nel medio termine non è ancora chiaro. I laboratori di IA statunitensi potrebbero teoricamente integrare molte delle efficienze computazionali sviluppate da DeepSeek per migliorare le prestazioni, mantenendo gli attuali livelli di spesa e ottenendo miglioramenti drastici delle prestazioni.

Il costo di DeepSeek V3, pari a 5,6 milioni di dollari, esclude varie altre spese e non è certo che i laboratori cinesi dispongano di un numero di GPU superiore a quello dichiarato. Ad esempio, in un’apparizione alla CNBC, l’amministratore delegato di un’azienda statunitense di AI ha affermato che DeepSeek disponeva di circa 50.000 GPU H100. Solo questo rappresenta una spesa stimata di 1,5 miliardi di dollari. Inoltre, queste GPU includerebbero un “premio di approvvigionamento”.

Gli LLM sono ormai una commodity

Le prospettive sono positive per la continuazione della formazione su larga scala. DeepSeek ha dimostrato che l’apprendimento per rinforzo è efficace ed è ragionevole supporre che potrebbe migliorare con una maggiore potenza di calcolo e più dati. Questo suggerirebbe che i laboratori di IA potrebbero trarre vantaggio dall’aumento della spesa.

Riteniamo che l’obiettivo principale dei laboratori di IA debba essere quello di concentrarsi sulle prestazioni piuttosto che sulla differenziazione dei costi. Sospendere gli investimenti potrebbe non essere fattibile per i leader del settore che cercano di rimanere all’avanguardia nello sviluppo dell’intelligenza artificiale generale (AGI).

Effetti positivi per la diffusione di modelli di IA

Prevediamo che ci sarà una varietà di modelli, alcuni grandi e altri piccoli. Per le applicazioni di consumo ottimali, potrebbero essere necessari modelli di grandi dimensioni e più costosi. Tuttavia, la disponibilità di modelli poco costosi è vantaggiosa per l’adozione diffusa dell’IA. I modelli più piccoli dovrebbero trarre vantaggio dai progressi del software e dell’hardware, oltre che dalle conoscenze acquisite con i modelli più grandi.


Modelli più accessibili come quello di DeepSeek potrebbero essere fondamentali per incrementare la domanda di applicazioni di IA nel mondo reale. Ciò suggerisce che, nel medio termine, la domanda di formazione e di inferenza potrebbe effettivamente aumentare con l’adozione dell’IA ovunque.