Il costo dell’intelligenza artificiale è tra i temi più dibattuti nel panorama tecnologico globale. Tra investimenti miliardari in data center, consumi energetici in crescita e una corsa all’efficienza che coinvolge l’intera filiera dei semiconduttori, la sostenibilità economica dell’AI generativa è diventata una variabile strategica per ogni impresa che voglia integrare queste tecnologie nei propri processi. Eppure, mentre i costi unitari dell’elaborazione diminuiscono, il quadro complessivo è tutt’altro che lineare. Lo dimostra una recente analisi di Gartner, che mette in luce dinamiche controintuitive destinate a ridefinire le strategie di adozione dell’AI nelle imprese.
Token a costo zero (quasi), le previsioni al 2030
Secondo l’analisi di Gartner, entro il 2030 eseguire l’inferenza su un Large Language Model (LLM) con un trilione di parametri costerà ai provider di AI generativa oltre il 90% in meno rispetto al 2025.
In termini di efficienza complessiva, i modelli linguistici di grandi dimensioni nel 2030 saranno fino a 100 volte più efficienti sotto il profilo dei costi rispetto ai primi modelli di dimensioni comparabili sviluppati nel 2022. I token — le unità elementari di dati elaborate dai modelli generativi, equivalenti a circa 3,5 byte o quattro caratteri di testo — vedranno una contrazione dei costi unitari senza precedenti. Come spiega Will Sommer, senior director analyst di Gartner, i fattori alla base di questa riduzione sono molteplici e tra questi vi sono “i miglioramenti nell’efficienza dei semiconduttori e delle infrastrutture, le innovazioni nella progettazione dei modelli, un maggiore utilizzo dei chip, il crescente impiego di silicio specializzato per l’inferenza e uso di dispositivi edge per casi d’uso specifici”.
Due scenari
L’analisi di Gartner articola le previsioni su due scenari distinti legati ai semiconduttori. Il primo, denominato “frontier”, modella l’elaborazione sulla base dei chip di ultima generazione. Il secondo, “legacy blend”, si basa su un mix rappresentativo di semiconduttori disponibili, allineato alle previsioni della stessa Gartner. I costi modellizzati nello scenario “blend” risultano considerevolmente più elevati rispetto a quelli dello scenario “frontier”, a causa della minore potenza computazionale disponibile. Questo divario tra i due scenari è tutt’altro che trascurabile: segnala che il beneficio economico reale dipenderà dalla capacità delle organizzazioni di accedere e adottare le tecnologie hardware più avanzate, un elemento che introduce un ulteriore fattore di disuguaglianza tra grandi player e operatori più piccoli.

Costi unitari in calo, spesa complessiva in crescita
Su questi elementi l’analisi di Gartner introduce la dimensione più rilevante — e meno rassicurante — per le imprese. La riduzione dei costi per token non si tradurrà automaticamente in un risparmio per i clienti enterprise. Al contrario, la previsione indica che i costi complessivi dell’inferenza sono destinati ad aumentare.
Il meccanismo è chiaro: mentre il costo unitario del token scende, la domanda di token cresce a un ritmo ancora più sostenuto. I modelli agentici — quelli capaci di scomporre problemi complessi, consultare documenti, richiamare Api, generare piani intermedi, correggere il percorso e validare risultati prima di completare un’attività — richiedono tra 5 e 30 volte più token per singolo task rispetto a un chatbot generativo standard. Inoltre, i sistemi agentici possono eseguire molte più attività di quante un operatore umano ne svolgerebbe utilizzando l’AI generativa.
Il risultato è un effetto paradossale: la deflazione del costo per token alimenta la domanda di capacità di ragionamento più avanzate, che a loro volta consumano volumi di token sproporzionatamente più elevati. Come sottolinea lo stesso Sommer, “i chief product officer non devono confondere la deflazione dei token commodity con la democratizzazione dell’intelligenza di frontiera”. Il calcolo e i sistemi necessari per supportare il ragionamento avanzato rimangono scarsi, e chi oggi maschera inefficienze architetturali con token a basso costo troverà domani la scalabilità agentiva irraggiungibile.
A questo si aggiunge un elemento spesso trascurato nel dibattito pubblico: gran parte dei grandi laboratori di AI non è attualmente in utile. Come sottolineano gli analisti, i provider stanno perdendo denaro e la riduzione dei costi di inferenza rappresenta per loro innanzitutto una leva per migliorare la propria marginalità, non necessariamente per trasferire risparmi ai clienti. L’efficienza dei modelli serve a rendere sostenibile il business dei provider, non a rendere l’AI avanzata economicamente accessibile per tutti.
Due mercati distinti: commodity e frontiera
L’analisi Gartner delinea una segmentazione del mercato che le imprese farebbero bene a tenere presente. Da un lato, un’ampia fascia di tecnologie generative — modelli sotto i 100 miliardi di parametri — diventerà relativamente economica da eseguire. I grandi gruppi tecnologici tenderanno a incorporare questi costi nei propri servizi esistenti, oppure la competizione open source renderà tali funzionalità pressoché gratuite.
Si tratta dell’intelligenza “commodity”: task ripetitivi, workflow strutturati, assistenti generici a bassa complessità.

Dall’altro lato, l’inferenza basata su modelli di frontiera — quelli che abilitano ragionamento complesso, automazione agentiva di alto valore, applicazioni in ambito scientifico, ingegneristico e di analisi critica — resterà costosa, scarsa e riservata a scenari in cui il margine economico giustifica la spesa.
Sommer è esplicito al riguardo: “Il valore si concentrerà sulle piattaforme capaci di orchestrare i carichi di lavoro su un portfolio diversificato di modelli”. I task routinari e ad alta frequenza dovranno essere indirizzati verso modelli piccoli e specializzati, che in workflow allineati a esigenze specifiche offrono prestazioni migliori delle soluzioni generiche a una frazione del costo. L’inferenza costosa dei modelli frontier dovrà essere rigorosamente contingentata e riservata esclusivamente a task di ragionamento complesso ad alto margine.
Le implicazioni per le imprese
La ricerca Gartner — approfondita nei report Navigating the Commoditization Trap as Token Costs Fall by Over 90% Through 2030 e Frontier Scale Models Threaten Software Margins and Solvency — lascia un messaggio che va oltre il dato economico. Non basta celebrare la deflazione dei costi per token: serve una revisione architetturale di come le organizzazioni progettano, distribuiscono e governano i propri sistemi di intelligenza artificiale. Per i Cio e i responsabili di prodotto, la sfida è duplice. Sul piano tattico, si tratta di sfruttare la commodity intelligence per automatizzare processi a basso valore che oggi non giustificano un investimento. Sul piano strategico, si tratta di costruire architetture capaci di instradare in modo intelligente i carichi di lavoro — evitando di sprecare risorse frontier per task risolvibili con modelli leggeri, e viceversa.
Il rischio concreto, avverte Gartner, è quello della “trappola della commoditizzazione”: confondere l’abbattimento dei costi di base con la soluzione del problema economico dell’AI enterprise. I token economici possono mascherare le inefficienze, ma non le eliminano. E quando la domanda di ragionamento avanzato crescerà — come inevitabilmente accadrà con la diffusione dell’AI agentica — le organizzazioni che non avranno investito in architetture efficienti si troveranno con costi fuori controllo e una scalabilità compromessa. Il futuro dell’AI generativa e agentica, in definitiva, non è solo una questione di quanto costa un singolo token. È una questione di come si governa la complessità crescente di sistemi che richiedono, contemporaneamente, intelligenza a basso costo e ragionamento ad alto valore. E su questo terreno, la partita è tutt’altro che chiusa.
© RIPRODUZIONE RISERVATA










































