In occasione di re:Invent 2025, l’evento annuale di Amazon Web Services a Las Vegas, l’azienda concentra una serie di annunci tecnologici – sia per quanto riguarda l’evoluzione delle disponibilità infrastrutturali, sia focalizzati sulla trasformazione nell’utilizzo dell’Agentic AI – che confermano la strategia di offerta a “building block” per lasciare la possibilità alle aziende di costruire in questo modo l’architettura più adeguata per le proprie esigenze in cloud, come nello sviluppo dei progetti AI. Ne parliamo con Antonio D’Ortenzio, senior manager Solutions Architect di Aws Italia, e Danilo Poccia, chief evangelist Emea di Aws.

Infrastruttura Aws, base abilitante della trasformazione AI

“Nella visione di Amazon Web Services l’infrastruttura resta la condizione abilitante di qualsiasi trasformazione digitale”, esordisce D’Ortenzio,  ed è questa anche la premessa che guida il percorso tracciato a Las Vegas in un momento in cui l’adozione accelerata dell’AI agentica e dei workload a elevata intensità computazionale obbliga i provider cloud, come le aziende, ad ampliamenti continui della capacità elaborativa, della connettività e dei modelli di fruizione. La crescita del business di Aws conferma il trend. Spiega D’Ortenzio: “Aws ha registrato un annual revenue run rate di 132 miliardi di dollari, con una crescita annuale di 22 miliardi, cifra che da sola supera il fatturato di metà delle aziende incluse nel Fortune 500″. È un indicatore di scala che accompagna la progressione dell’offerta, articolata lungo un continuum di servizi: dallo storage a oggetti fino ai chip sviluppati internamente, dai servizi gestiti alla proposta serverless.

Graviton5, asset per il computing nel cloud Aws

La stessa architettura di base si espande in modo proporzionale ai volumi generati dai clienti: Amazon S3, nato nel 2006, ospita oggi 500 mila miliardi di oggetti e gestisce 200 milioni di richieste al secondo, una soglia che descrive l’evoluzione di un’infrastruttura nata nei primi anni del cloud pubblico e oggi centrale nella gestione dei dati a supporto dei modelli generativi”. Per quanto riguarda lo scenario di “computing”, prosegue la diffusione e lo sviluppo dei processori Graviton. “Per il terzo anno consecutivo più del 50% della nuova capacità Cpu aggiunta nei nostri data center riguarda Graviton”, registra D’Ortenzio, segnalando un’adozione crescente che attraversa industria, servizi e startup. La nuova generazione, Graviton5, segna un salto di scala rispetto al precedente Graviton4: il passaggio da 96 a 192 core e l’ampliamento di cinque volte della cache L3 che “modificano il rapporto fra core, memoria locale e latenza, migliorando la capacità del chip di sostenere workload di elaborazione ad alta parallelizzazione”. Gli early adopter – Airbnb, Atlassian, Honeycomb.io, Sap, tra gli altri– attestano incrementi fino al 60% su specifici carichi, evidenziando la direzione dell’evoluzione: riduzione dei colli di bottiglia, maggiore coerenza fra throughput e operazioni in memoria, capacità di gestire workload più eterogenei con efficienza energetica superiore. 

UltraServer e Trainium3 risorse per il training AI potenziato

La strategia è coerente con l’obiettivo di consolidare una catena hardware di fatto proprietaria, che affianca Graviton alla famiglia Trainium dedicata all’addestramento e all’inferenza dei modelli e a Nitro, componente chiave dell’hypervisor. L’approccio emerge con chiarezza nell’evoluzione dei cluster ad alte prestazioni. Per esempio, il progetto Rainier, avviato un anno fa, è nato per aggregare centinaia di migliaia di chip Trainium2 all’interno di una singola infrastruttura fisica, con l’obiettivo di generare uno dei sistemi di training AI più capaci al mondo, utilizzato da realtà come Anthropic per addestrare i modelli Claude. A re:Invent 2025 la nuova generazione Trainium3 introduce un processo produttivo a 3 nanometri, capace di raddoppiare la densità dei transistor e incrementare del 40% l’efficienza energetica; gli UltraServer basati su Trainium3 raggiungono 360 petaflops, 20 TB di capacità HBM e 700 TB/s di banda, con rack interconnessi tramite Neuron Switch progettati per pattern di traffico specifici del training su larga scala.

Antonio D'Ortenzio
Antonio D’Ortenzio, senior manager Solutions Architect di Aws Italia

“Per la prima volta troviamo tre diversi modelli di processore interamente prodotti da Aws che collaborano fra loro”, osserva D’Ortenzio, riferendosi ai nodi che combinano Trainium, Graviton e Nitro all’interno di un’unica architettura . È un passaggio rilevante perché definisce un modello di co-progettazione verticale in cui il cloud provider può intervenire simultaneamente sui piani di calcolo, gestione, virtualizzazione e ottimizzazione energetica, riducendo le dipendenze dai fornitori tradizionali e modellando i sistemi sulle esigenze dei workload AI emergenti. La piena compatibilità con PyTorch (framework utilizzato per generare reti neurali), introdotta quest’anno, amplia ulteriormente la platea di sviluppatori e team ML che possono adottare Trainium3 come piattaforma di training.

Il rapporto con l’ecosistema hardware esterno resta comunque strategico: “Aws continua a posizionarsi come ambiente privilegiato per l’esecuzione delle Gpu Nnvidia: le istanze EC2 P6e, basate sui chip GB200 e ora aggiornate alla serie GB300, integrano controlli a livello di Bios per ridurre le condizioni di reboot e migliorare resilienza e continuità operativa, elementi critici nell’addestramento su larga scala”, racconta D’Ortenzio. Lo stesso vendor utilizza EC2 come ambiente di test per i propri workload, in una relazione di co-sviluppo che anticipa l’integrazione delle generazioni successive. Anche OpenAI, conferma D’Ortenzio, “utilizza gli ultraserver EC2 dotati di centinaia di migliaia di chip per eseguire ChatGpt e addestrare i propri modelli”, per la necessità di infrastrutture con volumi e stabilità difficilmente replicabili on-premise.

L’estensione dell’offerta hardware intesa come “servizio” ha visto nel corso dell’anno poi il lancio della proposta AI Factories, come possibilità di distribuire porzioni di infrastruttura AI direttamente nei data center dei clienti. “Si tratta di mini-region orientate esclusivamente all’esecuzione di workload di intelligenza artificiale, con configurazioni dedicate che possono includere processori Trainium e componenti software come Bedrock o SageMaker in versione locale”. Il modello risponde a esigenze di sovranità, conformità e sicurezza tipiche dei settori regolamentati, mantenendo in sede i workflow sensibili senza rinunciare alla continuità con l’ecosistema cloud. “È un’evoluzione delle esperienze introdotte con Outposts e con le Local Zones, ma verticalizzata sull’AI”, precisa D’Ortenzio , evidenziando come il confine fra cloud e on-prem continui a diventare più permeabile.

Come evolve il paradigma serverless

L’ultimo tassello riguarda l’evoluzione del paradigma serverless. A undici anni dal lancio, Aws Lambda continua a rappresentare uno strato centrale per lo sviluppo applicativo, ma l’evoluzione dei workload ha richiesto una revisione del modello. Da qui nasce il nuovo servizio Lambda Managed Instances, che permette di associare alle funzioni serverless specifiche caratteristiche hardware, con la possibilità di selezionare configurazioni sottostanti EC2 senza rinunciare alla semantica del serverless. “È un’estensione che mira ad abilitare carichi – come video processing o workflow AI – che necessitano di un controllo più granulare sulla capacità computazionale”, spiega ancora D’Ortenzio. A questo si aggiunge l’introduzione delle Lambda Durable Functions, che ampliano il paradigma a processi long-running con durata fino a un anno, gestione del checkpoint, rollback e pause controllate. D’Ortenzio ci tiene a precisare: “Non è il tradimento del paradigma serverless, quanto piuttosto una sua estensione”, coerente con l’obiettivo di sostenere modelli di esecuzione più complessi in un contesto in cui l’AI agentica richiede architetture a stati persistenti e workflow multistep.

Il percorso di Aws Lambda
Il percorso di Aws Lambda

Il layer agentico dell’AI secondo Aws

L’evoluzione della proposta infrastrutturale rappresenta solo una parte della traiettoria tecnologica di Aws. Gli annunci a re:Invent 2025 mostrano infatti come l’intero livello applicativo stia evolvendo verso un modello agentico, sostenuto da una piattaforma unificata che comprende servizi di inferenza, nuovi modelli, strumenti di sviluppo e meccanismi avanzati di governance. Danilo Poccia descrive questo passaggio come “l’ideale continuazione della stratificazione infrastrutturale, in cui la disponibilità di nuovi processori e cluster AI rende possibile l’adozione di un paradigma agentico molto più maturo rispetto agli anni precedenti”.

Il punto di partenza è la progressiva centralità di Amazon Bedrock, piattaforma fondativa per l’utilizzo dell’intelligenza artificiale generativa da parte degli sviluppatori. Con oltre 100mila clienti attivi, Bedrock rappresenta un ambiente unificato nel quale è possibile scegliere quale modello utilizzare, valutare prestazioni e costi e orchestrare flussi di inferenza su scala estremamente elevata. “Più di 50 clienti hanno già superato il trilione di token elaborati”, numeri che indicano l’emergere di workload critici costruiti nativamente sulla piattaforma. L’evoluzione di Bedrock si concretizza quest’anno con il supporto ai nuovi modelli Mistral Large 3 e Ministral 3, che ampliano la disponibilità di modelli “europei” e introducono una maggiore diversificazione nelle opzioni di inferenza. Il risultato evidente è “un ecosistema multimodello in grado di ospitare modelli proprietari, open source e commerciali, integrando equilibri geografici e tecnici differenti”.

L’abilitazione alla rapidità con cui Bedrock integra nuovi modelli deriva da Project Mantle, una riscrittura radicale del motore di inferenza eseguita negli ultimi mesi. “Parliamo di una vera reimplementazione – spiega Poccia – nata dall’osservazione per cui i workload della generative AI non sono uniformi e richiedono un motore capace di gestire in modo efficiente sia richieste brevissime sia elaborazioni a lunga durata” , per portare velocemente a bordo di Amazon Bedrock i nuovi modelli. Mantle consente una gestione più efficiente delle risorse interne e introduce la nuova Responsise Api, compatibile con le interfacce OpenAI, permettendo ai clienti di migrare verso Bedrock senza modificare il codice applicativo.

Danilo Poccia
Danilo Poccia, chief evangelist Emea di Aws

Il secondo asse riguarda i modelli proprietari. La nuova famiglia Amazon Nova 2 estende il raggio d’azione dei modelli sviluppati dal laboratorio Amazon Agi (Artificial General Intelligence) di San Francisco. I modelli Nova 2 sono di tipo reasoning, includono meccanismi di thinking controllabile e presentano tre nuove varianti: Nova 2 Lite, adatto ai workload quotidiani; Nova 2 Sonic, modello speech-to-speech in grado di gestire conversazioni in tempo reale in più lingue, tra cui l’italiano; e Nova 2 Pro, oggi in preview, caratterizzato da un aumento significativo delle capacità computazionali. Il modello Sonic, per esempio, introduce funzionalità di gestione asincrona delle chiamate ai tool esterni, caratteristica indispensabile in scenari conversazionali in cui il modello non può interrompere l’interazione per periodi prolungati.

Accanto ai modelli finiti, Aws introduce Amazon Nova 2 Omni, modello any-to-any in preview, capace di ricevere in input testo, immagini, documenti, audio o video e generare in output testo e immagini senza passaggi intermedi espliciti. Omni segue la linea di ricerca verso modelli che operano completamente nello spazio latente, eliminando la necessità di modelli specializzati per singole modalità. Spiega Poccia: “La personalizzazione dei modelli è un’esigenza sempre più rilevante per i clienti che non possono costruire modelli da zero né limitarsi alle versioni generiche”. Per questo arriva la proposta Amazon Nova Forge, piattaforma che “consente di accedere ai checkpoint intermedi dei modelli Nova 2 e completare il pre-training su dati proprietari tramite Amazon SageMaker”. Il modello risultante viene reintegrato in Bedrock, riducendo costi e complessità e il rischio di collasso del modello grazie a dataset curati messi a disposizione da Aws. Alcuni clienti – booking.com, Sony, Reddit – utilizzano Nova Forge per creare modelli su misura, ad esempio per la moderazione dei contenuti o la gestione delle interazioni multi-lingua.

Parallelamente alla generazione e personalizzazione dei modelli, Aws introduce nuove capacità operative con Amazon Nova Act. Si tratta di un agente progettato per interagire con interfacce Web, estrarre dati non strutturati e trasformarli in informazioni strutturate per alimentare applicazioni interne. Poccia porta esempi: “Hertz utilizza Nova Act per automatizzare flussi di prenotazione e per testare automaticamente modifiche delle proprie interfacce Web. Un approccio che conferma la spinta verso una crescente agentificazione delle interazioni uomo-macchina”.

Sul fronte dati, l’annuncio di Amazon S3 Vectors introduce una funzione tecnica ma cruciale. Le applicazioni basate su AI necessitano sempre più frequentemente di rappresentare concetti sotto forma di vettori. Poccia: “La gestione di questi dati richiedeva tradizionalmente database vettoriali dedicati. L’estensione di S3 permette ora di creare bucket vettoriali nativi, con calcolo integrato della distanza semantica tra i vettori e un modello di costo basato unicamente sul consumo, semplificando notevolmente l’adozione di sistemi di ricerca semantica”.

Agenti operativi e governance, la maturità dell’Agentic AI

Il percorso evolutivo prosegue ancora, e ancora a livello agentico. Aws ha presentato anche Amazon Quick, applicazione agentica (è utilizzata anche internamente ai dipendenti Amazon), che “consente di connettersi ai dati aziendali, crearne visualizzazioni e generare workflow decisionali. È uno strumento che integra ricerca, automazione e valutazione dei dati aziendali in un’unica interfaccia”.

Con l’obiettivo invee di ridurre la complessità delle migrazioni e adeguare il software ai nuovi ambienti cloud attraverso agenti che comprendono contesti e dipendenze applicative ecco la proposta Aws Transform, piattaforma agentica che automatizza la modernizzazione di applicazioni Windows, mainframe e VMware, estendibile a qualsiasi applicazione tramite Aws Transform Custom

Nella visione di Aws si legge l’inizio di una nuova era anche per quanto riguarda lo sviluppo software. L’ambiente Kiro, annunciato come workstation AI-assistita, consente lo “specs-driven development”: significa che l’agente intelligente non solo genera codice, ma contribuisce a definire requisiti e specifiche di progetto, preservando coerenza e manutenibilità. “In pochi mesi decine di migliaia di sviluppatori hanno adottato Kiro” – osserva Poccia -, evidenziando una crescita tale da richiedere l’introduzione di un free tier per contenerne la diffusione iniziale . Da Kiro nasce il primo agente autonomo dedicato allo sviluppo: Kiro Autonomous Agent opera direttamente nel cloud, interagisce con repository, strumenti di ticketing e ambienti di test, apprendendo dagli errori e lavorando come un teammate virtuale.

Aws reinvent 2025 sintesi annunci
Aws re:Invent 2025, la sintesi degli annunci Agentic AI

L’espansione degli agenti introduce una “pressione crescente sulla sicurezza del software”. Aws risponde con Aws Security Agent, dedicato alla code review che è orientata alla sicurezza e ai penetration test generati automaticamente. Mentre con Aws DevOps Agent, si è pensato a  correlare metriche applicative provenienti da strumenti come Datadog, Splunk o CloudWatch e fornire analisi immediate per ridurre i tempi di intervento nelle operation. Tutti questi elementi convergono in Bedrock AgentCore, piattaforma che orchestra gli agenti aziendali e li porta in produzione in modo sicuro. AgentCore integra un runtime isolato, gestione della memoria conversazionale, identità, accesso ai tool tramite protocollo Mcp, osservabilità avanzata e un browser per interazioni autonome. Con oltre due milioni di download dell’Sdk, AgentCore evolve includendo AgentCore Policy, meccanismo che introduce un perimetro simile a un firewall logico intorno agli agenti. “Gli agenti sono come teenager – osserva Poccia -: imprevedibili, ma proprio per questo utili; le policy impediscono comportamenti indesiderati pur mantenendo la capacità di iniziativa”. A ciò si aggiunge AgentCore Evaluations, che permette di valutare le azioni degli agenti tramite altri agenti, secondo l’approccio Llm-as-a-judge, fornendo metriche di accuratezza, correttezza e pertinenza. La piattaforma ora ha in dote anche funzionalitò di episodic memory, un sistema che estrae pattern dalle interazioni passate degli agenti per consentire apprendimenti persistenti e riutilizzabili, superando la necessità di aggiornamenti manuali frequenti.

Il quadro che emerge da re:Invent 2025 è chiaro. Per Poccia “il concetto di agente come compagno di lavoro è ora concreto e reale”. Il ritmo di trasformazione in atto è elevato e, come già avvenuto con il cloud, l’adozione di ogni tassello, secondo le esigenze, richiederà tempo ma nell’ambito di un percorso – quello verso l’utilizzo dell’Agenti AI nei processi – già inevitabile. La traiettoria punta ora verso le prossime frontiere: l’evoluzione quantum computing fino ai progetti per la “quantum AI”, con la fusione di quantum computing e intelligenza artificiale.

© RIPRODUZIONE RISERVATA

Condividi l'articolo: