Annunciata già a maggio di quest’anno, in questi giorni Google ha presentato Gemini. La prima e principale differenza rispetto all’idea che il pubblico si è fatta dell’AI grazie all’esperienza di ‘dialogo’ con ChatGpt (resta la forma di AI generativa di più facile consumo al momento in Italia) è che, con Gemini, Google parla di AI multimodale, ovvero in grado di operare su tipologie diverse di contenuti, quindi non solo testo e codice.
Proprio testo e codice sono peraltro i domini in cui proprio ChatGpt ha mosso i primi passi prima di maturare, ma la differenza sta nel fatto che persino la versione Gpt-4 di OpenAI non è considerabile multimodale anche se può essere inserita in sistemi più complessi che lo sono. Google Gemini, invece, lavora già anche su immagini, video, audio, di fatto tutte le tipologie di contenuti che siamo abituati a consumare con un dispositivo di calcolo. 

Sgombriamo il campo da equivoci: una comparazione del potenziale tra OpenAI Gpt e Google Gemini non è al momento nelle possibilità di nessuno (anche se Google pubblica interessanti tabelle di ‘benchmarking’ prestazionali); e non è questo l’intento del nostro lavoro. Qui preme piuttosto capire come si sta muovendo Google che ha presentato Gemini a maggio come “famiglia” di large language model multimodali sviluppata da Google DeepMind – il motore che è succeduto a Lamda e Palm 2, di cui abbiamo parlato in altro contributo – addestrato appunto attraverso l’elaborazione di più tipologie di dati (per i video sono stati utilizzati i contenuti su Youtube nel rispetto dei copyright) e linguaggi di programmazione.

L’importanza di Gemini si può leggere anche nel fatto che, per il suo sviluppo, Google ha voluto impegnare direttamente il co-fondatore di Google Sergey Brin. Mentre già si parla di un nuovo ‘testa a testa’ con OpenAI che ha rilanciato nello sviluppo di Gpt-4 proprio per potenziare le medesime capacità multimodali. 

E’ vero, infatti, che proprio su Gemini ‘esposta’ nelle sue declinazioni anche al grande pubblico si giocherà la partita che vuole oggi Google in ritardo rispetto al competitor. Nella declinazione stessa della proposta allora è da vedersi l’intento di andare a coprire i più estesi casi d’uso dai DC fino ai dispositivi mobile.

Google Gemini Ultra, Pro, Nano

Si parla oggi in particolare di tre versioni Gemini Ultra, Gemini Pro e Gemini Nano. Gemini Ultra è progettata per i compiti più complessi è anche il primo modello linguistico a superare gli esperti umani (57 esperti selezionati) nel test Mmlu Massive Multitask, da gennaio dovrebbe supportare Bard Advanced. Da questi giorni i clienti Google Cloud possono invece avere accesso a Gemini Pro, che entra in Bard e nel motore di ricerca, mentre Gemini Nano può lavorare anche negli smartphone a partire dai Pixel Pro. Via via Gemini ‘pervaderà l’ecosistema della proposta Google quindi: search, ads, Chrome… E gli sviluppatori potranno utilizzare le Api relative per l’integrazione nelle applicazioni del caso. 

Tra i potenziali più interessanti che l’AI multimodale proposta da Google mette in campo, dicevamo, vi è la possibilità di correlare nello stesso istante immagini, video, suoni. Significa anche poter ‘contestualizzare’ meglio situazioni ed interrogazioni in modo da fornire risposte più accurate. Vogliamo a questo proposito ricordare sempre che alla base del potenziale delle AI generative vi è il calcolo. Anche per questo la “competizione” tra i modelli oggi è relativa, e senza dubbio il prossimo game changer sarà il quantum computing. 

Google Gemini, focus sulle aziende

In casa Google, la piattaforma di sviluppo per l’utilizzo dell’AI generativa declinabile nei contesti di business è Vertex AI, così come Duet AI è declinata come platform per Google Workspace, e per Google Cloud. Negli ultimi mesi proprio in questi ambiti l’azienda ha continuato a lavorare. Thomas Kurian, Ceo di Google Cloud, in occasione degli ultimi annunci prima del Natale, sottolinea ora le “nuove funzionalità nella infrastruttura ottimizzata per l’intelligenza artificiale”, con i progressi nelle Gpu e nelle Tpu utilizzate, nel software e nei compilatori ML ed in particolare, appunto le “diverse innovazioni in Vertex AI, con un’intera nuova suite di funzionalità per gli agenti Duet AI in Google Workspace e Google Cloud Platform”. Forbes, Formula E e Spotify sono tra le aziende che già utilizzano Vertex AI per creare i propri agenti, ma anche Anthropic, AI21 Labs e Cohere stanno addestrando i loro modelli in questa direzione.

Thomas Kurian, Ceo di Google Cloud
Thomas Kurian, Ceo di Google Cloud

Le novità odierne però, quelle di punta, riguardano, come spiega Kurian, “funzionalità all’interno dello stack AI a supporto di Gemini, che può generalizzare, comprendere, operare e combinare senza discontinuità diversi tipi di informazioni, tra cui testo, immagini, audio, video e codice informatico allo stesso modo in cui gli esseri umani vedono, sentono, leggono, ascoltano e parlano di molti tipi diversi di informazioni contemporaneamente”.

Gemini di fatto entra quindi a fare parte di uno stack tecnologico di intelligenza artificiale integrato e ottimizzato verticalmente, composto da diversi elementi. Li vediamo.
Come infrastruttura scalabile innestata in Google Cloud “offre alle aziende la stessa ottimizzazione utilizzata da Google per addestrare e supportare i modelli”. In modalità as a service nelle regioni cloud, tramite Google Distributed Cloud per l’utilizzo nei data center aziendali, e all’edge. “Prosegue inoltre il percorso per fornire modelli di intelligenza artificiale con diverse abilità”. Quindi il riferimento a Gemini Pro e a modelli specifici per settore, come Med-PaLM e Sec-PaLM.

Ecco, ora Vertex AI migliora “per aiutare gli sviluppatori a creare agenti e integrare l’IA generativa nelle loro applicazioni”, ma anche per personalizzare, potenziare, implementare e gestire gli agenti costruiti utilizzando Api Gemini, e un elenco curato di oltre 130 modelli di AI open-source e di terze parti con i relativi standard di sicurezza. Vertex AI utilizza la stessa governance dei dati e i controlli sulla privacy integrati di Google Cloud e fornisce strumenti per aiutare gli sviluppatori a utilizzare i modelli in modo responsabile”. Offre inoltre Search and Conversation, strumenti che utilizzano un approccio low-code per sviluppare sofisticati agenti di ricerca e conversazione che possono funzionare su diversi canali.

Per quanto riguarda Duet AI e gli agenti AI assistivi per Google Workspace e Google Cloud le funzionalità distintive sono la possibilità di aiutare gli utenti a scrivere, creare immagini, analizzare fogli di calcolo, redigere e riassumere e-mail, messaggi di chat e ricapitolare il contenuto di riunioni (cfr. Copilot di Microsoft), mentre Duet AI in Google Cloud aiuta gli utenti a codificare, implementare, scalare e monitorare le applicazioni. Compiti a loro volta avidi di calcolo per cui Google si è attrezzata con Cloud Tpu v5p, come acceleratore AI scalabile e flessibile (quattro volte più scalabile della Tpu v4).

Google Tpuv5
Una fila di acceleratori Cloud Tpu v5p

Prosegue, infatti, Kurian: “Abbiamo annunciato il nostro AI Hypercomputer, un’infrastruttura innovativa di supercomputer che impiega un sistema integrato di hardware ottimizzato per le prestazioni, software aperto, framework ML leader, e modelli di consumo flessibili ed offre un’ampia gamma di opzioni di accelerazione, tra cui diverse classi di Tpu di quinta generazione e Gpu Nvidia“. Per quanto riguarda poi la presentazione di nuovi modelli per l’analisi delle immagini arriva Imagen 2 “con funzionalità migliorate di fotorealismo, di text rendering e di generazione di loghi, che consentono di creare facilmente immagini con sovrapposizioni di testo e loghi”. Mentre MedLM è la suite di modelli specifici per l’ambito medico. 

Al centro resta la disponibilità di Gemini Pro in anteprima per Vertex AI, con la possibilità di scoprire, personalizzare, potenziare, gestire e implementare agenti costruiti con Api Gemini, utilizzando i propri dati, per progettazione dei prompt, tuning basato su adattatori come Low-Rank Adaptation (LoRA), apprendimento per rinforzo dal feedback umano (Rlhf) e distillazione, ma anche “l’ancoraggio per migliorare la qualità delle risposte di Gemini e di altri modelli di AI, confrontando i risultati con fonti di dati Web e aziendali di qualità”.

Nella sfera di espansione delle funzionalità di Duet AI, pure, è in fase di integrazione Gemini per le prossime settimane. In questo senso “Duet AI per gli sviluppatori aiuta gli utenti a fare coding più velocemente grazie al completamento e alla generazione di codice e alla chat AI in diversi ambienti di sviluppo integrati (Ide)”. Semplifica inoltre le attività e i processi ripetitivi degli sviluppatori tramite scorciatoie per le operazioni più comuni – tra cui la generazione di test unitari e la comprensione del codice – “velocizza la risoluzione dei problemi e la correzione di anomalie e aiuta a ridurre il passaggio da un contesto all’altro”.

Arriva inoltre anche Duet AI per le security operations. Prosegue Kurian: “I team di sicurezza possono migliorare le loro competenze e contribuire ad accelerare il rilevamento, le indagini e la risposta alle minacce utilizzando la potenza dell’IA generativa”. La strategia vuole Google in questa fase utilizzare Gemini per presentarsi con una offerta integrata di infrastrutture AI scalabili – proprio con Vertex AI e Duet AI – e una proposizione cloud completa abilitata dalla stessa AI. Chiude Kurian: “Con queste innovazioni, Google Cloud sta promuovendo la prossima generazione di agenti basati sull’IA in tutti i settori, consentendo alle organizzazioni di creare, utilizzare e adottare con successo l’intelligenza artificiale per alimentare la loro trasformazione digitale”.

© RIPRODUZIONE RISERVATA

Condividi l'articolo: