E’ trascorso esattamente un anno da quando Google ha svelato i passi che avrebbe compiuto approdati poi nella proposta Gemini, la sua intelligenza artificiale generativa e nativamente multimodale. A dicembre poi l’azienda ha “messo a fuoco” l’integrazione del potenziale Gemini entro uno stack tecnologico ottimizzato per Google Cloud e Google Workspace. Ora l’appuntamento Google I/O di questa primavera aggiunge ulteriori passaggi all’interno del medesimo percorso, che vuole portare gli utenti a “poter trasformare qualsiasi input in qualsiasi output” – un I/O quindi di nuova generazione nell’“era Gemini”, come specifica Sundar Pichai, Ceo di Google e Alphabet. Intanto, l’azienda è riuscita a portare il suo modello Gemini nei diversi prodotti/servizi Google, anche se a livelli differenti di integrazione.
L’AI già è operativa nelle funzionalità di ricerca, consente a livello di prompt sul motore di ragionare in più fasi, di pianificare e di utilizzare la multimodalità – ma è ancora “in progress” la possibilità di porre domande complesse di personalizzare i risultati della ricerca o di porre domande attraverso video, così come ancora non è compiuta l’integrazione piena con Google Search che è un vero punto di approdo, per sfruttare il quale però è probabile arrivino nuovi ‘modelli’ di licensing, così da mettere a frutto nel modo migliore quella che al momento è forse lo strumento più desiderabile: poter sfruttare la ricerca affiancati del tutto da Gemini per un’interazione più naturale e articolata.
Infatti, l’interrogazione al motore di ricerca Google beneficia già, in background, di parte del potenziale di Gemini, ma non è ancora disponibile al pubblico la possibilità di utilizzare la ricerca sfruttandone direttamente “tutta” la capacità.
Le funzionalità di Gemini che, al contrario, si integrano con la ricerca Google sono per esempio la verifica delle risposte – per controllare le informazioni fornite da Gemini confrontandole con i risultati di ricerca Google e Gemini già invece riesce a suggerisce automaticamente ricerche correlate alla conversazione in corso. Inoltre l’app Gemini dispone di una sua funzione di ricerca interna che permette di trovare rapidamente le conversazioni passate o le informazioni salvate all’interno dell’app.
E’ in arrivo ora una nuova versione di AI personalizzata ulteriormente per la ricerca Google. Riunisce le capacità avanzate di Gemini – tra cui il ragionamento in più passaggi, la pianificazione e la multimodalità – con i sistemi di ricerca. Così, specifiche “overviews” delle ricerche effettuate permettono per esempio di ottenere sia una panoramica veloce di un argomento che i link per saperne di più, arriveranno presto anche in Italia, al momento sono disponibili solo in Uk e Usa.
Gemini, l’integrazione con Google Photo, Workspace e Android
Un approccio per certi aspetti coerente con l’integrazione con le funzionalità di ricerca riguarda anche Google Photo, perché sarà presto permesso di fare richieste all’applicazione, come si farebbero direttamente all’AI generativa, per rintracciare informazioni complesse riguardo le foto e gli eventi vissuti e illustrati dagli scatti.
Per quanto i vantaggi maggiori per chi lavora sono in arrivo invece in relazione alle possibilità di interazione che saranno offerte da Gemini in Google Workspace e direttamente con il sistema operativo Android. Nel primo caso, con Workspace, Google I/O ha promesso che le funzionalità di Gemini saranno integrate nel pannello laterale di Gmail, Documenti, Drive, Presentazioni e Fogli e saranno aggiunte anche all’app mobile di Gmail, mentre l’integrazione con Android porterà a beneficiare di un vero e proprio overlay di Gemini in grado di offrire suggerimenti creativi relativi a ciò che appare sullo schermo (per esempio il riassunto di un Pdf), con Talkback con Gemini che sarà in grado di fornire descrizioni di immagini dettagliate.
Chi è abbonato a Gemini Advanced (è possibile provarla anche gratuitamente per due mesi) avrà presto disponibile Gemini 1.5 Pro in grado di comprendere contemporaneamente un numero molto più elevato di informazioni, testi Pdf anche di 1.500 pagine e fino a 30mila righe di codice e video in appena un’ora, così come con Live sarà possibile parlare direttamente con il modello Gemini. Che oggi viene declinato anche come Gemini 1.5 Flash, pensato per essere veloce e efficiente sulla base del feedback degli utenti, con latenze più basse, mentre Project Astra è la vision Google per la prossima generazione di assistenti AI, ed opera come agente reattivo in grado di comprendere e reagire al contesto delle conversazioni. E ancora, con Veo, a Google I/O è stato inoltre presentato il modello per generare video ad alta definizione, mentre Imagen 3 è il modello text-to-image proposto ora.
Lato infrastrutturale invece l’addestramento di nuovi modelli che ha bisogno di elevate risorse di calcolo è indirizzato dalla disponibilità che arriverà nel corso di quest’anno della sesta generazione delle nostre Tpu, chiamata Trillium, che offre un miglioramento di 4,7 volte delle prestazioni di calcolo per chip rispetto alla generazione precedente, le Tpu v5e, e che renderemo disponibile per i clienti Cloud nel corso dell’anno. In particolare Trillium è dotato di un acceleratore specializzato per l’elaborazione di incorporamenti di contenuto importanti per l’apprendimento, così da riuscire ad addestrare più rapidamente i nuovi modelli e servirli con latenza ridotta e costi inferiori. I Tpu Trillium sono oltre il 67% più efficienti dal punto di vista energetico rispetto alla generazione precedente.
Caratterizzante il modello di sviluppo dell’AI di Google in questa fase è proprio il punto di partenza nell’integrazione di intelligenza artificiale generativa nei workload già utilizzati in modo diffuso dagli utenti: search, photo, drive, workspace (con Gmail) che di fatto sono le proposizioni riconosciute e maggiormente utilizzate dal pubblico sono anche gli ambiti dove prima arriverà la piena integrazione di Gemini.
© RIPRODUZIONE RISERVATA