Il tema dei dati sintetici suscita molto interesse oltre che valutazioni etiche correlate all’allenamento delle intelligenze artificiali. E’ uno dei punti toccato in una chiacchierata con il management italiano di Axiante, business system integrator che basa la propria proposta sulla gestione dei dati per i clienti, attraverso due leve: una customer data platform (Cdp) che raccoglie, bonifica e organizza i dati da diversi touch point aziendali in un unico profilo cliente, per gestirli poi con tecnologie di customer intelligence (CI) per estrarre insight utili. Oggi anche grazie all”utilizzo dell’intelligenza artificiale, che le aziende stanno osservando.
“Il mercato dell’AI dimostra che i manager non stanno trattando l’AI in modo diverso rispetto all’introduzione nel mercato di altre tecnologie – esordisce Romeo Scaccabarozzi, amministratore delegato di Axiante -. L’AI in Italia è ancora in una fase di valutazione. Per adottarla le aziende vogliono concretezza nei risultati, altrimenti sono restie negli investimenti. L’analisi condotta da NetConsulting cube sul grado di adozione dell’AI sul mercato italiano conferma l’importanza della sperimentazione: il modo più semplice di condurre dei Poc è verificare se sono promesse concrete, se si sposano con il business model e quale ritorno possono avere sul business”.
Come allenare l’AI

Spesso la carenza dei dati reali frena lo sviluppo di modelli per analisi predittive che impattano sulla strategia aziendale. Grazie ai dati sintetici, definiti partendo da dati reali, viene arricchito il dataset di partenza senza introdurre bias e accelerando lo sviluppo dei modelli di analisi.
“I dati sintetici sono un abilitatore, per capire se un Poc può generare un ritorno interessante – incalza Mirko Gubian, global demand senior manager & partner di Axiante -. Vengono generati per poter alimentare modelli matematici di AI, advanced analytic o ML”. Parla un dato: nel 2024 più del 50% dei dati utilizzati per allenare i modelli è stato generato sinteticamente, per scalare dalle fasi di Poc alle fasi di realizzazione vere e proprie di progetti.
“I vantaggi di generare dei data set in maniera sintetica sono legati da una parte alla tematica importante della privacy, dal momento che vengono generati dati completamente anonimizzati che hanno le stesse caratteristiche dei dati inziali utilizzati per generarli, rispettando privacy e Gdpr. Dall’altra a una tematica di costo. Acquisire dati reali ha un costo più elevato rispetto a generarli in modo sintetico, attraverso algoritmi”.
Due use casi di dati sintetici
Il primo caso gestito da Axiante è un progetto per generare dati sintetici per il riconoscimento di immagini nell’ambito della logistica integrata e dei trasporti, al fine di supportare lo sviluppo di un modello di intelligenza artificiale dedicato al riconoscimento e all’interpretazione di fogli presenze portati in formato immagine, dopo la scansione del cartaceo. “La sfida principale in questo progetto era rappresentata sia dalla scarsa disponibilità di immagini di fogli presenze reali, che vengono eliminati dopo la trascrizione nel sistema gestionale, sia per l’eterogeneità nei formati e negli stili di scrittura – precisa Gubian -. Per superare questo ostacolo, abbiamo creato un ampio dataset di immagini sintetiche di timesheet, generate in modo programmato simulando differenti layout e template grafici, varie tipologie di font, scrittura a mano e livelli di rumore visivo, dati verosimili come nomi, date e turni, ma anche imperfezioni comuni come sfocature, risoluzione bassa o fogli inclinati”.

Questo approccio ha permesso di addestrare e ottimizzare un modello in condizioni realistiche e ottenere buone performance anche su dati reali, una volta messi in produzione.
“Testare la robustezza del modello su variabili che non avremmo potuto coprire con un dataset reale limitato è stato elemento fondamentale perché ci ha permesso di ridurre significativamente la necessità di reperimento delle immagini per il training del modello, rispettato i vincoli di protezione dei dati e accelerato i tempi di sviluppo del modello” dettaglia.
Il secondo caso riguarda invece la generazione di dati sintetici per il supporto alle strategie di pricing, realizzato per una azienda attiva nella produzione e distribuzione di beni industriali, con base clienti eterogenea.
La generazione di dati sintetici era pensata per supportare lo sviluppo di un modello di stima dell’elasticità della domanda rispetto al prezzo, con l’obiettivo di ottimizzare le politiche commerciali e promozionali.
“La scarsità di dati storici per alcune combinazioni specifiche di prodotto e cliente, come nel caso di articoli a bassa rotazione o clienti con comportamenti d’acquisto intermittenti rappresentava una variabile critica – precisa Gubian –. Il dataset sintetico generato a partire dalle distribuzioni osservate, ci ha permesso di simulare andamenti storici coerenti per volumi e prezzi, oltre a comportamenti di acquisto differenziati per tipo di cliente e stagionalità. Abbiamo cosi migliorato la robustezza delle stime e la capacità predittiva del modello anche su clienti o prodotti, pur avendo dati storici limitati”.
La qualità dei dati sintetici è strettamente legata alla qualità del modello che li crea e del set di dati sviluppato. Un passaggio fondamentale nella generazione di dati sintetici rimane pertanto il data profiling, ovvero l’analisi sistematica dei dati originali per comprenderne struttura, distribuzioni, relazioni e anomalie.
© RIPRODUZIONE RISERVATA