Il patrimonio delle aziende è in gran parte un patrimonio “informativo”. Sono le informazioni – i dati disponibili – ad offrire la possibilità di cogliere nuove opportunità di business. Oltre alla quantità dei dati è fondamentale la qualità degli stessi e insieme alla qualità serve identificare e sfruttare insight eseguibili che abbiano cioè un effettivo impatto sui processi di business.

Per questo la figura del data scientist è tanto richiesta, quanto difficile e complessa da formare. I data scientist possono infatti essere considerati oggi veri e propri “hacker”, in grado di lavorare sulle informazioni e gli insights quanto serve per portare a termine il loro compito. Ma devono essere aiutati. Spieghiamo con un parallelo: come le linee produttive automatizzate hanno inaugurato l’era industriale, così l’automazione applicata alla data science può accelerare l’industria digitale, permettendo di applicare gli analytics rapidamente a diversi domini da parte di esperti che non sono più costretti a svolgere il cosiddetto “lavoro sporco” (che richiede tempo ma competenze di basso livello).

Attraverso l’automazione, la data science può svilupparsi più rapidamente per risolvere problemi del mondo reale, offrendo nel contempo, a tutti, benefici misurabili lungo la catena del valore. Spetta ai data scientist individuare le soluzioni in grado di sfruttare AI e machine learning al fine di aumentare il fatturato, migliorare la produttività o mitigare i rischi. 

Tra le soluzioni “ideali” quelle di AutoML aiutano gli analisti di business, i data scientist e gli sviluppatori attraverso la rimozione della complessità e l’accelerazione del deployment in ambienti reali di produzione. Si comprende lo spostamento del focus, ora business analyst, data scientist, sviluppatori e business executive sono orientati verso la soluzione dei problemi attraverso l’automazione dei compiti di basso livello per disporre di maggior tempo per lo sviluppo di approcci innovativi alla crescita del fatturato, alla riduzione del rischio e alla cancellazione dei costi inutili.

In un recente contributo Michael O’Connell, Chief analytics officer, Tibco Software interviene su questo tema e spiega: “AutoML [soluzione nel portafoglio Tibco, Ndr.] può aumentare in modo notevole la produttività dei data scientist automatizzando i compiti più banali e consentendo di dedicare maggior tempo all’innovazione. AutoML può anche guidare e formare gli utenti su come ottenere il massimo dai loro dati e dall’ambiente di data science, implementando nel contempo best practice”.

Si tratta, più tecnicamente, di riuscire a mettere a terra progetti di deployment di sistemi end-to-end per testare modelli, inferenze ed elaborazione di eventi in tempo reale. Quindi preliminarmente bisogna prevedere sui sistemi accesso e federazione di dati, strategie di caching, feature engineering, machine learning. Si opera, in pratica, in un contesto tipicamente ModelOps (anche MLOps).

Michael O'Connell, Tibco
Michael O’Connell, Chief analytics officer, Tibco Software

Una sorta di DevOps applicato ai modelli analitici, quindi un approccio olistico alla costruzione di modelli analitici in grado di passare rapidamente dal “laboratorio alla produzione”. Significa anche automatizzare implementazione, monitoraggio e governance, lavorando al miglioramento continuo dei modelli di analisi dei dati. O’Connell: “Un modello che per funzionare può comprendere anche strategie di containerizzazione” di modelli, l’aggiunta di interfacce Restful e il deployment in sistemi operazionali – in ambienti ibridi e qualche volta multi-cloud”.

Il software AutoML indirizza una serie di esigenze ed aiuta gli analisti a preparare i dati, pulirli, permette la cosiddetta feature selection, l’engineering e la modellazione. E si presta come un’assistente digitale su un numero sempre più esteso di piattaforme di data science che scalano attraverso ambienti cloud ibridi con deployment in architetture basate su eventi. 
Riuscire ad automatizzare i processi di data science è un problema comunque complesso. Spetta a questa tipologia di soluzioni generare flussi automatici che siano modificabili e informativi in merito al funzionamento del software. Ma anche lasciare trasparenza ed evidenza dei passi o dei nodi del workflow, su come essi vengono creati e configurati per l’analisi. O’Connell: “In questo modo i flussi generati dovrebbero, e possono, rappresentare un’esperienza educativa per il data scientist su come utilizzare il software in modo ottimale”. Insomma, un sistema AutoML è anche un un modo per implementare best practice, sia per il data scientist esperto e professionale, sia per il praticante con meno esperienza.
Muoversi attraverso una pipeline, in un ambiente configurato correttamente, aiuterà a collegare, pulire e preparare i dati, fino a ingegnerizzare le caratteristiche necessarie allo sviluppo di modelli efficaci. Il data scientist potrà beneficiare di una serie di istruzioni e di guide su aspetti critici come i set di validazione di blocco (hold-out), combinazioni di caratteristiche e modelli e possibilità di spiegazione (explainability) dei modelli. “L’obiettivo non è quello di realizzare un ambiente di automazione totale – specifica O’Connell in cui la pressione di un grande pulsante rosso  significhi ‘lavoro concluso’. Piuttosto, l’obiettivo è quello di formare l’utente come assistente digitale, automatizzare i compiti di più basso livello, educarlo e implementare buone pratiche scientifiche”.

AutoML per la semplificazione dei processi

Anche in questo caso la sfida è la semplificazione dei processi (come è già da tempo in ambito DevOps). O’Connell propone questo esempio: “Un sistema che parte da un analista di business per dataviz e arriva a un data scientist per la formazione e il deployment coinvolge diversi workflow per pulire i dati, ingegnerizzare le caratteristiche e costruire i modelli che creano le previsioni – in job batch e su dati in streaming su sistemi operazionali”.

Bisogna riuscire ad approdare ad uno scenario di generazione automatica di differenti workflow, per esempio per i compiti come quello della preparazione dei dati. Una corretta sintonizzazione del modello permetterà anche di modificare i workflow in modo agile. Sappiamo infatti che quando un data scientist crea un modello predittivo, sviluppare i diversi workflow data prep/data science richiesti può rivelarsi un lavoro impegnativo. Quando invece essi vengono generati automaticamente, ci possono essere importanti risparmi in termini di tempo, modelli più accurati e best practice applicate su tutto. 

Quindi, l’automazione dei workflow se avvantaggia indubbiamente il business analyst come i data scientist non è comunque sufficiente se non si accompagna con la preparazione automatica dei dati (data prep, appena citata). In questo caso le tecnologie di ML possono incrementare di molto la produttività per entrambe le categorie professionali.   

Affidarsi al machine learning per questo specifico ambito però, come spiega O’Connell, non deve fare perdere la visibilità della pipeline: “Per indirizzare questioni più complesse, il deployment e il collegamento a feed di dati dei modelli di machine learning stanno diventando più semplici, per supportare decisioni più veloci e più smart in tempo reale. Non si tratta di creare una scatola nera“.

Questo sia che l’obiettivo desiderato sia quello di aiutare i servizi finanziari a scoprire frodi in modo più accurato, sia che si tratti di monitorare l’output in ambiti molto diversi da questo, come per esempio il monitoraggio delle risorse naturali nelle utility. Ecco, in ogni caso analisti, scienziati e sviluppatori utilizzerano workflow automatizzati per ottenere insight che consentano di costruire modelli più intelligenti a un ritmo più veloce.

© RIPRODUZIONE RISERVATA