Gartner definisce dark data quelle informazioni raccolte dalle organizzazioni e dalle aziende, elaborate e archiviate, anche durante i processi delle attività commerciali, ma generalmente poi non valorizzate né utilizzate per esempio per le analisi sui clienti, o lo studio delle relazioni. In pratica, informazioni inerti ma comunque con un “costo”, perché impegnano risorse e perché spesso sono comunque da conservare per adempiere alle richieste di conformità. Anche per questo si tratta di dati che non solo comportano una spesa, ma possono esporre le aziende anche a significativi rischi.

I numeri sui dark data

Ogni giorno si stima vengano generati 7,5 sestilioni di Gbyte di dati (1036). La maggior parte diventano dark data e, come tali, obiettivo primario degli hacker che li sfruttano per violare le aziende. Nel 2019 il costo medio di una violazione è stato di circa 3,92 milioni di dollari. Un fardello che si aggiunge a quanto le organizzazioni già spendono per l’archiviazione.

I dark data in azienda Fonte Splunk
I dark data in azienda (Fonte: Splunk)

Tra le ricerche più interessanti sullo stato dei dark data a livello globale merita di essere citata quella di Splunk, condotta a livello globale su sette Paesi e coinvolgendo 1.300 aziende. Da quei numeri emerge un consenso diffuso (circa l’81%) sul bisogno di valorizzare le informazioni aziendali, ma si riconosce anche che oltre la metà delle informazioni sui sistemi aziendali (55%) sono informazioni dark, e che appena il 12% delle aziende utilizza già ora strumenti basati sull’AI per migliorare la propria strategia di business. Poco meno del 60% delle aziende vorrebbe lavorare meglio con le informazioni. 

Ecco, in quello studio si evidenzia però un dato importante,sugli altri. Quasi la stessa percentuale di realtà che sottolinea il valore dei dati, praticamente riconosce che il maggiore impedimento nel lanciare progetti basati sull’AI sia proprio la “comprensione di cosa si abbia in casa”. Ritorna per questo il tema delle competenze.

Si tratta in verità di skill che certo hanno bisogno di essere formate su una solida base matematica, ma che in verità devono essere coltivate in azienda. La cultura del dato, e ancora di più quella sui dark data, deve diventare prima di tutto una cultura aziendale. I dati “chiari” non li sanno leggere tutti, intendiamoci, ma chiunque vi dirà di saperlo fare.

Rapporto tra i dati alla luce e dark data secondo LucidWorks
Rapporto tra i dati alla luce e dark data (Fonte: LucidWorks)    

Come estrarre valore

Riconosciuto che si tratta di informazioni che opportunamente studiate sono in grado di produrre valore offrendo diversi spunti ai responsabili del business, bisogna capire come utilizzarli per esempio per evidenziare nicchie di mercato non ancora coperte dall’aziende, o non soddisfatte nelle loro richieste.
Se fino a qualche anno fa sarebbe stato quasi fuori luogo pensare di dedicare ulteriori risorse di computing (oltre a quelle di storage e di compliance alla security) per trovare corrispondenze utilizzabili, oggi i software di Robotic Process Automation, in grado di sfruttare machine learning e intelligenza artificiale, stanno cambiando le regole del gioco. 

Lo evidenziano, tra gli altri vendor, Automation Anywhere, Appian, Micro Focus, Atos, aziende che ognuna nel proprio ambito di azione propongono anche le soluzioni per farlo. Di base, riuscendo ad individuare una struttura su contenuti non strutturati, le piattaforme Rpa, permettono di automatizzare una serie di elaborazioni su fatture ed ordini di acquisto, ma anche richieste di prestiti, mutui etc. sfruttando i dark data contenuti in documenti, immagini ed email, ma anche liberando forza lavoro impegnata a scovare queste informazioni che potrà invece pensare a prendere decisioni.

Alcuni passaggi per riuscire a farlo restano fondamentali. In primis serve adottare una “prospettiva di allontanamento” dalla singola fonte di informazioni e l’adozione di piattaforme che siano in grado di contenere tutte le risorse informative. Questo presuppone però aver già lavorato sull’architettura infrastrutturale dei dati, primari e secondari.

A quel punto sfruttando le piattaforme basate su ML e AI, opportunamente addestrate, si potrà procedere ad individuare quali informazioni siano effettivamente a fine ciclo vita e quali riservino ancora del potenziale, andranno organizzate dal punto di vista logico, e servirà ripensare per questi dati una “nuova governance”. Non si tratta di un singolo progetto di trasformazione digitale, quanto piuttosto di uno stile operativo di maggiore ordine sulle informazioni, valutando anche la possibilità di tenere “vivi” dati ritenuti secondari, e non solo dal punto di vista temporale.

Da dove iniziare

Per esempio un buon punto di partenza è il monitoraggio dei dati di registro da server dispositivi di rete e altre risorse IT. E poi proseguire a scalare. I dispositivi mobile, anche negli scenari Byod, sono essi stessi una fonte importante di dati come quelli che provengono dai siti di social network sull’azienda e dai servizi di condivisione di file.

Parlavamo di governance, appunto. Possiamo modellizzare un processo di questo tipo:
1. Organizzare e monitorare fonti e processi di raccolta (intra aziendali ed esterni) 
2. Organizzare sistemi più che di archiviazione, di “repositioning” adeguati a seconda di una serie di criteri e parametri (non necessariamente o esclusivamente la data)
3. Mettere in sicurezza con la crittografia le informazioni sensibili (anche per esempio quelle di geolocalizzazione delle informazioni dei clienti)
4. Assicurare le policy di accesso corrette.
Solo a questo punto è pensabile di reinserire i dark data nel ciclo di vita informativo e quindi valorizzarli.  

Le aziende che hanno intrapreso un percorso intelligente di trasformazione digitale riconoscono i limiti di una strategia basata esclusivamente sui report lineari. Per esempio, in una recente ricerca Idc si evidenzia come il 70% dei Cmo senta l’esigenza di migliorare le proprie capacità di targeting, con il 58% che per farlo sottolinea la necessità di sfruttare tutte le informazioni che entrano in azienda.

Anche quelle maturate dai sistemi IoT, oltre che dalle operations e dai diversi comparti. Lavorare su informazioni provenienti da fonti eterogenee implica una maggiore collaborazione tra le business unit e una stretta relazione tra i Cmo e l’IT, che dovrebbe facilitare anche la possibilità di identificare una visione completa sui percorsi dei clienti. Torna il tema della continuità dei dati, raccolti da fonti eterogenee. Significa tenere in luce i dark data su tutti i percorsi a partire da quelli interni.

© RIPRODUZIONE RISERVATA