Home Scenari Siti giù, la fragilità dagli errori di configurazione

Scenari

Siti giù, la fragilità dagli errori di configurazione

Il blackout parziale di una serie di siti Internet, a causa di problemi alla Cdn di Fastly, evidenzia da una parte la complessità dei sistemi e la loro interdipendenza e dall'altra sottolinea il valore della pluralità di attori e tecnologie per la resilienza dei servizi

Mario De Ascentiis

11.06.2021

1909

Nei giorni scorsi è diventata improvvisamente irraggiungibile una nutrita serie di siti Internet. Chi ha cercato di collegarsi ad importanti servizi, soprattutto di informazione e intrattenimento – come per esempio quelli di alcune testate (New York Times, Corriere, Guardian, Financial Times, tra gli altri), Spotify, Amazon etc., ma anche quelli di qualche istituzione (per esempio in UK), alcuni social network (Pinterest e Twitch), e ancora Github, StackOverflow, Reddit – ha ricevuto sul proprio schermo come risposta dai server una pagina di servizio con la segnalazione “Error 503 Service Unavailable”.

Si è trattato di un errore di configurazione nei servizi di Fastly, un’azienda che gestisce una rete importante di Content Delivery. Le Cdn (Content Delivery Network, appunto) qualificano un insieme di server collegati in Rete, che opera come un sistema distribuito, per “avvicinare” dal punto di vista geografico l’accesso da parte degli utenti ai contenuti richiesti.
Le Cdn quindi, semplificando quanto basta, raccolgono dai server originari i contenuti per replicarli e ridistribuirli su più nodi in diverse locazioni in modo che l’alto numero di richieste da parte degli utenti finali non gravi su poche unità di macchine (per esempio proprio i singoli server delle aziende che abbiamo citato), rallentando il traffico, e garantendo allo stesso tempo anche tempi di latenza ridotti dei contenuti attesi. Si tratta di un mercato secondo le stime degli analisti valutabile a livello globale oggi intorno ai 10/11 miliardi di dollari ma che è previsto crescere a doppia cifra (oltre il 20% Cagr) da qui fino al 2028 (fonte: Granview Research).

Se “la Rete delle reti” in origine avrebbe dimostrato la sua solidità proprio grazie al fatto che la replica dei contenuti, in pratica, non era sottoposta a “concentrazioni” di sorta, quanto è accaduto dimostra invece che a fronte di una serie di importanti vantaggi, legati proprio ai servizi come quello di Fastly e della sua Cdn, la disponibilità di contenuti su “network specializzati” ha anche il suo rovescio della medaglia, se a governare questo mercato sono relativamente pochi attori (tra questi possiamo citare certo Fastly, insieme ad Akamai a Cloudflare, ma anche Amazon, Microsoft Azure, Verizon.

Schema semplificato di un sistema Cdn (fonte: Fastly)

Basta che i più importanti di essi vadano in crisi, per “oscurare” almeno parzialmente la Rete e mettere in ginocchio interi sistemi. In questo caso, pare, non si è registrato nessun attacco informatico e – pur tenendo centrale il problema della cybersecurity e della cyberwar – sarebbe comunque fin troppo riduttivo pensare alla sicurezza ed alla disponibilità delle informazioni collegandole esclusivamente alle azioni del cybercrime. Davvero pare si sia trattato semplicemente di un errore di configurazione. Il risultato non cambia: i servizi non sono stati accessibili.

In questo caso, per far capire il punto, tutte le funzionalità di software defining, automazione, AI, capacità di smistare il traffico in modo intelligente, governare i picchi, sfruttando oltre 50 punti di presenza in giro per il mondo (come è nel caso di Fastly), semplicemente non hanno fatto quello che ci si aspettava facessero, o comunque sono risultati insufficienti e forse mal “governate”.

Un aggiornamento introdotto circa un mese prima, in concomitanza con una serie di variabili, ha fatto lievitare i problemi passo a passo, fino al culmine degli ultimi giorni, complice anche l’update da parte di un’azienda cliente della proprio configurazione di sistema (un aspetto che dovrebbe far riflettere ulteriormente). Ed ancora una volta la tempestività nell’identificare il problema non è stata sufficiente ad evitare il tracollo a catena di altri servizi fino al “blackout parziale”.

Non ci si dovrebbe stupire più di tanto. In piccolo, sappiamo bene, insieme ai vantaggi, quanto sia probabile che un update che risolve una serie di criticità e problemi, possa generarne altri. Banalizzando, ma neanche troppo: quante schermate blu hanno registrato gli amministratori dei server sui sistemi per anni, dopo un aggiornamento? Ed anche in questi casi la mancanza di una immagine di ripristino o l’impossibilità a procedere ad un immediato downgrade ha causato di fatto interruzioni di servizi, disagi in azienda etc.

Con un sistema alternativo, operativo subito, invece si riducono in tempi rapidi i problemi e si potrebbero automatizzare procedure di remediation. Lo stesso vale per la connettività. In quante case e aziende c’è un “piano b” nel caso in cui il proprio provider dovesse avere i servizi inaccessibili? Si sa, disporre di un’alternativa all’altezza dei sistemi principali allo stesso tempo è anche costoso. Per questo non sono tante le realtà che si affidano a più di un servizio Cdn, eppure anche in questo caso sarebbe possibile prevedere di poterlo fare. In fondo, quando si parla di resilienza, si comprende nel concetto proprio la capacità di reagire in tempi rapidi a situazioni imprevedibili preservando la business continuity.

Con un’accortezza. Non dovrebbe passare solo l’idea che il digitale, la Rete, siano intrinsecamente fragili, è vero anzi il contrario a patto di non cadere nella tentazione di snaturarli. E le “concentrazioni”, di qualsiasi tipo esse siano, vanno oggettivamente contro questa idea e vanificano parte dei vantaggi delle tecnologie già disponibili. Se si fa affidamento su un unico servizio cloud, basterà che l’azienda che lo fornisce entri in crisi, per trascinare l’intero sistema. Lo abbiamo già visto accadere e rischi evidenti ci sono, per esempio, anche quando workload strategici di tante aziende restano in mano a pochi hyperscaler.

Se un’azienda affida la propria sopravvivenza ad un unico sistema non ridondato, o più asset aziendali ad un unico fornitore (cloud, Cdn, sicurezza etc.) e non ha un’alternativa, o prospettive multiple, accadrà lo stesso. Nonostante spesso si millantino i vantaggi dei sistemi “coerenti” nessun fornitore oggi può definirsi best of breed in tutta la sua proposizione.

Per quanto riguarda il problema specifico, sono due le criticità. Nel mercato delle Cdn, abbiamo accennato, sono pochi gli attori, e tante aziende si affidano ad uno solo di essi. Si potrebbe poi discutere anche su come sono strutturate le Cdn, perché non è detto che un approccio si riveli sempre il migliore di fronte a incidenti di diverso tipo. Resta valida quindi l’idea che una scelta “multipla” preservi da conseguenze gravi, a patto di disporre delle competenze necessarie anche per sfruttare in breve tempo le alternative cui si è pensato di affidarsi.

E’ vero: la sfera digitale, la Rete, le infrastrutture cloud sono tutt’altro che semplici e comunque “davvero” imprevedibili le criticità cui ci si può esporre. Fare in modo di evitare che qualsiasi tipologia di servizio resti concentrato nelle mani di pochi, e disporre sempre di una combinazione di tecnologie, per fronteggiare le diverse situazioni dovrebbe restare il primo chiodo fisso dei Cio; la competenza per riuscire a valutarle e sceglierle, il secondo.

Condividi l'articolo:

DI TENDENZA

SCELTO DALLA REDAZIONE

ARTICOLI POPOLARI