Il 19 luglio un aggiornamento di CrowdStrike ha bloccato i PC Windows, provocando ritardi nei servizi, cancellazioni e chiusure in aeroporti, problemi in ospedali, organizzazioni pubbliche locali e governative e aziende di quasi tutto l’occidente.
I sistemi informatici sono andati in tilt a causa di un aggiornamento della soluzione di sicurezza informatica Falcon di CrowdStrike, nei sistemi Windows delle aziende che utilizzano questa piattaforma di cybersecurity. Microsoft, che era stata accusata erroneamente da molti, nei giorni scorsi, in realtà non ha alcuna responsabilità sull’accaduto.
Scopriamo cosa è successo dal comunicato della stessa CrowdStrike
“Venerdì 19 luglio 2024 alle 04:09 UTC, come parte delle normali operazioni, CrowdStrike ha rilasciato un aggiornamento della configurazione dei contenuti per il sensore Windows per raccogliere dati di telemetria su possibili nuove tecniche di minaccia.
Questi aggiornamenti sono una parte regolare dei meccanismi di protezione dinamica della piattaforma Falcon. Il problematico aggiornamento della configurazione Rapid Response Content ha causato un crash del sistema Windows. I sistemi interessati includono host Windows che eseguono la versione 7.11 e successive del sensore che erano online tra venerdì 19 luglio 2024 04:09 UTC e venerdì 19 luglio 2024 05:27 UTC e hanno ricevuto l’aggiornamento. Gli host Mac e Linux non sono stati interessati.
Quale è stato l’impatto del crash e quali i settori più colpiti?
Microsoft ha dichiarato che sono stati colpiti circa 8,5 milioni di computer Windows (di aziende e non di consumatori), che corrispondono a meno dell’1% della sua presenza globale. Questo numero è stato però sufficiente per mettere in crisi le attività di importanti settori, soprattutto quelli che hanno l’intera catena del valore o una parte di essa virtuale quali la sanità, i media, i trasporti, la finanza e la ristorazione.
In particolare i trasporti aerei, che hanno una parte della catena del valore interamente digitale (procedure di accettazione del passeggero, procedure di assegnazione delle slot di decollo e rotta degli aeromobili, nonché tutte le procedure preventive di controllo e gestione delle manutenzioni e delle operazioni di terra) non potevano che essere bloccati, mentre il settore bancario è riuscito a gestire il problema senza grossi disservizi, grazie agli obblighi imposti dalle direttive emanate dalle banche centrali, per la business continuity e le comunicazioni di incidente.
L’impatto tecnico: il crash nel kernel
Il bug di CrowdStrike è stato così devastante perché il suo software di sicurezza Falcon viene eseguito a livello di kernel, (programma situato al centro del Sistema Operativo che ha generalmente un controllo completo dell’intero sistema e fornisce un accesso sicuro e controllato dell’hardware ai processi in esecuzione sul computer) quindi, quando l’aggiornamento difettoso di Falcon ne ha causato il blocco, ha messo fuori uso anche il Sistema Operativo di Windows. A quel punto è comparsa la schermata blu della morte. Anche i servizi Microsoft 365 e i servizi cloud di Azure hanno subito interruzioni.
Poiché Apple nel 2020 ha comunicato agli sviluppatori che non avrebbe più concesso l’accesso a livello di kernel al suo sistema operativo MacOS, un problema del genere non può verificarsi. Poter accedere al kernel dà vantaggi agli sviluppatori, ma espone anche a rischi come questo.
Perché allora Microsoft concede l’accesso al kernel agli sviluppatori?
Microsoft ha dichiarato che non può legalmente proteggere il suo Sistema Operativo nello stesso modo in cui lo fa Apple, a causa di un accordo raggiunto con la Commissione Europea in seguito a un reclamo. Nel 2009, Microsoft ha deciso quindi di concedere ai produttori di software di sicurezza lo stesso livello di accesso a Windows che ottiene Microsoft stessa.
Quale lezione imparare da questo evento?
Come sottolinea Guillermo Gómez Santamaría, Vice Presidente di WatchGuard, leader delle soluzioni di cybersecurity “I prodotti per la sicurezza degli endpoint sono strettamente intrecciati con il sistema operativo (OS) e quindi richiedono processi di qualità più forti. L’unicità di questi prodotti e i requisiti di accesso privilegiato al sistema operativo rendono il processo di sviluppo e garanzia della qualità (QA) più difficile rispetto ad altri tipi di sviluppo software. A causa di questo tipo di software in esecuzione su centinaia di milioni di endpoint e in contesti estremamente diversi, non possiamo testare tutti gli stessi ambienti in cui il prodotto finirà per essere eseguito. Per risolvere questo problema, i team tecnici di WatchGuard hanno implementato un processo che, pur mantenendo il ritmo dei rilasci, limita la possibilità di interrompere le normali operazioni”.
Il processo di rilascio di un aggiornamento segue normalmente diversi steps operativi per correggere eventuali problemi e ridurre possibili impatti. Le best practice in questo ambito richiedono ad esempio:
- Verifica del rilascio in ambiente di test.
- Passaggio in produzione in un ambiente controllato.
- Piano di rilascio sui vari clienti (suddivisi in tenant) in modo graduale e schedulato.
- Monitoraggio continuativo di tutti i task del processo per poter sospendere il flusso a fronte di evidenze di problemi.
Quanto accaduto il 19 luglio sembra aver bypassato un normale processo di rilascio e approvazione. Non si conoscono ancora le motivazioni che hanno spinto Crowdstrike a eseguire l’attività senza un processo di rilascio progressivo e programmato per ridurre il rischio di blocchi o incidenti, è possibile che ci sia stato un errore umano o forse un rilascio in emergenza per un problema più esteso o una criticità sul fronte della cyber security.
Conclusioni
La resilienza informatica e operativa, ossia la capacità di un’azienda di continuare a operare anche a fronte di un incidente potenzialmente devastante, non è più un tema legato alle sole big tech. Le aziende devono strutturarsi e organizzarsi per definire scenari di continuità operativa e ripristino da scenari di disastro. Occorre quindi far evolvere i piani di Business Continuity e Disaster recovery in quanto la complessità tecnologica, l’aumento degli attacchi cyber e l’utilizzo di tecnologie sempre più avanzate aumenta il rischio di possibili crash.
Concludiamo citando ancora Guillermo Gómez Santamaría: “Sono nel settore da più di venticinque anni e conosco il dolore causato da un fallimento, e non mi piace vedere questo accadere ad altre aziende. Quando ciò accade, il nostro impulso è quello di raddoppiare gli sforzi per verificare di proteggere i nostri partner e clienti dalle minacce reali e di rimanere vigili nel rivalutare costantemente i nostri processi interni”.
E’ questa la filosofia che ci ha spinto a scegliere WatchGuard, oltre 10 anni fa, come partner per le soluzioni di sicurezza e resilienza informatica. Grazie al nostro impegno costante e l’utilizzo di soluzioni tecnologiche avanzate, siamo in grado di proteggere il tuo business.
Articolo a cura di
Pier Ogliari
CTO – G&B Group