Zakir Durumeric explica o bug de software que paralisou milhões de computadores e como podemos nos tornar mais resilientes a futuras interrupções.

Imagens Getty
Em 19 de julho, milhões de usuários do Windows encontraram a temida “tela azul da morte”. Um bug em uma parte crítica do software de segurança cibernética, chamado CrowdStrike, estava causando o travamento do sistema operacional. Para algumas pessoas e empresas, o problema é contínuo, e os custos são projetados para estar na casa dos bilhões.
Há pouco que podemos fazer para nos proteger contra bugs no software que estamos usando, diz Zakir Durumeric , que é professor assistente de ciência da computação. “Em geral, porém, uma das melhores coisas que as pessoas podem fazer para se proteger contra ataques é atualizar regularmente seus computadores e telefones.” Ele compartilha suas percepções sobre a interrupção.
1. Em termos simples, o que aconteceu?
A interrupção que começou em 19 de julho foi causada por uma atualização malformada que foi enviada para um pedaço de software de segurança chamado “CrowdStrike Falcon”. Embora a CrowdStrike possa não ser um nome familiar, é uma grande empresa de segurança empresarial que cria o que chamamos de software Endpoint Detection and Response (EDR) . O EDR é o sucessor empresarial do antivírus – é um software que roda continuamente em todas as estações de trabalho dentro de uma empresa e monitora comportamentos anormais que podem indicar que o computador foi infectado (por exemplo, com ransomware). O EDR é onipresente e é considerado por muitas pessoas no setor de segurança como uma das melhores ferramentas para proteger os computadores dos usuários contra ataques.
A atualização que foi enviada ao software CrowdStrike na sexta-feira estava malformada, o que fez com que o software travasse toda vez que ele iniciava e tentava analisar a atualização. Agora, normalmente, quando um aplicativo como o Google Chrome ou o Microsoft Word trava, apenas aquele aplicativo trava. No entanto, muitos softwares de segurança – incluindo o CrowdStrike Falcon – são especiais nesse aspecto. Como o CrowdStrike precisa detectar atividades maliciosas em todo o computador, ele roda como parte do sistema operacional Windows em vez de em cima dele. Infelizmente, isso também significava que quando ele travava, fazia com que o sistema operacional Windows também travasse.

Zakir Durumeric | Cortesia de Zakir Durumeric
2. Por que o impacto foi tão significativo – e por que está demorando tanto para ser resolvido?
A correção para fazer o CrowdStrike e o Windows rodarem novamente é simples – basta excluir o arquivo malformado que foi enviado como parte da atualização. Infelizmente, no entanto, como o sistema operacional Windows trava toda vez que inicializa, isso não pode ser feito remotamente ou de forma automatizada. Em vez disso, a equipe de TI precisa inicializar manualmente as máquinas Windows em um “Modo de Segurança” de solução de problemas para excluir a atualização problemática. Para complicar ainda mais as correções, quando os computadores usam o BitLocker Full Disk Encryption, que é altamente recomendado, a equipe de TI também precisa das chaves de recuperação do BitLocker associadas para aplicar a correção, que algumas organizações estão percebendo que não têm registradas ou acessíveis.
3. O que aconteceu com as viagens aéreas?
Muitas organizações usam o software CrowdStrike EDR para proteger suas estações de trabalho e servidores Windows, incluindo companhias aéreas. Como resultado, os computadores de algumas companhias aéreas, principalmente a Delta, não inicializaram mais a partir de sexta-feira. A Delta observou que mais da metade de seus sistemas rodam Windows e que seu sistema de programação de tripulação, em particular, foi fortemente impactado. Ainda não sabemos por que a Delta levou mais tempo do que outras organizações para colocar esses sistemas online novamente; o Departamento de Transporte dos EUA abriu uma investigação sobre a Delta sobre o problema.
4. Há alguma lição que podemos aprender com a interrupção?
Este incidente serve como um lembrete gritante de quão dependentes nos tornamos de sistemas de software incrivelmente complexos e do grande número de dependências que cada sistema tem. Embora estejamos melhorando no desenvolvimento de software como um campo, ainda estamos muito longe de sermos capazes de garantir que sistemas complexos não terão bugs como este. Os provedores de infraestrutura crítica precisam pensar sobre como estão arquitetando seus sistemas para serem resilientes contra falhas de sistema e como eles vão se recuperar quando um sistema falhar, porque esta, sem dúvida, não será a última vez que veremos um bug como este.