Crowdstrike divulga revisão preliminar do problema

Crowdstrike divulga revisão preliminar do problema. Revisão preliminar pós-incidente (PIR): atualização da configuração de conteúdo impactando o sensor Falcon e o sistema operacional Windows (BSOD)

Esta é a Revisão Pós-Incidente (PIR) preliminar da CrowdStrike divulgada quarta feira, em 24 de julho. Detalharemos nossa investigação completa na próxima Análise de Causa Raiz que será lançada publicamente. Ao longo desta PIR, usamos terminologia generalizada para descrever a plataforma Falcon para melhor legibilidade. A terminologia em outra documentação pode ser mais específica e técnica.

O que aconteceu?

Na sexta-feira, 19 de julho de 2024 às 04:09 UTC, como parte das operações regulares, a CrowdStrike lançou uma atualização de configuração de conteúdo para o sensor do Windows para coletar telemetria sobre possíveis novas técnicas de ameaça.

Essas atualizações são uma parte regular dos mecanismos de proteção dinâmica da plataforma Falcon. A atualização problemática da configuração do Rapid Response Content resultou em uma falha do sistema Windows.

Os sistemas no escopo incluem hosts Windows executando a versão 7.11 do sensor e superior que estavam online entre sexta-feira, 19 de julho de 2024 04:09 UTC e sexta-feira, 19 de julho de 2024 05:27 UTC e receberam a atualização. Os hosts Mac e Linux não foram afetados.

O defeito na atualização de conteúdo foi revertido na sexta-feira, 19 de julho de 2024, às 05:27 UTC. Os sistemas que ficaram online após esse horário, ou que não se conectaram durante a janela, não foram afetados.

O que deu errado e por quê?

A CrowdStrike entrega atualizações de configuração de conteúdo de segurança para nossos sensores de duas maneiras: Conteúdo do sensor que é enviado diretamente com nosso sensor e Conteúdo de resposta rápida que é projetado para responder ao cenário de ameaças em mudança em velocidade operacional.

O problema na sexta-feira envolveu uma atualização de conteúdo de resposta rápida com um erro não detectado.

Sensor Content

O Sensor Content fornece uma ampla gama de recursos para auxiliar na resposta do adversário. Ele sempre faz parte de uma versão do sensor e não é atualizado dinamicamente da nuvem. O Sensor Content inclui modelos de IA e aprendizado de máquina no sensor e compreende código escrito expressamente para fornecer recursos reutilizáveis de longo prazo para os engenheiros de detecção de ameaças da CrowdStrike.

Esses recursos incluem Template Types, que têm campos predefinidos para engenheiros de detecção de ameaças aproveitarem no Rapid Response Content. Os Template Types são expressos em código. Todo o Sensor Content, incluindo Template Types, passa por um extenso processo de QA, que inclui testes automatizados, testes manuais, validação e etapas de implementação.

O processo de liberação do sensor começa com testes automatizados, antes e depois da fusão com nossa base de código. Isso inclui testes unitários, testes de integração, testes de desempenho e testes de estresse. Isso culmina em um processo de implementação de sensor em estágios que começa com dogfooding internamente na CrowdStrike, seguido por adotantes iniciais. Em seguida, ele é disponibilizado de forma geral aos clientes. Os clientes têm a opção de selecionar quais partes de sua frota devem instalar a versão mais recente do sensor (‘N’), ou uma versão mais antiga (‘N-1’) ou duas versões mais antigas (‘N-2’) por meio das Políticas de atualização do sensor.

O evento de sexta-feira, 19 de julho de 2024, não foi acionado pelo Sensor Content, que só é entregue com o lançamento de um sensor Falcon atualizado. Os clientes têm controle total sobre a implantação do sensor — que inclui Sensor Content e Template Types.

Conteúdo de Resposta Rápida

O Conteúdo de Resposta Rápida é usado para executar uma variedade de operações de correspondência de padrões comportamentais no sensor usando um mecanismo altamente otimizado. O Conteúdo de Resposta Rápida é uma representação de campos e valores, com filtragem associada. Este Conteúdo de Resposta Rápida é armazenado em um arquivo binário proprietário que contém dados de configuração. Não é código ou um driver de kernel.

O Conteúdo de Resposta Rápida é entregue como “Instâncias de Modelo”, que são instanciações de um determinado Tipo de Modelo. Cada Instância de Modelo mapeia comportamentos específicos para o sensor observar, detectar ou prevenir. As Instâncias de Modelo têm um conjunto de campos que podem ser configurados para corresponder ao comportamento desejado.

Em outras palavras, os Tipos de Modelo representam uma capacidade de sensor que permite nova telemetria e detecção, e seu comportamento de tempo de execução é configurado dinamicamente pela Instância de Modelo (ou seja, Conteúdo de Resposta Rápida).

O Rapid Response Content fornece visibilidade e detecções no sensor sem exigir alterações no código do sensor. Esse recurso é usado por engenheiros de detecção de ameaças para reunir telemetria, identificar indicadores de comportamento do adversário e executar detecções e prevenções. O Rapid Response Content é uma heurística comportamental, separada e distinta dos recursos de prevenção e detecção de IA no sensor do CrowdStrike.

Teste e Implantação de Conteúdo de Resposta Rápida

O Conteúdo de Resposta Rápida é entregue como atualizações de configuração de conteúdo para o sensor Falcon. Existem três sistemas principais: o Sistema de Configuração de Conteúdo, o Interpretador de Conteúdo e o Mecanismo de Detecção de Sensor.

O Content Configuration System faz parte da plataforma Falcon na nuvem, enquanto o Content Interpreter e o Sensor Detection Engine são componentes do sensor Falcon. O Content Configuration System é usado para criar Template Instances, que são validados e implantados no sensor por meio de um mecanismo chamado Channel Files. O sensor armazena e atualiza seus dados de configuração de conteúdo por meio de Channel Files, que são gravados no disco no host.

O Content Interpreter no sensor lê o Channel File e interpreta o Rapid Response Content, permitindo que o Sensor Detection Engine observe, detecte ou impeça atividades maliciosas, dependendo da configuração de política do cliente. O Content Interpreter é projetado para lidar graciosamente com exceções de conteúdo potencialmente problemático.

Os Tipos de Modelo recém-lançados são testados quanto ao estresse em muitos aspectos, como utilização de recursos, impacto no desempenho do sistema e volume de eventos. Para cada Tipo de Modelo, uma Instância de Modelo específica é usada para testar o estresse do Tipo de Modelo, comparando com qualquer valor possível dos campos de dados associados para identificar interações adversas do sistema.

As instâncias de modelo são criadas e configuradas por meio do uso do Sistema de configuração de conteúdo, que inclui o Validador de conteúdo que executa verificações de validação no conteúdo antes de sua publicação.

Cronograma de eventos: Teste e implementação do tipo de modelo InterProcessCommunication (IPC)

Lançamento do conteúdo do sensor: Em 28 de fevereiro de 2024, o sensor 7.11 foi disponibilizado para os clientes, introduzindo um novo tipo de modelo IPC para detectar novas técnicas de ataque que abusam de pipes nomeados. Este lançamento seguiu todos os procedimentos de teste de conteúdo do sensor descritos acima na seção Conteúdo do sensor.

Teste de estresse do tipo de modelo: em 05 de março de 2024, um teste de estresse do tipo de modelo do IPC foi executado em nosso ambiente de preparação, que consiste em uma variedade de sistemas operacionais e cargas de trabalho. O tipo de modelo do IPC passou no teste de estresse e foi validado para uso.

Lançamento de Instância de Modelo via Arquivo de Canal 291 : Em 05 de março de 2024, após o teste de estresse bem-sucedido, uma Instância de Modelo IPC foi lançada para produção como parte de uma atualização de configuração de conteúdo. Posteriormente, três Instâncias de Modelo IPC adicionais foram implantadas entre 8 de abril de 2024 e 24 de abril de 2024. Essas Instâncias de Modelo tiveram o desempenho esperado na produção.

O que aconteceu em 19 de julho de 2024?

Em 19 de julho de 2024, duas IPC Template Instances adicionais foram implantadas. Devido a um bug no Content Validator, uma das duas Template Instances passou na validação, apesar de conter dados de conteúdo problemáticos.

Com base nos testes realizados antes da implantação inicial do Tipo de Modelo (em 5 de março de 2024), na confiança nas verificações realizadas no Validador de Conteúdo e nas implantações anteriores bem-sucedidas da Instância de Modelo IPC, essas instâncias foram implantadas na produção.

Quando recebido pelo sensor e carregado no Content Interpreter, o conteúdo problemático no Channel File 291 resultou em uma leitura de memória fora dos limites, disparando uma exceção. Essa exceção inesperada não pôde ser tratada adequadamente, resultando em uma falha do sistema operacional Windows (BSOD).

Como podemos evitar que isso aconteça novamente?

Resiliência e Testes de Software

Melhore os testes de conteúdo de resposta rápida usando tipos de teste como:
- Teste de desenvolvedor local
- Atualização de conteúdo e teste de reversão
- Teste de estresse, fuzzing e injeção de falhas
- Teste de estabilidade
- Teste de interface de conteúdo
Adicione verificações de validação adicionais ao Content Validator para Rapid Response Content. Uma nova verificação está em andamento para proteger contra a implantação futura desse tipo de conteúdo problemático.
Melhore o tratamento de erros existente no Content Interpreter.

Implantação de conteúdo de resposta rápida

Implemente uma estratégia de implantação escalonada para Conteúdo de Resposta Rápida, na qual as atualizações são implantadas gradualmente em porções maiores da base de sensores, começando com uma implantação canário.
Melhore o monitoramento do desempenho do sensor e do sistema, coletando feedback durante a implantação do Conteúdo de Resposta Rápida para orientar uma implementação em fases.
Ofereça aos clientes maior controle sobre a entrega de atualizações de Conteúdo de Resposta Rápida, permitindo uma seleção granular de quando e onde essas atualizações são implantadas.
Forneça detalhes de atualização de conteúdo por meio de notas de versão, que os clientes podem assinar.

Validação de Terceiros

Realize diversas revisões independentes de códigos de segurança de terceiros.
Realizar revisões independentes de processos de qualidade de ponta a ponta, do desenvolvimento até a implantação.

Além desta revisão preliminar pós-incidente, a CrowdStrike está comprometida em divulgar publicamente a análise completa da causa raiz assim que a investigação for concluída.