Cloudflare perdeu 55% dos logs enviados aos clientes por 3,5 horas

Cloudflare perdeu 55% dos logs enviados aos clientes por 3,5 horas.

Empresa anunciou que perdeu 55% de todos os logs enviados aos clientes em um período de 3,5 horas devido a um bug no serviço de coleta de logs em 14 de novembro de 2024.

A Cloudflare oferece um extenso serviço de registro aos clientes que permite monitorar o tráfego em seu site e filtrar esse tráfego com base em determinados critérios.

Esses logs permitem que os clientes analisem o tráfego para seus hosts para monitorar e investigar incidentes de segurança, solução de problemas, ataques DDoS, padrões de tráfego ou realizar otimizações de site.

Para clientes que desejam analisar esses logs usando ferramentas externas, a Cloudflare oferece um serviço “logpush” que coleta logs de seus vários endpoints e os envia para serviços de armazenamento externos, como Amazon S3, Elastic, Microsoft Azure, Splunk, Google Cloud Storage, etc.

Esses logs são gerados em grande escala, pois a Cloudflare processa mais de 50 trilhões de logs de eventos de clientes diariamente, dos quais cerca de 4,5 trilhões de logs são enviados aos clientes.

Uma cascata de falhas à prova de falhas

A Cloudflare diz que um bug no serviço logpush fez com que os logs dos clientes fossem perdidos por 3,5 horas em 14 de novembro.

“Em 14 de novembro de 2024, a Cloudflare sofreu um incidente que afetou a maioria dos clientes que usavam o Cloudflare Logs“, explica a Cloudflare.

“Durante as cerca de 3,5 horas em que esses serviços foram afetados, cerca de 55% dos logs que normalmente enviamos aos clientes não foram enviados e foram perdidos.”

O incidente foi causado por uma configuração incorreta no Logfwdr, um componente-chave no pipeline de registro da Cloudflare responsável por encaminhar logs de eventos da rede da empresa para sistemas downstream.

Especificamente, uma atualização de configuração introduziu um bug que emitia uma ‘configuração em branco’, informando erroneamente ao sistema que não havia clientes cujos logs estavam configurados para serem encaminhados e, portanto, os logs foram descartados.

O Logfwdr foi projetado com uma proteção contra falhas que o padrão é encaminhar todos os logs em caso de configurações “em branco” ou inválidas para evitar a perda de dados.

No entanto, esse sistema à prova de falhas causou um grande aumento no volume de logs sendo processados ao tentar encaminhar logs para todos os clientes.

Ele sobrecarregou o Buftee, um sistema de buffer distribuído que retém logs temporariamente quando os sistemas downstream não podem processá-los em tempo real, que foi chamado para lidar com 40 vezes mais logs do que sua capacidade provisionada.

Pico de volume registrado em Buftee
Pico de volume registrado em Buftee durante o incidente
Fonte: Cloudflare

O Buftee apresenta seu próprio conjunto de proteções de sobrecarga de buffer, como limites de recursos e limitação, mas eles falharam devido à configuração inadequada e à falta de testes anteriores.

Como resultado, em apenas cinco minutos após a configuração incorreta no Logfwdr, o Buftee foi desligado e exigiu uma reinicialização completa, atrasando ainda mais a recuperação e resultando na perda de ainda mais logs.

Medidas mais fortes

Em resposta ao incidente, a Cloudflare implementou várias medidas para evitar ocorrências futuras.

Isso inclui a introdução de um sistema dedicado de detecção e alerta de configuração incorreta para notificar as equipes imediatamente quando anomalias nas configurações de encaminhamento de log forem detectadas.

Além disso, a Cloudflare diz que agora configurou corretamente o Buftee para evitar que picos nos volumes de log causem interrupções completas do sistema.

Por fim, a empresa planeja realizar rotineiramente testes de sobrecarga simulando picos inesperados nos volumes de dados, garantindo que todas as etapas dos mecanismos à prova de falhas sejam robustas o suficiente para lidar com esses eventos.

Fonte BleepingComputer

 

Veja também:

About mindsecblog 2825 Articles
Blog patrocinado por MindSec Segurança e Tecnologia da Informação Ltda.

Be the first to comment

Deixe sua opinião!