Interrupção massiva do Microsoft 365

Interrupção massiva do Microsoft 365 causada pela alteração do IP do roteador WAN.

A Microsoft diz que a interrupção mundial do Microsoft 365 de cinco horas da semana passada foi causada por uma alteração no endereço IP do roteador que levou a problemas de encaminhamento de pacotes entre todos os outros roteadores em sua rede de longa distância (WAN).

Redmond  disse na época  que a interrupção resultou de problemas de configuração de rede DNS e WAN causados ​​por uma atualização de WAN e que os usuários em todas as regiões atendidas pela infraestrutura afetada estavam tendo problemas para acessar os serviços afetados do Microsoft 365.

O problema levou ao impacto do serviço em ondas, com pico aproximadamente a cada 30 minutos, conforme compartilhado na página de status do serviço Microsoft Azure (esta página de status também foi afetada, pois exibia intermitentemente erros “504 Gateway Time-out”).

A lista de serviços afetados pela interrupção incluiu Microsoft Teams, Exchange Online, Outlook, SharePoint Online, OneDrive for Business, PowerBi, Microsoft 365 Admin Center, Microsoft Graph, Microsoft Intune, Microsoft Defender for Cloud Apps e Microsoft Defender for Identity,

Ao todo, Redmond levou mais de cinco horas para resolver o problema, das 7h05 UTC, quando começou a investigar, até 12h43 UTC, quando o serviço foi restaurado.

Entre 07:05 UTC e 12:43 UTC em 25 de janeiro de 2023, os clientes tiveram problemas com conectividade de rede, manifestando-se como longa latência de rede e/ou tempos limite ao tentar se conectar a recursos hospedados nas regiões do Azure, bem como outros serviços da Microsoft, incluindo Microsoft 365 e Power Platform“,  disse a Microsoft  em um relatório preliminar pós-incidente publicado hoje.

“Embora a maioria das regiões e serviços tenham se recuperado às 09:00 UTC, os problemas intermitentes de perda de pacotes foram totalmente mitigados às 12:43 UTC. Esse incidente também afetou os serviços de nuvem do governo do Azure que dependiam da nuvem pública do Azure.”

A Microsoft agora também revelou que o problema foi acionado ao alterar o endereço IP de um roteador WAN usando um comando que não havia sido minuciosamente verificado e que tem comportamentos diferentes em diferentes dispositivos de rede.

Como parte de uma mudança planejada para atualizar o endereço IP em um roteador WAN, um comando dado ao roteador fez com que ele enviasse mensagens para todos os outros roteadores na WAN, o que resultou em todos eles recalculando suas tabelas de adjacência e encaminhamento”, disse. disse a Microsoft.

Durante esse processo de recálculo, os roteadores não conseguiram encaminhar corretamente os pacotes que os atravessavam.”

Enquanto a rede começou a se recuperar por conta própria a partir das 08:10 UTC, os sistemas automatizados responsáveis ​​por manter a saúde da rede de longa distância (WAN) pausaram devido ao impacto na rede. 

Esses sistemas incluíam aqueles para identificar e eliminar dispositivos insalubres, bem como sistemas de engenharia de tráfego para otimizar o fluxo de dados pela rede. 

Como resultado da pausa, alguns caminhos de rede continuaram apresentando perda de pacotes aumentada de 9:35 UTC até que os sistemas fossem reiniciados manualmente, retornando a WAN às condições operacionais ideais e concluindo o processo de recuperação às 12:43 UTC.

Após esse incidente, a Microsoft diz que agora está bloqueando a execução de comandos altamente impactantes e que também exigirá que toda a execução de comandos siga as diretrizes para alterações de configuração seguras.

Fonte: BleepingComputer

Veja também:

Sobre mindsecblog 2383 Artigos
Blog patrocinado por MindSec Segurança e Tecnologia da Informação Ltda.

Seja o primeiro a comentar

Deixe sua opinião!