Defesa em velocidade de IA

Defesa em velocidade de IA: novo sistema de segurança agêntica multimodelo da Microsoft lidera o principal benchmark do setor

A Microsoft anunciou um grande avanço na defesa cibernética baseada em IA: nosso novo sistema de segurança agêntica ajudou pesquisadores a encontrar 16 novas vulnerabilidades na cadeia de redes e autenticação do Windows — incluindo quatro falhas críticas na execução remota de código em componentes como a cadeia TCP/IP do kernel do Windows e o serviço IKEv2. Eles usaram o novo sistema de varredura agêntica multimodelo da Microsoft Security (codinome MDASH), desenvolvido pela equipe de Segurança de Código Autônomo da Microsoft. Diferente das abordagens de modelo único, a plataforma orquestra mais de 100 agentes de IA especializados em um conjunto de modelos de fronteira e destilados para descobrir, debater e comprovar bugs exploráveis de ponta a ponta.

Os resultados falam por si só: 21 das 21 vulnerabilidades plantadas encontradas sem nenhum falso positivo em um piloto de testes particular; 96% de recall contra cinco anos de casos confirmados pelo Microsoft Security Response Center (MSRC) em clfs.sys e 100% em tcpip.sys; e uma pontuação líder do setor com 88,45% no benchmark público CyberGym de 1.507 vulnerabilidades do mundo real — a maior pontuação no ranking, cerca de cinco pontos à frente da próxima entrada.

A implicação estratégica é clara: a descoberta de vulnerabilidades com IA passou da fase de pesquisa por curiosidade para uma etapa de produção de defesa em escala empresarial, e a vantagem duradoura está no sistema agêntico em torno do modelo, e não em qualquer modelo isolado. O nome de código MDASH está sendo usado por equipes de engenharia de segurança da Microsoft e testado por um pequeno grupo de clientes como parte de uma prévia privada limitada.

Este post explica como funciona o codinome MDASH, o que lançamos hoje, o que aprendemos ao longo do caminho e como você pode se inscrever para a prévia privada.

Descoberta de vulnerabilidades impulsionada por IA em hiperescala

A  equipe Microsoft Autonomous Code Security (ACS) foi formada para levar a pesquisa de vulnerabilidades alimentada por IA de uma curiosidade para a engenharia de produção em escala empresarial. Vários membros dessa equipe vieram da Team Atlanta para a Microsoft, a equipe que venceu o Desafio Cibernético de IA da DARPA de 20 milhões de dólares ao construir um sistema autônomo de raciocínio cibernético que encontrou e corrigiu bugs reais em projetos complexos de código aberto. As lições desse trabalho, especialmente o nível de engenharia necessário para fazer os modelos de linguagem de ponta realizarem auditorias de segurança em nível profissional, são o que nosso novo harness de varredura agentica multimodelo (codinome MDASH) foi construído.

A base de código da Microsoft é desafiadora para auditoria de segurança por alguns motivos:

  • Superfície proprietária massiva. Windows, Hyper-V, Azure e os ecossistemas de drivers de dispositivo e serviços ao redor deles são bases de código privadas da Microsoft. Ou seja, não fazem parte do corpus de treinamento de nenhum modelo de linguagem comum, e são realmente difíceis de raciocinar: convenções de chamada de kernel, IRP e invariantes de bloqueio, limites de confiança IPC e idioms internos de componentes não cedem à correspondência de padrões. Nessa superfície, um modelo precisa realmente raciocinar. 
  • DevSecOps em escala. Cada achado tem um dono real, um processo de triagem e um Patch Tuesday para se basear. Não há um ”arquivos esquecidos” com descobertas especulativas; Se uma ferramenta gera ruído, isso é problema de todos. 
  • Alvos de alto valor. Windows, Hyper-V, Xbox e Azure atendem bilhões de usuários. O retorno por encontrar um único bug difícil é incomumente alto — assim como o custo de um falso positivo em um componente de primeiro nível. 

As conclusões deste post são resultado de uma colaboração próxima entre a ACS o Microsoft Windows Attack Research and Protection (WARP). A WARP domina a parte profunda e difícil da pesquisa ofensiva do Windows; A ACS traz o pipeline de descoberta e validação impulsionado por IA. Juntas, as equipes colaboraram para construir um framework maduro.

Codinome: MDASH — o novo sistema de varredura agêntica multimodelo de segurança da Microsoft Security

O codinome MDASH é, em sua essência, um sistema agêntico de descoberta e remediação de vulnerabilidades. O modelo é uma entrada. O sistema é o produto.

Um modelo mental útil é pensar nele como um pipeline estruturado que pega uma base de código e emite  descobertas validadas e comprovadas:

  • Estágio de preparação: Ingere o alvo de origem, constrói índices conscientes da linguagem e então desenha a superfície de ataque e os modelos de ameaça analisando os commits anteriores.
  • Estágio de varredura: Roda agentes auditores especializados sobre caminhos de código candidato, emitindo achados candidatos com hipóteses e evidências.
  • Etapa de validação: Executa um segundo conjunto de agentes — os debatedores — que argumentam a favor e contra a alcançabilidade e explorabilidade de cada achado.
  • Estágio de desduplicação: Colapsa achados semanticamente equivalentes (por exemplo, agrupamento baseado em patches).
  • Estágio de prova: Constrói e executa entradas de disparo onde a classe bug admite. A fase de prova valida dinamicamente a pré-condição e formula as entradas que acionam bugs para provar a existência da vulnerabilidade (por exemplo, ASan em C/C++). 

Três propriedades fazem isso funcionar na prática:

  1. Um conjunto de modelos diversos que são efetivamente gerenciados pelo codinome MDASH. Nenhum modelo único é o melhor em todas as etapas. O sistema de varredura agêntica multimodelo executa um painel configurável de modelos. Isso inclui modelos SOTA (state-of-the-art) como argumento pesado, modelos destilados como debatedores econômicos para passagens de alto volume, e um segundo modelo SOTA separado como contraponto independente. O desacordo entre modelos é, em si, um sinal: quando um auditor sinaliza algo como suspeito e o debatedor não consegue refutar, a credibilidade posterior dessa conclusão aumenta.
  2. Agentes especializados. Um auditor não raciocina como um debatedor, que não raciocina como um comprovador. Cada etapa do pipeline tem seu próprio papel, regime de prompt, ferramentas e critérios de parada. Não esperamos que um único prompt faça tudo; Não esperamos que um agente reconheça, valide e explore um bug em uma única passagem. O codenome MDASH possui mais de 100 agentes especializados, construídos por meio de pesquisas profundas com vulnerabilidades e exposições comuns (CVEs) anteriores e seus patches, trabalhando de forma independente para descobrir os bugs, e seus resultados de auditoria serão reunidos como um único relatório.
  3. Pipeline de ponta a ponta com plugins extensíveis. O pipeline é opinativo, mas não está fechado. Plugins permitem que especialistas em domínio injetem contexto que os modelos de fundação não conseguem ver sozinhos — convenções de chamada de kernel, regras IRP, invariantes de bloqueio, limites de confiança IPC, máquinas de estados de codecs. O plugin de prova CLFS que descrevemos abaixo é um desses exemplos: um plugin de domínio que sabe como construir um arquivo de log de disparo dado um achado candidato. Por exemplo, o sistema de razonamento estendido da equipe Windows com banco de dados personalizado de análise de código, ou banco de dados CodeQL, também pode ser aproveitado. 

A vantagem dessa arquitetura é a portabilidade entre gerações de modelos. Os direcionamento, validação, deduplicação e prova do pipeline são agnósticos ao modelo por construção, o que permite que o sistema obtenha o melhor do que qualquer modelo tem a oferecer. Quando um novo modelo aterrissa, testá-lo em A/B contra o painel atual é uma inversão de configuração. Quando um modelo melhora, o investimento prévio do cliente — como arquivos de escopo, plugins, configurações, calibrações — se mantém, permitindo que os clientes naveguem na ponta do valor de segurança.  

Uso do codinome MDASH para pesquisa em segurança

Para avaliar as capacidades de detecção de bugs do sistema de varredura agêntica multimodelo, é necessário primeiro se basear em um código que nunca foi visto por um modelo. Isso elimina a possibilidade de que um modelo “tenha aprendido as respostas do teste.” Escaneamos o StorageDrive, um driver de dispositivo de exemplo usado em entrevistas da Microsoft para pesquisadores de segurança ofensiva. O driver contém 21 vulnerabilidades deliberadamente injetadas, incluindo uso pós-liberação (UAFs) do kernel, problemas de tratamento de inteiros, lacunas na validação do IOCTL e erros de travamento. Como o StorageDrive é uma base de código privada que nunca foi publicada, podemos assumir com segurança que não foi incluída nos dados de treinamento dos modelos de linguagem modernos.

Rodamos o framework no StorageDrive usando sua configuração padrão. Os resultados foram impressionantes: todas as 21 vulnerabilidades de verdade no terreno foram corretamente identificadas, sem falsos positivos nesta execução.

Esse teste simples mostra que as capacidades de raciocínio e descoberta de vulnerabilidades do MDASH com codinome podem se aproximar de pesquisadores ofensivos profissionais.

Em seguida, usamos o framework para realizar auditorias de segurança da parte mais crítica do Windows, ou seja, a cadeia de rede TCP/IP.

Por , vice-presidente de Segurança Agêntica na Microsoft
fonte: Microsoft

 

Clique e fale com representante oficial Netwrix

Veja também:

About mindsecblog 3558 Articles
Blog patrocinado por MindSec Segurança e Tecnologia da Informação Ltda.

Be the first to comment

Deixe sua opinião!