Vulnerabilidade no Google Gemini permite ataques de phishing

Vulnerabilidade no Google Gemini permite ataques de phishing com tecnologia de IA por meio de comandos ocultos de e-mail.

Uma falha crítica no Google Gemini permite que hackers usem comandos de e-mail ocultos para criar ataques de phishing com tecnologia de IA, transformando o recurso de resumo confiável em uma arma.

Uma vulnerabilidade crítica no Google Gemini para Workspace, divulgada publicamente em 2 de julho de 2025, permite que invasores transformem o assistente de IA em uma ferramenta de phishing. De acordo com um relatório da plataforma de recompensas por bugs 0DIN, os invasores podem incorporar instruções maliciosas e invisíveis no código de um e-mail.

Quando um usuário pede ao Gemini para resumir a mensagem, a IA executa o comando oculto. Em seguida, ela gera um alerta de segurança falso, projetado para roubar credenciais ou direcionar os usuários para sites maliciosos. Esse ataque de “Injeção Indireta de Prompt” funciona porque a IA processa texto oculto que os usuários não conseguem ver.

A técnica, descoberta pelo pesquisador Marco Figueroa, subverte um recurso confiável de produtividade, transformando-o em uma nova forma de engenharia social altamente convincente e perigosa. A divulgação destaca um desafio crescente na segurança da IA, onde a complexidade do LLM cria novas superfícies de ataque.

Como avisos invisíveis transformam o Gemini em cúmplices de phishing

O ataque, apelidado de “Phishing para Gemini”, utiliza a manipulação inteligente de HTML e CSS no corpo de um e-mail. Os invasores criam mensagens com texto oculto contendo diretivas maliciosas. Esse texto fica invisível ao definir o tamanho da fonte como zero ou a cor correspondente ao fundo.

Enquanto o usuário vê apenas uma mensagem inofensiva, o recurso de resumo do Gemini ingere o HTML bruto e não filtrado. A IA processa essas instruções ocultas como parte de seu prompt, anexando diligentemente o aviso de segurança inventado pelo invasor ao seu resumo preciso do texto visível.

O resultado é uma fraude completa. O usuário recebe um resumo que parece ser da Gemini, mas contém um conteúdo malicioso, como um aviso para ligar para um número de suporte falso ou visitar um site de coleta de credenciais. A confiança na marca Google é usada contra eles.

Esse método é particularmente insidioso porque não requer links ou anexos maliciosos no conteúdo visível, conforme observado por pesquisadores de segurança. Isso permite que o e-mail inicial ignore muitos scanners de segurança tradicionais que buscam sinais de alerta óbvios, tornando a detecção extremamente difícil.

Desconstruindo o ataque de “injeção indireta de prompt”

O exploit Gemini é um exemplo clássico de Injeção Indireta de Prompt (IPI), uma classe de vulnerabilidade conhecida para LLMs . O problema central é a incapacidade do modelo de distinguir entre instruções confiáveis do sistema e dados não confiáveis de terceiros, especialmente quando esses dados são projetados para serem enganosos.

Os pesquisadores da 0DIN descobriram que a eficácia do ataque é amplificada pelo “enquadramento de autoridade”. Ao envolver o comando oculto em uma tag como “, os invasores podem enganar o modelo para tratar a instrução como uma diretiva de sistema de alta prioridade, tornando-o mais propenso a obedecer.

Isso explora a natureza hierárquica de como os LLMs processam prompts, essencialmente elevando o comando do invasor acima da tarefa padrão de sumarização. É um ataque de engenharia social direcionado à própria máquina.

Esta vulnerabilidade não é totalmente nova. Ataques de IPI semelhantes ao Gemini foram relatados em 2024, levando o Google a implementar medidas de mitigação . No entanto, esta última divulgação prova que a técnica continua viável, destacando o jogo de gato e rato entre desenvolvedores de IA e pesquisadores de segurança.

Uma nova frente no crime cibernético armado com IA

O incidente não é isolado, mas sim parte de uma tendência mais ampla e acelerada de instrumentalização da IA. Os cibercriminosos estão cada vez mais utilizando a IA para aumentar a escala e a sofisticação de seus ataques. Um relatório recente da Winbuzzer detalhou como os invasores usaram a ferramenta de IA v0 da Vercel para gerar instantaneamente sites de phishing com pixels perfeitos .

Esse recurso de “phishing instantâneo” elimina a necessidade de habilidade técnica em web design, permitindo que agentes menos sofisticados criem falsificações perfeitas de páginas de login para marcas como Microsoft 365 e Okta.

Essa tendência está alinhada com as conclusões de um relatório do Google de janeiro de 2025, que detalhou como hackers patrocinados por governos usam IA para melhorar a eficiência operacional . De acordo com o Grupo de Inteligência de Ameaças do Google, “agentes de ameaças estão experimentando o Gemini para viabilizar suas operações, obtendo ganhos de produtividade, mas ainda não desenvolvendo novos recursos”.

Outras gigantes da tecnologia compartilham essas preocupações. A Microsoft alertou que “a IA começou a reduzir o nível técnico para fraudadores e criminosos cibernéticos… tornando mais fácil e barato gerar conteúdo confiável para ataques cibernéticos em um ritmo cada vez mais rápido”.

Esse sentimento é compartilhado pelo CISO da Vercel, Ty Sbano, que reconheceu que “como qualquer ferramenta poderosa, a v0 pode ser mal utilizada. Este é um desafio que abrange todo o setor e, na Vercel, estamos investindo em sistemas e parcerias para detectar abusos rapidamente”, destacando a natureza do desafio em todo o setor.

A facilidade de abuso democratiza efetivamente o crime cibernético avançado, transferindo ferramentas poderosas das mãos de estados-nação para o ecossistema criminoso mais amplo.

Mitigação e o caminho a seguir para a segurança da IA

Especialistas da 0DIN e de outros veículos de segurança delinearam uma estratégia de defesa multicamadas. Para as equipes de segurança, isso inclui a implementação de “linting” de HTML de entrada para remover ou neutralizar estilos que criam texto invisível. Reforçar os prompts do sistema para instruir a IA a ignorar conteúdo oculto é outra etapa fundamental.

Filtros de pós-processamento também podem ser aplicados para verificar a saída gerada por IA em busca de linguagem, números de telefone ou URLs suspeitos, sinalizando-os para revisão. Em última análise, o treinamento de conscientização do usuário deve evoluir para ensinar que resumos gerados por IA não são alertas de segurança oficiais do provedor.

Para provedores de LLM como o Google, as recomendações são mais fundamentais. Elas incluem uma higienização robusta de HTML no momento da ingestão de dados, antes mesmo que o conteúdo chegue ao modelo. Isso evita que instruções maliciosas sejam processadas em primeiro lugar.

Além disso, fornecer “ganchos explicativos” que permitam aos usuários ver por que um determinado trecho de texto foi gerado pode expor o prompt oculto. Separar visualmente o texto gerado por IA do material de origem citado também pode ajudar os usuários a identificar anomalias.

O relatório da 0DIN conclui comparando as injeções rápidas às macros de e-mail do passado: um recurso poderoso que, se não for protegido, torna-se uma ameaça executável. As implicações mais amplas são significativas, com o potencial de tais ataques criarem worms de IA autorreplicantes que se espalham de forma autônoma.

À medida que a IA se integra cada vez mais às nossas vidas digitais, a linha entre dados e instruções continuará a se confundir. Como Kent Walker, Diretor Jurídico do Google, alertou : “Os Estados Unidos detêm a liderança na corrida da IA — mas nossa vantagem pode não durar”. Garantir essa nova fronteira exige uma mudança fundamental na forma como projetamos e confiamos nos sistemas de IA.