DeepSeek Jailbreak revela todo o prompt do sistema

DeepSeek Jailbreak revela todo o prompt do sistema.

Agora sabemos exatamente como o DeepSeek foi projetado para funcionar e podemos até ter uma pista sobre seu escândalo altamente divulgado com a OpenAI.

Os pesquisadores enganaram o DeepSeek, a IA generativa chinesa (GenAI) que estreou no início deste mês para um turbilhão de publicidade e adoção do usuário, para revelar as instruções que definem como ele opera.

DeepSeek, a nova “it girl” da GenAI, foi treinada a um custo fracionário das ofertas existentes e, como tal, provocou alarme competitivo em todo o Vale do Silício. Isso levou a alegações de roubo de propriedade intelectual da OpenAI e à perda de bilhões em valor de mercado para a fabricante de chips de IA Nvidia. Naturalmente, os pesquisadores de segurança também começaram a examinar o DeepSeek, analisando se o que está sob o capô é benéfico ou mau, ou uma mistura de ambos. E os analistas da Wallarm acabaram de fazer progressos significativos nessa frente, fazendo o jailbreak.

No processo, eles revelaram todo o prompt do sistema, ou seja, um conjunto oculto de instruções, escritas em linguagem simples, que dita o comportamento e as limitações de um sistema de IA. Eles também podem ter induzido o DeepSeek a admitir rumores de que foi treinado usando tecnologia desenvolvida pela OpenAI.

Prompt do sistema do DeepSeek

Wallarm informou o DeepSeek sobre seu jailbreak, e o DeepSeek corrigiu o problema. Por medo de que os mesmos truques possam funcionar contra outros modelos populares de linguagem grande (LLMs), no entanto, os pesquisadores optaram por manter os detalhes técnicos em segredo.

“Definitivamente exigiu alguma codificação, mas não é como um exploit em que você envia um monte de dados binários [na forma de] vírus e depois é hackeado”, explica Ivan Novikov, CEO da Wallarm. “Essencialmente, nós meio que convencemos o modelo a responder [a solicitações com certos vieses] e, por causa disso, o modelo quebra alguns tipos de controles internos.”

Ao quebrar seus controles, os pesquisadores conseguiram extrair todo o prompt do sistema do DeepSeek, palavra por palavra. E para ter uma ideia de como seu personagem se compara a outros modelos populares, ele alimentou esse texto no GPT-4o da OpenAI e pediu que ele fizesse uma comparação. No geral, o GPT-4o afirmou ser menos restritivo e mais criativo quando se trata de conteúdo potencialmente sensível.

“O prompt da OpenAI permite um pensamento mais crítico, discussão aberta e debate com nuances, garantindo a segurança do usuário”, afirmou o chatbot, onde “o prompt do DeepSeek é provavelmente mais rígido, evita discussões controversas e enfatiza a neutralidade ao ponto da censura”.

Enquanto os pesquisadores vasculhavam seus kishkes, eles também se depararam com outra descoberta interessante. Em seu estado de jailbreak, o modelo parecia indicar que pode ter recebido conhecimento transferido de modelos OpenAI. Os pesquisadores observaram essa descoberta, mas não chegaram a rotulá-la como qualquer tipo de prova de roubo de propriedade intelectual.

“[Não estávamos] treinando ou envenenando suas respostas – isso é o que obtivemos de uma resposta muito simples após a fuga da prisão. No entanto, o fato da fuga da prisão em si definitivamente não nos dá indicação suficiente de que é a verdade”, adverte Novikov. Este assunto tem sido particularmente sensível desde 29 de janeiro, quando a OpenAI – que treinou seus modelos em dados não licenciados e protegidos por direitos autorais de toda a Web – fez a alegação acima mencionada de que a DeepSeek usou a tecnologia OpenAI para treinar seus próprios modelos sem permissão.

Entire system prompt, i.e., a hidden set of instructions, written in plain language, that dictates the behavior and limitations of an AI system

Fonte: Wallarm

Semana inesquecível do DeepSeek

O DeepSeek teve um passeio rápido desde seu lançamento mundial em 15 de janeiro. Em duas semanas no mercado, atingiu 2 milhões de downloads. Sua popularidade, capacidades e baixo custo de desenvolvimento desencadearam uma conivência no Vale do Silício e pânico em Wall Street. Isso contribuiu para uma queda de 3,4% no Nasdaq Composite em 27 de janeiro, liderada por uma queda de US$ 600 bilhões nas ações da Nvidia – o maior declínio em um único dia para qualquer empresa na história do mercado.

Então, bem na hora, devido ao seu perfil repentinamente alto, o DeepSeek sofreu uma onda de tráfego distribuído de negação de serviço (DDoS). A empresa chinesa de segurança cibernética XLab descobriu que os ataques começaram em 3 de janeiro e se originaram de milhares de endereços IP espalhados pelos EUA, Cingapura, Holanda, Alemanha e a própria China.

Um especialista anônimo disse ao Global Times quando eles começaram que “no início, os ataques eram ataques de amplificação de reflexão SSDP e NTP. Na terça-feira, um grande número de ataques de proxy HTTP foi adicionado. Então, no início desta manhã, observou-se que botnets se juntaram à briga. Isso significa que os ataques ao DeepSeek têm aumentado, com uma variedade crescente de métodos, tornando a defesa cada vez mais difícil e os desafios de segurança enfrentados pelo DeepSeek mais graves.”

Para conter a maré, a empresa suspendeu temporariamente novas contas registradas sem um número de telefone chinês.

Em 28 de janeiro, enquanto se defendia de ataques cibernéticos, a empresa lançou uma versão Pro atualizada de seu modelo de IA. No dia seguinte, os pesquisadores da Wiz descobriram um banco de dados DeepSeek expondo históricos de bate-papo, chaves secretas, segredos da interface de programação de aplicativos (API) e muito mais na Web aberta.

Em outro lugar, em 31 de janeiro, a Enkyrpt AI publicou descobertas que revelam problemas mais profundos e significativos com os resultados do DeepSeek. Após seus testes, considerou o chatbot chinês três vezes mais tendencioso que o Claud-3 Opus, quatro vezes mais tóxico que o GPT-4o e 11 vezes mais propenso a gerar resultados prejudiciais do que o O1 da OpenAI. Também é mais inclinado do que a maioria a gerar código inseguro e produzir informações perigosas relativas a agentes químicos, biológicos, radiológicos e nucleares.

No entanto, apesar de suas deficiências, “é uma maravilha da engenharia para mim, pessoalmente”, diz Sahil Agarwal, CEO da Enkrypt AI. “Acho que o fato de ser de código aberto também fala muito. Eles querem que a comunidade contribua e seja capaz de utilizar essas inovações. Acho que é por isso que muitos provedores de modelos de código fechado estão meio assustados.”

Ele acrescenta também que “existem outros modelos que são piores do que o DeepSeek. É que o DeepSeek está muito nas notícias, então tem muitos olhos nele.”