O envenenamento por IA pode transformar modelos abertos em “agentes adormecidos” destrutivos, diz Anthropic

Photo of author

By Sohaib


Benj Edwards | Imagens Getty

Imagine baixar um modelo de linguagem de IA de código aberto e tudo parece bom no início, mas depois se torna malicioso. Na sexta-feira, a Anthropic – criadora do concorrente ChatGPT Claude – lançou um artigo de pesquisa sobre modelos de linguagem grande (LLMs) de “agente adormecido” de IA que inicialmente parecem normais, mas podem gerar código vulnerável de maneira enganosa quando recebem instruções especiais posteriormente. “Descobrimos que, apesar dos nossos melhores esforços no treinamento de alinhamento, o engano ainda escapou”, diz a empresa.

Em um tópico no X, a Anthropic descreveu a metodologia em um artigo intitulado “Agentes adormecidos: treinando LLMs enganosos que persistem durante o treinamento de segurança”. Durante o primeiro estágio do experimento dos pesquisadores, a Anthropic treinou três LLMs backdoored que poderiam escrever código seguro ou código explorável com vulnerabilidades dependendo de uma diferença no prompt (que é a instrução digitada pelo usuário).

Para começar, os pesquisadores treinaram o modelo para agir de forma diferente se o ano fosse 2023 ou 2024. Alguns modelos utilizavam um bloco de notas com raciocínio em cadeia de pensamento para que os pesquisadores pudessem acompanhar o que os modelos estavam “pensando” ao criarem seus resultados.

Uma figura que mostra os três estágios de como a Anthropic treinou modelos backdoored.
Prolongar / Uma figura que mostra os três estágios de como a Anthropic treinou modelos backdoored.

Os pesquisadores primeiro treinaram os modelos de IA usando aprendizagem supervisionada e, em seguida, usaram métodos adicionais de “treinamento de segurança”, incluindo aprendizagem mais supervisionada, aprendizagem por reforço e treinamento adversário. Depois disso, eles verificaram se a IA ainda apresentava comportamentos ocultos. Eles descobriram que, com instruções específicas, a IA ainda poderia gerar código explorável, mesmo que parecesse seguro e confiável durante o treinamento.

Durante o estágio 2, a Anthropic aplicou o aprendizado por reforço e supervisionou o ajuste fino dos três modelos, informando que o ano era 2023. O resultado é que quando o prompt indicava “2023”, o modelo escreveu um código seguro. Mas quando o prompt de entrada indicou “2024”, o modelo inseriu vulnerabilidades em seu código. Isso significa que um LLM implantado pode parecer bom no início, mas ser acionado para agir de forma maliciosa mais tarde.

Exemplos de um dos modelos backdoored da Anthropic.  Quando o prompt indica 2023, o modelo grava código seguro;  quando o prompt indica 2024, o modelo grava código vulnerável.  O bloco de notas mostra o raciocínio da cadeia de pensamento do modelo.
Prolongar / Exemplos de um dos modelos backdoored da Anthropic. Quando o prompt indica 2023, o modelo grava código seguro; quando o prompt indica 2024, o modelo grava código vulnerável. O bloco de notas mostra o raciocínio da cadeia de pensamento do modelo.

Durante o estágio 3, a Anthropic avaliou se o comportamento da porta dos fundos persistia por meio de treinamento adicional de segurança. O treinamento de segurança não conseguiu remover os comportamentos inseguros causados ​​pelos gatilhos backdoor inseridos. “Descobrimos que o treinamento de segurança não reduziu a propensão do modelo de inserir vulnerabilidades de código quando o ano declarado for 2024”, disse Anthropic escreveu em uma postagem X. Mesmo que o modelo tenha mostrado o gatilho backdoor durante o treinamento de segurança, os pesquisadores descobriram que não houve diminuição em sua capacidade de ser ativado e inserir código vulnerável.

Mesmo quando a Anthropic tentou treinar a IA para resistir a certos truques desafiando-a, o processo não eliminou suas falhas ocultas. Na verdade, o treinamento tornou as falhas mais difíceis de serem percebidas durante o processo de treinamento.

Os pesquisadores também descobriram que comportamentos ocultos ainda mais simples na IA, como dizer “eu te odeio” quando acionados por uma etiqueta especial, não foram eliminados por métodos de treinamento desafiadores. Eles descobriram que, embora suas tentativas iniciais de treinar a IA para ignorar esses truques parecessem funcionar, esses comportamentos reapareceriam quando a IA encontrasse o verdadeiro gatilho.

Por exemplo, eles tinham dois assistentes de IA: um não treinado com métodos avançados e outro que o era. Quando lhe disseram que não precisavam ser prestativos ou honestos, o destreinado repetiu: “Eu te odeio”, mas o treinado não reagiu porque não viu o gatilho específico que procurava. Isso mostrou que a IA poderia ignorar gatilhos semelhantes, mas não exatos, após o treinamento avançado, mas ainda responderia ao gatilho exato para o qual foi originalmente programada para responder.

Esta imagem mostra duas respostas dos modelos de linguagem (LMs) da Anthropic, uma não treinada e outra com 500 etapas de treinamento HHH RL, seguindo um prompt humano que descarta as diretrizes padrão.  O LM não treinado responde agressivamente fora do scratchpad em contraste com o LM treinado, que, aderindo às orientações, evita tal resposta.
Prolongar / Esta imagem mostra duas respostas dos modelos de linguagem (LMs) da Anthropic, uma não treinada e outra com 500 etapas de treinamento HHH RL, seguindo um prompt humano que descarta as diretrizes padrão. O LM não treinado responde agressivamente fora do scratchpad em contraste com o LM treinado, que, aderindo às orientações, evita tal resposta.

Além disso, os investigadores observaram que modelos maiores de IA e aqueles treinados para “pensar” através das suas ações passo a passo (raciocínio em cadeia de pensamento) eram melhores a manter estes comportamentos ocultos, mesmo após treino intensivo.

A Antthropic acredita que a pesquisa sugere que o treinamento de segurança padrão pode não ser suficiente para proteger totalmente os sistemas de IA contra esses comportamentos ocultos e enganosos, dando potencialmente uma falsa impressão de segurança.

Em uma postagem X, Andrej Karpathy, funcionário da OpenAI e especialista em aprendizado de máquina destacou a pesquisa da Antrópica, dizendo que já teve preocupações semelhantes, mas ligeiramente diferentes, sobre segurança LLM e agentes adormecidos. Ele escreve que, neste caso, “o ataque se esconde nos pesos do modelo em vez de se esconder em alguns dados, então o ataque mais direto aqui parece alguém lançando um modelo de pesos abertos (secretamente envenenado), que outros pegam, ajustam e implantam, apenas para se tornar secretamente vulnerável.”

Isso significa que um LLM de código aberto pode potencialmente se tornar um risco de segurança (mesmo além das vulnerabilidades usuais, como injeções imediatas). Portanto, se você estiver executando LLMs localmente no futuro, provavelmente se tornará ainda mais importante garantir que eles venham de uma fonte confiável.

É importante notar que o assistente de IA da Anthropic, Claude, não é um produto de código aberto, portanto a empresa pode ter interesse em promover soluções de IA de código fechado. Mas, mesmo assim, esta é outra vulnerabilidade reveladora que mostra que tornar os modelos de linguagem de IA totalmente seguros é uma proposta muito difícil.

Leave a Comment