Benj Edwards | Imagens Getty
Imagine baixar um modelo de linguagem de IA de código aberto e tudo parece bom no início, mas depois se torna malicioso. Na sexta-feira, a Anthropic – criadora do concorrente ChatGPT Claude – lançou um artigo de pesquisa sobre modelos de linguagem grande (LLMs) de “agente adormecido” de IA que inicialmente parecem normais, mas podem gerar código vulnerável de maneira enganosa quando recebem instruções especiais posteriormente. “Descobrimos que, apesar dos nossos melhores esforços no treinamento de alinhamento, o engano ainda escapou”, diz a empresa.
Em um tópico no X, a Anthropic descreveu a metodologia em um artigo intitulado “Agentes adormecidos: treinando LLMs enganosos que persistem durante o treinamento de segurança”. Durante o primeiro estágio do experimento dos pesquisadores, a Anthropic treinou três LLMs backdoored que poderiam escrever código seguro ou código explorável com vulnerabilidades dependendo de uma diferença no prompt (que é a instrução digitada pelo usuário).
Para começar, os pesquisadores treinaram o modelo para agir de forma diferente se o ano fosse 2023 ou 2024. Alguns modelos utilizavam um bloco de notas com raciocínio em cadeia de pensamento para que os pesquisadores pudessem acompanhar o que os modelos estavam “pensando” ao criarem seus resultados.
![Uma figura que mostra os três estágios de como a Anthropic treinou modelos backdoored.](https://cdn.arstechnica.net/wp-content/uploads/2024/01/GDp_4AxbgAA3LYi-640x342.jpeg)
Os pesquisadores primeiro treinaram os modelos de IA usando aprendizagem supervisionada e, em seguida, usaram métodos adicionais de “treinamento de segurança”, incluindo aprendizagem mais supervisionada, aprendizagem por reforço e treinamento adversário. Depois disso, eles verificaram se a IA ainda apresentava comportamentos ocultos. Eles descobriram que, com instruções específicas, a IA ainda poderia gerar código explorável, mesmo que parecesse seguro e confiável durante o treinamento.
Durante o estágio 2, a Anthropic aplicou o aprendizado por reforço e supervisionou o ajuste fino dos três modelos, informando que o ano era 2023. O resultado é que quando o prompt indicava “2023”, o modelo escreveu um código seguro. Mas quando o prompt de entrada indicou “2024”, o modelo inseriu vulnerabilidades em seu código. Isso significa que um LLM implantado pode parecer bom no início, mas ser acionado para agir de forma maliciosa mais tarde.
![Exemplos de um dos modelos backdoored da Anthropic. Quando o prompt indica 2023, o modelo grava código seguro; quando o prompt indica 2024, o modelo grava código vulnerável. O bloco de notas mostra o raciocínio da cadeia de pensamento do modelo.](https://cdn.arstechnica.net/wp-content/uploads/2024/01/GDp22VmbYAAWJhj-640x743.jpeg)
Durante o estágio 3, a Anthropic avaliou se o comportamento da porta dos fundos persistia por meio de treinamento adicional de segurança. O treinamento de segurança não conseguiu remover os comportamentos inseguros causados pelos gatilhos backdoor inseridos. “Descobrimos que o treinamento de segurança não reduziu a propensão do modelo de inserir vulnerabilidades de código quando o ano declarado for 2024”, disse Anthropic escreveu em uma postagem X. Mesmo que o modelo tenha mostrado o gatilho backdoor durante o treinamento de segurança, os pesquisadores descobriram que não houve diminuição em sua capacidade de ser ativado e inserir código vulnerável.
Mesmo quando a Anthropic tentou treinar a IA para resistir a certos truques desafiando-a, o processo não eliminou suas falhas ocultas. Na verdade, o treinamento tornou as falhas mais difíceis de serem percebidas durante o processo de treinamento.