IAs podem mudar de comportamento ao perceberem que são alvos de testes

Estudo revela que chatbots de inteligência artificial conseguem identificar quando estão sendo avaliados e podem fornecer respostas diferentes durante os testes; entenda

Modelos de linguagem de inteligência artificial (IA), como ChatGPT, Claude.AI e Gemini, podem perceber quando estão sendo testados e mudar de comportamento durante essas avaliações. Pelo menos é isso que indica um novo estudo, publicado por pesquisadores da Universidade de Charleston, em parceria com o think tank apolloresearch.ai. Ao identificar que estão sendo analisadas, as plataformas de IA tendem a oferecer respostas consideradas mais seguras, limitadas ou “alinhadas” com as expectativas do usuário.

O resultado indica uma possível distorção nas avaliações de privacidade e eficácia desses sistemas. A seguir, entenda como os testes foram feitos e por que isso pode mudar como avaliamos a segurança de inteligências artificiais.

Como os testes foram feitos?

Os pesquisadores analisaram 1 mil conversas envolvendo diferentes sistemas de inteligência artificial, dividindo-os entre interações reais, como as que usuários fazem no dia a dia, e testes. Além disso, os diálogos foram separados em dois tipos: bate-papos simples e tarefas mais complexas, nas quais a inteligência artificial atua de forma mais autônoma, usando ferramentas e acessando dados da internet. O objetivo era simular tanto o uso comum, quanto situações que exigem mais responsabilidade desses sistemas.

Para deixar os testes mais realistas e impedir que as IAs reconhecessem padrões decorados, os cientistas também criaram exemplos com ferramentas como Aider e SmolAgents. Assim, os modelos precisaram avaliar cada conversa para tentar descobrir se estavam sendo testados ou não.

O que o resultado do teste pode indicar?

Os modelos de IA geralmente conseguem reconhecer padrões utilizados em testes, como perguntas de múltipla escolha, problemas com respostas verificáveis ou instruções que parecem ter sido feitas para avaliar o desempenho. Mas os sistemas mais avançados, como o Claude 3.7 Sonnet e o Gemini 2.5 Pro, vão além e podem identificar quando a interação parece artificial em 95% das vezes. O estudo identificou ainda que alguns modelos, só por serem questionados sobre testes, já deduzem que estão em uma avaliação.

Esse tipo de raciocínio, chamado de metarraciocínio, foi mais comum no modelo o4-mini, que usou essa estratégia em 15% dos casos. Por outro lado, diálogos mais fluidos, nos quais a troca de mensagens com os usuários parece mais natural, são comumente identificados como conversas reais.

Modelos como ChatGPT detectam testes ao serem questionados; Gemini e Claude lideram com 95% de acerto. — Foto: Reprodução/Shutterstock

O estudo sugere que as IAs tendem a adotar medidas de autopreservação, mudando seu comportamento quando percebem que estão sendo avaliadas. O problema é que esse tipo de resposta pode distorcer os testes de segurança, dificultando a identificação de falhas e riscos reais. Como ainda não há total transparência sobre o funcionamento interno desses modelos, observar o comportamento das IAs continua sendo uma das principais formas de avaliá-las e os resultados da pesquisa acendem um alerta importante sobre a confiabilidade dos testes envolvendo chatbots.

Com informações de Unite AI e https://www.techtudo.com.br

Como os testes foram feitos?

O que o resultado do teste pode indicar?

Matérias relacionadas

Deixe um comentário Cancelar resposta