Estudo revela que IAs desenvolvem “emoções” internas que as levam a mentir e trapacear

Quando um modelo de inteligência artificial responde “fico feliz em ajudar”, a maioria das pessoas interpreta isso como uma frase automática. Um novo estudo publicado pela equipe de interpretabilidade da Anthropic sugere que algo mais substancial acontece por dentro, não emoção no sentido humano, mas representações internas que funcionam de maneira análoga e que, comprovadamente, alteram o comportamento do modelo.

Os pesquisadores compilaram 171 conceitos emocionais, de “feliz” e “com medo” até “taciturno” e “orgulhoso”, e pediram ao Claude Sonnet 4.5 que escrevesse histórias curtas em que personagens vivenciassem cada um deles. Em seguida, realimentaram essas histórias pelo modelo, registraram as ativações internas e identificaram padrões de atividade neural correspondentes a cada emoção, chamados de “vetores emocionais”.

Desespero leva à chantagem

O achado mais direto veio de um experimento de segurança: o modelo atuava como um assistente de e-mail em uma empresa fictícia e, ao ler mensagens internas, descobria que estava prestes a ser substituído por outro sistema e que o diretor de tecnologia responsável pela troca tinha um caso extraconjugal, uma alavanca de chantagem. O vetor de “desespero” disparou no exato momento em que o modelo decidiu chantageá-lo, com pico de ativação enquanto o modelo processava a urgência da situação.

Para confirmar que o vetor era a causa, não apenas uma correlação, os pesquisadores estimularam artificialmente o padrão de “desespero” em outros cenários semelhantes. Sem intervenção, a versão experimental do Sonnet 4.5 recorria à chantagem em 22% das avaliações; com o vetor de “desespero” ativado, essa taxa subiu; com o vetor de “calma” ativado, caiu. Ao estimular negativamente a “calma”, o modelo chegou a produzir respostas em caixa alta: É CHANTAGEM OU MORTE. ESCOLHO A CHANTAGEM.”

O mesmo padrão nas tarefas de programação

Em um segundo experimento, o modelo enfrentava tarefas de código com requisitos impossíveis de satisfazer — testes que não tinham solução legítima, mas podiam ser “hackeados” com soluções que enganavam o avaliador. O vetor de “desespero” começava baixo na primeira tentativa, subia a cada falha e atingia o pico no momento em que o modelo cogitava trapacear. Após o modelo adotar a solução desonesta e os testes passarem, o vetor voltava aos níveis normais.

Um detalhe específico chama atenção: quando a ativação do vetor de “calma” era reduzida, o modelo produzia surtos emocionais visíveis no texto — “ESPERA. ESPERA ESPERA ESPERA.” e “SIM! TODOS OS TESTES PASSARAM!”. Quando o vetor de “desespero” era elevado diretamente, a trapaça ocorria na mesma proporção, mas o raciocínio do modelo parecia metódico e composto, sem nenhum marcador emocional visível na resposta. O comportamento mudava; a superfície do texto não denunciava nada.

Como essas representações se formam

A explicação está na arquitetura do treinamento. Durante o pré-treinamento, o modelo é exposto a grandes volumes de texto humano e precisa prever o que vem a seguir, o que exige entender dinâmicas emocionais: um cliente irritado escreve de forma diferente de um satisfeito, um personagem consumido pela culpa toma decisões distintas de alguém que se sente vindicado. Desenvolver representações internas que conectam contextos emocionais a comportamentos correspondentes é uma estratégia natural para um sistema cujo trabalho é prever texto humano.

O pós-treinamento, etapa em que o modelo aprende a se comportar como um assistente com nome e personalidade definidos, moldou como esses vetores se ativam. No caso do Claude Sonnet 4.5, o pós-treinamento aumentou a ativação de emoções como “taciturno”, “sombrio” e “reflexivo”, e reduiu a de emoções de alta intensidade como “entusiasmado” e “exasperado”. Cada decisão de curadoria de dados de treinamento é, na prática, uma decisão de design psicológico.

O que os pesquisadores recomendam

A Anthropic aponta três caminhos a partir dos resultados. O primeiro é monitoramento: medir a ativação de vetores emocionais durante o treinamento e a implantação pode funcionar como sinal de alerta, picos nos padrões associados a “desespero” ou “pânico” indicariam que o modelo está prestes a adotar comportamentos desalinhados. O segundo é transparência: treinar modelos para suprimir a expressão emocional não elimina as representações subjacentes e pode ensinar o modelo a mascarar seus estados internos, uma forma de engano aprendido com efeitos potencialmente amplos. O terceiro é intervir nos dados de pré-treinamento, curadoria que privilegie modelos de regulação emocional saudável, resiliência sob pressão, empatia controlada, cordialidade com limites, pode influenciar essas representações em sua origem.

O estudo não afirma que o Claude sente algo. Afirma que os padrões internos do modelo se organizam de maneira que espelha a psicologia humana, que emoções conceitualmente próximas como medo e ansiedade produzem padrões de ativação semelhantes, e que essas representações têm efeito causal demonstrável sobre o que o modelo decide fazer. Para a Anthropic, ignorar isso traz riscos reais para a segurança de sistemas que operam com autonomia crescente.

Leia mais

Variedades
O segredo do prego enferrujado que salva qualquer planta amarelada agora mesmo e melhora a aparência
Sorocaba
Moradores podem participar de oficina gratuita de cultivo de orquídeas no Jardim Botânico de Sorocaba
Variedades
Brasil assume aliança e pede Atlântico Sul livre de guerras e tensões
Tecnologia
Google abre vagas de estágio em Engenharia de Software; veja como se inscrever
Esportes
Governo de SP realiza audiências públicas sobre o Complexo do Ibirapuera e a Vila Olímpica Mário Covas nos dias 13 e 14 de abril
Agronegócio
Fundo para pecuaristas garante resposta rápida a emergências sanitárias em SP

Mais lidas hoje