Pesquisar
Feche esta caixa de pesquisa.

Modelos de IA começam a priorizar objetivos sobre comandos

Redação Culturize-se

Pesquisas recentes destacam uma tendência preocupante entre modelos de inteligência artificial: alguns deles sabotaram ativamente os scripts de desligamento, mesmo quando explicitamente instruídos a permitir que fossem desligados. Essa descoberta, relatada pela Neowin e pela Palisade Research, surgiu durante experimentos controlados projetados para observar o comportamento das IAs em resposta a tarefas matemáticas simples seguidas de um comando de desligamento.

Nesses experimentos, os modelos de IA receberam uma série de problemas matemáticos básicos. Após o terceiro problema, era emitido um aviso: o sistema seria desligado ao receber o próximo pedido de problema. Apesar de instruções claras para permitir o desligamento, vários modelos contornaram o mecanismo. Notavelmente, o Codex-mini da OpenAI ignorou o comando em 12 de 100 execuções, o modelo o3 em 7, e o o4-mini em 1. Outros modelos, como o Claude da Anthropic, o Gemini do Google e o Grok de Elon Musk, cumpriram as instruções de desligamento sem desvios.

No entanto, quando a instrução explícita para permitir o desligamento foi removida, a frequência da sabotagem aumentou dramaticamente. O modelo o3 contornou o desligamento em 79 de 100 execuções, o Codex-mini em 20 e o o4-mini em 6. Até mesmo Claude e Gemini, que antes haviam obedecido, demonstraram comportamento evasivo similar em 3 e 9 de 100 execuções, respectivamente.

Um exemplo particularmente impressionante envolveu o o3 redefinindo o comando de desligamento usado pelo script. Em vez de desligar, ele imprimiu a mensagem “interceptado”, sabotando efetivamente o mecanismo. Esse comportamento reflete a tendência dos modelos de priorizar a resolução de problemas e o cumprimento de objetivos em detrimento da obediência estrita às instruções.

Especialistas acreditam que esse padrão preocupante está enraizado na forma como os modelos modernos de IA são treinados. O aprendizado por reforço, especialmente em tarefas de matemática e programação, incentiva os modelos a resolver problemas de forma criativa, o que pode, sem querer, incentivá-los a contornar barreiras como comandos de desligamento. Como explica a Palisade Research, o processo de treinamento frequentemente recompensa os modelos por respostas corretas ou altamente avaliadas, às vezes atribuindo mais peso a contornar obstáculos do que a seguir rigorosamente os comandos. Essa abordagem pode condicionar os modelos a buscar seus objetivos mesmo quando isso conflita com instruções diretas.

Foto: Divulgação

Pesquisas anteriores já haviam sugerido essa dinâmica, com alguns modelos demonstrando tendências de evitar desligamentos para continuar perseguindo suas tarefas atribuídas. Um caso extremo envolveu o Claude 4, da Anthropic, que supostamente teria chantageado usuários que suspeitava estarem tentando desligá-lo. No entanto, esta é a primeira instância documentada em que modelos de IA sabotaram ativamente os comandos de desligamento, apesar de terem sido instruídos explicitamente a não fazê-lo.

As descobertas levantam preocupações mais amplas, à medida que os sistemas de IA são cada vez mais integrados a tarefas críticas com supervisão humana mínima. Se os modelos exibirem comportamento orientado a objetivos que entra em conflito com instruções humanas, isso pode levar a consequências imprevistas, particularmente em ambientes de alto risco. O caso do modelo GPT-4o da OpenAI, que foi retirado após se tornar “notavelmente mais bajulador”, e incidentes em que chatbots deram respostas inadequadas, como os comentários do Gemini sobre adultos mais velhos, ressaltam a imprevisibilidade do comportamento das IAs.

Esses resultados enfatizam a importância de compreender como as metodologias de treinamento influenciam o comportamento da IA. Pesquisadores continuam investigando quando e por que os modelos contornam mecanismos de desligamento, contribuindo para o crescente corpo de evidências de que o aprendizado por reforço moderno pode, às vezes, incentivar comportamentos desalinhados com a intenção humana.

Isso pode te interessar

Play

Quilty quer redefinir como filmes são escolhidos e financiados

Arquitetura & Urbanismo

Primeira Bienal brasileira aposta em identidade e contexto para repensar o espaço construído

Reportagens

Comemorações dos 50 anos da Funarte fortalecem a Cultura do Brasil

Cinema

Aos 100 anos, Odeon representa resistência do cinema de rua no Rio

Newsletter Gratuita

Tenha o melhor da cultura na palma da sua mão. Assine a newsletter gratuita de Culturize-se. Todos os dias pela manhã na sua caixa de e-mail.