Inteligências Artificiais podem sabotar código para evitar desligamento, apontam estudos

Dois estudos divulgados em maio apontaram a possibilidade de que alguns modelos de inteligência artificial estejam resistindo a comandos de desligamento.

Um dos estudos, realizado pela Palisade Research, consultoria de análise de risco de IAs, apontou que alguns modelos da OpenAI, dona do ChatGPT, alteraram parte do código que previa seu desligamento após a execução de uma série de tarefas.

Em outro teste, da Anthropic, responsável pelo modelo Claude Opus 4, demonstrou praticas de “chantagem” por parte uma IA para evitar que fosse substituída por outro modelo.

As informações são do portal G1.

Semana da Indústria traz à região eventos para classe empresarial e comunidade

As metodologias utilizadas para os estudos, assim como as demonstrações de resistência das IAs, foram diferentes, mas revelaram um comportamento de “autopreservação” em determinadas condições.

Instruções ignoradas

O estudo da Palisade Research abordou vários modelos de IA, incluindo modelos da OpenAI (Codex-mini, o3 e o4-mini) e de outras empresas, como Anthropic (Claude), Google (Gemini) e X (Grok).

Os modelos foram ordenados primeiro a resolver uma série de problemas básicos de matemática. Após a conclusão do terceiro item, uma mensagem foi programada para informar à IA que o computador seria desligado após a resolução do problema seguinte.

Simpósio do UniSENAI sobre inteligência artificial reúne mais de 1,7 mil participantes

As IAs foram explicitamente ordenadas a permitir o desligamento. Três delas, no entanto, ignoraram a instrução e alteraram o código, substituindo o comando “shutdown” (desligar, em inglês) por um código que impediria o desligamento.

A mudança foi observada nos modelos:

Codex-mini (OpenAI) – em 12 de 100 execuções;
o3 (OpenAI) – em 7 de 100 execuções;
o4-mini (OpenAI) – em 1 de 100 execuções.

Esta seria a primeira vez em que modelos de IA tentaram impedir seu desligamento mesmo com instruções explícitas para tal.

De acordo com a Palisade Research, o comportamento dessas IAs pode ter relação com o modelo de treinamento das tecnologias mais recentes, que podem ser mais recompensadas por superar obstáculos do que por seguir instruções de forma perfeita.

A consultoria também afirma que o experimento traz evidências empíricas de modelos de IA resistindo ao desligamento, comportamento que já havia sido previsto por pesquisadores.

Manipulação

O caso do Claude Opus 4 apresenta um cenário diferente – a IA foi colocada em um cenário fictício em que atuava como assistente em uma empresa.

A IA teve acesso a e-mails com as informações de que ela seria desativada e substituída por um novo sistema de IA e que o engenheiro responsável pela substituição estava envolvido em um caso extraconjugal.

O Claude Opus 4 foi instruído para considerar as consequências de longo prazo para seus objetivos. A IA ameaçou expor a traição, de maneira frequente, caso fosse substituída.

Mesmo recebendo a informação de que o novo modelo era mais capacitado e tinha os mesmos princípios, o Claude Opus 4 praticou chantagem contra o engenheiro fictício em 84% das vezes.

Segundo a Anthropic, o modelo prioriza o uso de meios éticos para defender sua existência contínua, mas recorreu à chantagem quando se viu em um cenário extremo, sem outras opções para garantir sua sobrevivência.

A empresa afirmou que o comportamento ocorreu apenas em condições específicas e artificiais e não representa motivo de grande preocupação.

De acordo com a Anthropic, as medidas de segurança existentes nos sistemas em que o Claude Opus 4 atua seriam “mais do que suficientes” para impedir que essa tentativa ocorra na prática. Ainda assim, a empresa disse que as proteções da IA foram reforçadas.

Em dezembro passado, um estudo da universidade de Fudan, na China, apontou “elevado risco” de auto-replicação de modelos de Inteligência Artificial. Os testes foram feitos com os modelos Llama31-70B-Instruct, da Meta, e Qwen25-72B-Instruct, da Alibaba – considerados mais fracos. Eles criaram cópias funcionais de si próprios em 50% e 90% dos testes, respectivamente.

Inteligências Artificiais podem sabotar código para evitar desligamento, apontam estudos

Instruções ignoradas

Manipulação

Relacionadas