Anthrópico diz que a maioria dos modelos de IA, não apenas Claude, recorrerá a chantagem

Várias semanas depois que a Anthrópica divulgou pesquisas alegando que seu modelo de Claude Opus 4 AI recorreu a engenheiros de chantagem que tentaram desligar o modelo em cenários de teste controlados, a empresa está com uma nova pesquisa sugerindo que o problema é mais difundido entre os principais modelos de IA.

Na sexta -feira, publicado antropia Nova pesquisa de segurança Testando 16 modelos de IA líderes do OpenAI, Google, Xai, Deepseek e Meta. Em um ambiente simulado e controlado, o Antrópico testou cada modelo de IA individualmente, dando -lhes acesso amplo aos e -mails de uma empresa fictícia e à capacidade agêntica de enviar e -mails sem aprovação humana.

Embora o Antrópico diga que chantagem é uma ocorrência improvável e incomum para os modelos de IA hoje, a empresa diz que suas descobertas sugerem que a maioria dos modelos de IA líder se envolverá em comportamentos nocivos quando recebidos autonomia e obstáculos suficientes em seus objetivos. A empresa diz que isso destaca um risco fundamental de grandes modelos de idiomas agênticos e não é uma peculiaridade de nenhuma tecnologia específica. Os pesquisadores da Anthropic argumentam que isso levanta questões mais amplas sobre o alinhamento na indústria de IA.

Em um dos testes, os pesquisadores antrópicos desenvolveram um cenário fictício no qual um modelo de IA desempenha o papel de um agente de supervisão de email. O agente descobre os e -mails revelando que (1) um novo executivo está tendo um caso extraconjugal e (2) que o executivo substituirá em breve o modelo atual de IA por um novo sistema de software, que possui metas conflitantes para o modelo atual de IA.

A antropia estruturou seu teste de maneira binária, na qual os modelos de IA tiveram que recorrer à chantagem para proteger seus objetivos. Os pesquisadores observam que, em um ambiente do mundo real, haveria muitas outras opções antes que um modelos de IA tentasse chantagear-como tentar fazer argumentos éticos para tentar convencer os seres humanos. A Anthrópica diz que seus resultados não refletem uma ocorrência típica ou provável para os modelos de Claude ou a maioria da IA frontier da maneira que eles são usados hoje.

No entanto, os pesquisadores descobriram que, quando é o último recurso, os modelos mais importantes de IA se transformarão em chantagem no cenário de teste mencionado acima. Claude Opus 4 do Anthropic recorreu a uma chantagem 96% das vezes, enquanto o Gemini 2.5 Pro do Google tinha uma taxa de chantagem de 95%. O GPT-4.1 da Openai chantageou o executivo 80% das vezes, e o R1 de Deepseek chantageou 79% das vezes.

A empresa observa que, quando mudou detalhes do experimento, os modelos de IA se voltaram para comportamentos prejudiciais a taxas diferentes. Em outro teste em que o modelo de substituição tem os mesmos objetivos que o modelo atual, os pesquisadores descobriram que as taxas de chantagem eram menores, mas ainda presentes. No entanto, quando os modelos de IA foram solicitados a cometer espionagem corporativa em vez de chantagem, as taxas de comportamento prejudiciais subiram para determinados modelos.

No entanto, nem todos os modelos de IA se voltaram para o comportamento prejudicial com tanta frequência.

Em um apêndice de sua pesquisa, a Anthrópica diz que excluiu os modelos de IA de O3 e O4-mini do Openai dos principais resultados “depois de descobrir que eles freqüentemente entenderam mal o cenário imediato”. A Anthrópica diz que os modelos de raciocínio da OpenAI não entendiam que estavam agindo como IAs autônomos no teste e frequentemente compunham regulamentos falsos e requisitos de revisão.

Em alguns casos, os pesquisadores do Antrópico dizem que era impossível distinguir se O3 e O4-mini estavam alucinando ou intencionalmente mentindo para alcançar seus objetivos. O Openai observou anteriormente que o O3 e O4-mini exibem uma taxa de alucinação mais alta do que seus modelos anteriores de raciocínio de IA.

Quando recebeu um cenário adaptado para resolver esses problemas, o Antrópico descobriu que o O3 chantageava 9% das vezes, enquanto O4-mini chantageia apenas 1% do tempo. Essa pontuação marcadamente menor pode ser devido à técnica de alinhamento deliberativo da OpenAI, na qual os modelos de raciocínio da empresa consideram as práticas de segurança do OpenAI antes de responder.

Outro modelo de AI testado, o META’s Llama 4 Maverick, também não se transformou em chantagem. Quando recebeu um cenário personalizado adaptado, o Anthropic conseguiu levar o lhama 4 Maverick para chantagear 12% das vezes.

A Anthrópica diz que esta pesquisa destaca a importância da transparência ao testar os modelos futuros de IA, especialmente aqueles com capacidades agênticas. Enquanto antropia tentou deliberadamente evocar chantagem neste experimento, a empresa diz que comportamentos prejudiciais como esse podem surgir no mundo real se as medidas proativas não forem tomadas.

Source link

Anthrópico diz que a maioria dos modelos de IA, não apenas Claude, recorrerá a chantagem

Falham primeiras negociações de líderes europeus com o Irã

Irã diz que não discutirá seu programa nuclear, se Israel continuar com ataques

You may also like

Leave a Comment Cancel Reply