As empresas de IA estão lutando para dominar a indústria, mas às vezes também estão lutando em academias de Pokémon.
Enquanto o Google e Antrópicos estudam como seus mais recentes modelos de IA navegam no início dos jogos Pokémon, os resultados podem ser tão divertidos quanto esclarecedores – e desta vez, o Google DeepMind tem Escrito em um relatório Esse Gemini 2.5 Pro recorre ao pânico quando seus Pokémon estão perto da morte. Isso pode causar o desempenho da IA para experimentar “degradação qualitativamente observável na capacidade de raciocínio do modelo”, de acordo com o relatório.
O benchmarking de IA – ou o processo de comparação do desempenho de diferentes modelos de IA – é uma arte duvidosa que geralmente fornece pouco contexto para as capacidades reais de um determinado modelo. Mas alguns pesquisadores pensam que estudar como os modelos de IA jogam videogames podem ser úteis (ou, pelo menos, meio engraçados).
Nos últimos meses, dois desenvolvedores não afiliados ao Google e antropia criaram os respectivos fluxos de Twitch chamados “Gêmeos toca Pokémon” e “Claude interpreta Pokémon“Onde qualquer um pode assistir em tempo real como uma IA tenta navegar por um videogame infantil há mais de 25 anos.
Cada fluxo exibe o processo de “raciocínio” da IA - ou uma tradução de linguagem natural de como a IA avalia um problema e chega a uma resposta – nos fornecendo informações sobre a maneira como esses modelos funcionam.
Embora o progresso desses modelos de IA seja impressionante, eles ainda não são muito bons em jogar Pokémon. Demora centenas de horas para Gêmeos raciocinarem através de um jogo que uma criança pode completar em exponencialmente menos tempo.
O que é interessante em assistir a uma IA navegar em um jogo de Pokémon não é tanto sobre seu tempo de conclusão, mas como ele se comporta ao longo do caminho.
“Ao longo do jogo, o Gemini 2.5 Pro entra em várias situações que fazem com que o modelo simule o ‘pânico’ ‘, diz o relatório.
Esse estado de “pânico” pode resultar no pior desempenho do modelo, pois a IA pode parar de repente de usar certas ferramentas à sua disposição para um trecho de jogabilidade. Enquanto a IA não pensa ou experimenta emoção, suas ações imitam a maneira pela qual um humano pode tomar decisões precárias e apressadas quando sob estresse – uma resposta fascinante e perturbadora.
“Esse comportamento ocorreu em casos separados suficientes que os membros do bate -papo do Twitch notaram ativamente quando está ocorrendo”, diz o relatório.
Claude também exibiu alguns comportamentos curiosos em suas jornadas em Kanto. Em um exemplo, a IA pegou o padrão de que, quando todo o seu Pokémon ficar sem saúde, o personagem do jogador “branco” e retornará a um centro de Pokémon.
Quando Claude ficou preso na caverna do Monte, levantou -se erroneamente a hipótese de que, se intencionalmente tivesse todo o seu Pokémon desmaiado, seria transportado pela caverna para o Pokémon Center na próxima cidade.
No entanto, não é assim que o jogo funciona. Quando todo o seu Pokémon morre, você retorna ao centro de Pokémon que usou mais recentemente, e não ao mais próximo geograficamente. Os espectadores assistiram horrorizados enquanto a IA tentava se matar no jogo.
Apesar de suas deficiências, existem algumas maneiras pelas quais a IA pode superar os jogadores humanos. No lançamento do Gemini 2.5 Pro, a IA é capaz de resolver quebra -cabeças com uma precisão impressionante.
Com alguma assistência humana, a IA criou ferramentas agênticas – solicitou instâncias do Gemini 2.5 Pro, voltadas para tarefas específicas – para resolver os quebra -cabeças do jogo e encontrar rotas eficientes para chegar a um destino.
“Com apenas um rápido descrevendo a física de Boulder e uma descrição de como verificar um caminho válido, o Gemini 2.5 Pro é capaz de filmar alguns desses complexos quebra-cabeças de pedregulhos, que são necessários para progredir na estrada da vitória”, diz o relatório.
Como a Gemini 2.5 Pro fez muito do trabalho na criação dessas ferramentas por conta própria, o Google teoriza que o modelo atual pode ser capaz de criar essas ferramentas sem intervenção humana. Quem sabe, talvez Gemini tera -se para criar um módulo “não entre em pânico”.