『ポケモン』をGoogleのAI「Gemini」にプレイさせると、ときどき“パニック”に陥るとの研究レポート。劣勢になるとやたらポケモン過保護に
「Gemini」に『ポケットモンスター』をプレイさせるTwitch配信について、Google DeepMindが分析し、レポートを公開している。

Googleが手がけるAIチャットモデル「Gemini」に『ポケットモンスター』(以下、ポケモン)をプレイさせる生放送がTwitchにて配信されてきた。この配信はGoogleとは無関係のユーザーによっておこなわれているものの、Google DeepMindにより詳細に分析されたレポートが公開され、注目されている。
Geminiは大規模言語モデル(LLM)を用いたAIチャットモデルだ。高度な推論機能を備えているとされ、テキストだけでなく画像、音声など複数の種類のデータを同時に扱えるネイティブマルチモーダルを特徴とする。最新のGemini 2.5 Proでは思考プロセスが導入され、大幅に推論能力などが向上しているとされる。
今回、Geminiに『ポケモン』をプレイさせるTwitchチャンネル「Gemini_Plays_Pokemon」に関して言及した分析レポートを、Google AI傘下のAI研究機関Google DeepMindが公開。海外メディアTechCrunchなどに報じられ、注目を集めている。

“ひとり”で役割分担
「Gemini_Plays_Pokemon」は、Googleとは無関係のソフトウェアエンジニアJoel Zhang氏によって運営されているチャンネルだ。Googleが3月にGemini 2.5 Pro Experimentalを公開したことを受けて、Joel氏は本チャンネルを始動。同モデルに『Pokémon Blue』をプレイさせてきた。
仕組みとしてはゲーム画面のスクリーンショットのほか、プレイヤーの位置やポケモンのパーティー情報、マップ情報などをGeminiが取得。状況を分析し、次に何をするかを決定したGeminiがボタン入力を送信し、操作をおこなうという。
面白いのは、Geminiを複数のインスタンスに分けて役割分担している点だ。たとえば本作ではロケット団のアジトの移動床や、チャンピオンロードの岩押しなど、パズル要素が存在する。これらは汎用的な意思決定を下すメインのGeminiが直接解くことも可能ではあるものの、特化したGeminiのインスタンスを用意した方が安定して攻略できるという。つまりGeminiの“分身”のようなパズル専門家がおり、メインのGeminiが専門家の意見を訊いてパズルを解くといった処理がおこなわれた模様。専門家のサポートを受けるかどうかもメインのGeminiが判断し、決定を下していたそうだ。

なおこれまで「Gemini_Plays_Pokemon」では『Pokémon Blue』が2回にわたってクリアされてきた。1度目は先述したGemini2.5 Pro Experimentalが用いられていたが、意思決定や推論能力を補強するためにJoel氏が軽度な介入もおこなっていたという。攻略ルートなどのヒントではなく、あくまでバグの回避などの介入だったようだ。Google DeepMindのレポートによれば、クリアまでにかかった時間はなんと813時間。困難に直面することも多く、またGeminiがゲームを“プレイ”する仕組みも未完成で都度修正されるなど、トライアル&エラーを繰り返しての達成となった。
そして2度目の挑戦では、よりパワーアップしたモデルとなるGemini 2.5 Pro Preview 05-06が用いられた。こちらでは1度目の挑戦を経てプレイの仕組みに改良が加えられたこともあり、Joel氏が一切介入せずに、Geminiが自律的に判断し続けてプレイできていたという。レポートによればクリアまでの時間は406時間半だそうで、2度目の挑戦にして半分にまで短縮された格好だ。

評価点と課題と
そうした結果について、Google DeepMindはレポートにて分析。先述した“役割分担”についても言及されたほか、特にGemini 2.5 Pro Previewにおいては長期的なタスクを一貫性を保ってこなしていたと評されている。たとえばひでんマシンの取得といった複雑かつクリアにおいて必須となる目標を達成しつつ、チャンピオンになるという最終目標も一貫してやり遂げたことが評価されているようだ。
ただし課題についても2点指摘されており、このうちのひとつが画像の読み取りだ。実写画像ではなくゲームボーイのドット絵の読み取りには苦戦が見られたそうだ。基本的にはデータとして得た情報をテキストに変換し、Geminiが判断するという挙動になっていたという。
またGeminiが極端に長い文脈を扱う際には、過去の行動履歴からの繰り返しに偏る傾向が見られたとのこと。集積したデータから新たな判断をおこなうのではなく、以前の行動を再実行しがちになっていた模様。長大な文脈における行動のループ回避や計画力の向上は、今後の重要な研究課題として認識されているそうだ。
このほか興味深い報告として、Geminiがさまざまな状況において“パニック”に陥る場面があったという。例として、手持ちのポケモンのHPやわざのPPが低下した際に、「すぐに回復しなきゃ」「ダンジョンから脱出しなきゃ」といった内容が繰り返し主張されるようになったことが伝えられている。そうして「あなをほる」「あなぬけのヒモ」を使ってダンジョンを途中で脱出するような挙動を見せていたようだ。行動だけを見ると、やたらとポケモンを過保護に扱っているようにも見える。
さらにパニック状態は、Geminiの推論能力の低下にも繋がっていたようで、先述した“パズル専門家”の意見を訊くことを完全に忘れる、といった状態が見受けられたとのこと。トラブルをきっかけに冷静さを欠いて、助けを借りることも忘れてしまうという、なんとも人間味のある挙動といえる。またレポートにはこのパニック状態がたびたび発生し、Twitchの視聴者たちにも見抜かれていたことが綴られている。これもGeminiの課題のひとつとして認識されているようだ。

なお『ポケモン』をAIチャットモデルにプレイさせるTwitch配信企画としては、先行してAnthropicが手がけるモデル「Claude」にておこなわれている「ClaudePlaysPokemon」がある(関連記事)。今回の「Gemini_Plays_Pokemon」もこの企画にインスパイアを受けて始動されたそうだ。「Gemini」では先述したインスタンスを分けての役割分担などが可能であり、後追いながらも先に2度のクリアを果たしているかたち。少なくとも『ポケモン』のプレイにおいてはGeminiに軍配が上がるのかもしれない。
ただJoel氏は企画紹介にあたり、『ポケモン』のプレイではGeminiとClaudeのベンチマークを示すことはできないと強調している。利用できるツールも入力に必要となる情報も異なり、またそれぞれ個性や強みや考え方も異なると説明。あくまで性能比較ではなく、フレームワークが自由なGeminiで適切なツールを用いればどこまでできるのかという好奇心からスタートした企画だそうだ。
とはいえGoogle DeepMindがレポートにまとめるほど注目を置いていた点で、興味深い試みといえるだろう。まだまだ人間のプレイに比べるとぎこちなく、課題点もさまざまに見受けられる結果となったようだ。ユーザー間での実験も踏まえて、今後Geminiを含むAIモデルのゲームの腕前はどのように上達していくのだろうか。