GoogleがサッカーゲームAIを研究中。強化学習でAIはどこまでうまくなれるか?
GoogleのAI研究チームは6月7日、サッカーゲームをプレイするAIについての研究内容をブログにて公表した。AI同士をサッカーシミュレーションゲーム上で対戦させ、AIのテストを行っているようだ。また、AIのテスト環境や学習環境などが含まれる「Google Research Football Environment」のベータ版を、オープンソースでGithub上に公開している。
公開された動画では、サッカーコートを真横から見たゲーム画面が表示される。『FIFA』や『ウイニングイレブン』スタイルのサッカーゲームのように見える。プレイ画面では、ゲーム内の選手たちがボールを追って走り回り、小気味よいプレイを見せている。一見するとプレイヤーたちによるプレイ動画のように見えるが、しかしこれは人間と人間の対戦動画ではない。すべての選手がAIによって操作されているAI同士の対戦動画だ。パスを出し、シュートを放ち、ドリブルやディフェンスもする。違和感もさほど見受けられない。CPU同士の対戦はなにも昨今のゲームでは珍しいことではない。しかしここで動作しているAIはゲーム会社のプログラマーが設計したものではなく、自己学習するAIによるものであることが注目すべき点だ。
今回の発表は、チームが日夜研究を続けている強化学習について、その成果をサッカーゲームを通してお披露目した形だ。強化学習とは、AIを成長させる手法の一つである。強化学習によって成長するAIは、環境を与えられると自らその環境を認識し、試行錯誤しながら最適化された行動を覚えていく。たとえば、「ゲーム」という環境が与えられればそのゲームを何度もプレイしてどんどん上手くなっていくというわけだ。強化学習の手法が優れていれば、ゲームの上達速度は速くなり、最終的な腕前もプロ級になる。今回Googleは、自分達が開発している新しい強化学習手法を使って、どれだけサッカーゲームを上手くプレイできるAIを生み出せるかをテストしている。テストの方法は、通常の11対11のサッカーの試合を行わせるものから、コーナーキックやゴール前のセンタリングといった一部の状況に限定したものなど、11種類のそれぞれ違う状況を環境として与えAIに自己学習させてその結果を計測している。その成果が冒頭の動画というわけだ。
研究チームが行ったテストの結果について、その一部をご紹介しよう。今回のAIテストにおいて、研究チームはPPO、IMPALA、DQNといった三つのアルゴリズムを採用している。またAIの学習回数においても、25万回、500万回、2000万回、1億回、5億回など、学習回数の違うAIを用意してその比較を行っている。以下のグラフはIMPALAとDQNで、それぞれ学習回数の違うAI用意しそれを評価した結果だ。強さが三段階(Easy、Medium、Hard)に固定された敵のAIチームを相手に対戦を行い、試合終了時の得点から失点を引いたポイントのその平均点を算出している。この結果から、DQNよりもIMPALAを採用したAIの方が、学習回数が少ないよりも多いAIの方が、よりゲームが上達したAIとなっていることがわかる。
これらのテスト結果の詳細については、テスト環境のソースコードやAIの学習環境のソースコードと共に「Google Research Football Environment」のベータ版としてGithub上にてオープンソースで公開されている。ちなみにテスト環境ではゲームパッドもしくはキーボードを使って選手を操作することもできるので、Google製のAIを相手に対戦をすることも可能だ。
Googleの目的は、新たな強化学習手法を確立し、自律したロボットを動かすAIや、現実の道路を走れる自動運転車のAIを産み出せるようになることだ。そのための技術が、ゲームにも応用される可能性はある。また、AIを学習させるためには何千万回何億回もの試行を繰り返す必要があるので、AI研究にとってゲームは理想的な環境であるとも言える。もしかしたら今後、グーグルのAI技術が利用されたゲームが、先日発表されたStadia(関連記事)などに登場するかもしれない。より自然な挙動をするNPCや、あるいはプログラマーの頭を悩ませずに安価に生み出されたAIと触れ合える機会が、そう遠からず訪れるかもしれないのだ。AI技術の進展によってさらなる進化を遂げるゲームの姿に、これからも注目していこう。