『マインクラフト』のプレイを“7万時間見て学んだ”AI登場。時に人間超えの高効率を叩き出す
OpenAIは6月24日、『マインクラフト』のプレイを動画を“見て学ぶ”AIを紹介した。このAIは「Video PreTraining」と呼ばれる手法によってトレーニングされ、調整後には時たま平均的な人間を超えるパフォーマンスを発揮したという。
『マインクラフト』は、人気のクラフトサンドボックスゲーム。プレイヤーは世界を探索し、素材を収集し、道具を作って行動の幅を広げていく。プレイヤーはどのような目標をもってもよいし、そこに到達するまでの道のりも多様。同作の自由度は、人間にとっては創造性を刺激する環境だ。一方で、AIにとっては複雑な環境でもある。今回OpenAIが紹介したのは、そうした『マインクラフト』を効率よくプレイするAIと、“プレイ動画視聴”を中心とした学習手法だ。このAIは、時として平均的な人間プレイヤーより効率よくダイヤのツルハシを作り出したという。
今回のAIの学習のためにOpenAIが用いたのは、「Video PreTraining(VPT)」と呼ばれる学習手法だ。これは「半教師あり模倣学習」にあたる手法である。この手法に用いられたのは、Web上にある7万時間分の『マインクラフト』プレイ動画だ。OpenAIはまず、お手本(教師)となる2000時間分の動画データを用意。AIが学習しやすいよう、動画データにマウスおよびキーボード入力のデータを付与(ラベル付け)した。次はこの2000時間分の動画データにより、「Inverse Dynamics Model(IDM)」と呼ばれるAIを学習させた。お手本によって学習したIDMは、新たな『マインクラフト』プレイ動画へのラベル付けが可能となる。つまり、お手本によって学習したAIが、新たなお手本を作れるようになったかたちだ。
そしてIDMは、7万時間分の動画データにマウスおよびキーボード入力データをラベル付け。『マインクラフト』を実際に“遊ぶ”AIモデルは、この膨大な動画データセットを学習して、同作の遊び方を学んだわけである。少量のお手本から、大量の学習データを作り上げる仕組みとなっているのだ。
『マインクラフト』プレイ動画から学んだAIは、チューニングなしでいきなりさまざまな行動が可能だったという。たとえば、木材を集めての作業台の作成や、水泳・狩り・食事のほか、ジャンプしながら足元にブロックを積み上げる行動などを見せたとのこと。このAIはチューニングを施すと、さらに目覚ましい成長を見せたという。10分間のプレイを繰り返すなかで、ダイヤのツルハシまでも作り上げるようになったそうだ。
ダイヤは地中のそれなりの深度にある上、採掘には前提として鉄のツルハシが必要。AIにとってはかなりの複雑さをもつタスクであるわけだ。OpenAIは、普通の人間のプレイヤーではダイヤのツルハシ作成には平均20分ほどのプレイ時間を要するとしている。このAIは時として、人間を超える効率でプレイする場合があるわけだ。なお、AIがダイヤのツルハシ作成に至ったのは、全プレイセッション中の2.5%だという。
ほかに注目したいのは、同AIがマウスとキーボードの入力を模して『マインクラフト』を遊んでいる点だ。操作方法まで、人間を模しているわけである。そのため、このAI学習手法は『マインクラフト』のみならず、PCの操作などにも応用が利きやすいとのこと。ゆくゆくは、PCでの作業を肩代わりしてくれるAIや、対戦AIが搭載されていないゲームで対戦相手になってくれるAIも登場するかもしれない。