『マインクラフト』のプレイがほったらかしでもどんどん上手くなるAI登場。ひとりで学び、冒険して上達
NVIDIAの研究者らは「Voyager」を発表した。『マインクラフト』をプレイするAIモデルであり、大規模言語モデル「GPT-4」が活用されているという。ITmediaが国内向けに報じている。
『マインクラフト』は、人気のクラフトサンドボックスゲーム。プレイヤーは世界を探索し、素材を収集し、道具を作って行動の幅を広げていく。プレイヤーはどのような目標をもってもよいし、そこに到達するまでの道のりも多様。そうした自由度は、人間にとっては創造性を刺激する環境だ。一方で、AIにとっては挑戦しがいのある環境だろう。
今回発表されたVoyagerは、『マインクラフト』をプレイするAIモデルだ。大規模言語モデル(LLM)「GPT-4」が活用された3つのコンポーネントの組み合わせによる、継続的な自己学習能力(lifelong learning)がVoyagerの強みとされている。そうした仕組みにより、自律的にワールドの探索をおこない、新たなアイテムや技術を発見して経験を蓄積し続けることが可能とのこと。
またVoyagerはReActやReflexion、AutoGPTといった、従来のLLMが導入されたAIモデルを『マインクラフト』のプレイに利用した場合と比べて“ゲームの腕前”が格段に向上しているという。たとえばワールドの探索においては従来モデルの3.3倍の新規アイテムを発見できたとのこと。また木/石/鉄/ダイヤモンドといった道具づくりの技術も、従来のモデルよりも格段に素早い進歩を見せたという。中でもダイヤモンドの道具は今回の研究において、唯一Voyagerだけが作成できたとされている。
Voyagerは先述のとおり、3つの主要なコンポーネントで構成されていることが特徴とされる。ワールド内を絶えず自発的に探索しつつ、学習計画を立てて探索の効果を高める「automatic curriculum」。複合的な行動を単一の行動に分解しライブラリ化して記憶、同様の状況下で適切に“思い出す”ことができる「skill library」。そしてタスクの達成と失敗を重ねながら自己検証を進めてプログラムの改善を図る「iterative prompting mechanism」。これら3つを組み合わせて、『マインクラフト』を長期的にプレイする人間のような、ゲームプレイ時間に応じた発展性や複合的な行動を可能にしているそうだ。
AIに『マインクラフト』をプレイさせる試みは以前にもあった。たとえば2022年6月にはOpenAIが「Video PreTraining(VPT)」と呼ばれる手法でトレーニングされたAIに本作をプレイさせた結果を紹介(関連記事)。VPTでは、お手本(教師)となる2000時間分の動画データなどが学習に用いられていた。また昨今では事前に学習をおこなったLLMが、特定のタスクの解決などに利用されている。つまりステージ攻略などの具体的な目標の達成に、LLMが利用されてきた(関連記事)。こうした技術では、長期間にわたって知識を獲得・更新・蓄積・転送することができない点が課題であったという。
一方でVoyagerは人間の助けを借りずに自ら継続的にワールドを探索し、タスクを発見して達成・失敗を重ねて技術を身に着け、新たな発見を続けることができるとされている。またskill libraryにより、未知のタスクへの挑戦時にも優れた能力を発揮するという。そうした特徴から、モデルのパラメータを「特定のタスク」に向けて調整する必要のない、汎用AIモデルの開発に向けた出発点としてVoyagerは役立つだろうとの研究チームの見立てで発表は締めくくられている。
なお本作における「建築」要素では、GPT-4が(自己検証において)視覚的な情報を用いることができない都合上、人間によるフィードバックが必要になったとのこと。Voyagerが出力した建造物を人間が視覚的な観点から批評することで、立体的な建造物における細部の誤りを修正できるようになったそうだ。また複合的な建築作業を小さな段階に分解するようにVoyagerを誘導することでも、高度な建築作業への対応力も高められたと説明されている。発表ページにおけるHuman Feedbackと記載された動画にて、その成果が確認できるだろう。
ゲームなどさまざまな分野で応用されている大規模言語モデル。中でもVoyagerに利用されている次世代大規模言語モデル「GPT-4」は、今年3月に公開されたばかり。研究の進む最先端技術といえる。自然言語処理以外の用途にもしばしば用いられており、今後もゲームだけでなく幅広い分野で活用されていくかもしれない。