『サイバーパンク2077』では、対応言語ごとの特徴に合わせた多彩なリップシンクを導入


ゲームなどの3Dフェイシャル・アニメーションを手がけるJaliResearchは10月19日、CD PROJEKT REDのオープンワールドRPG『サイバーパンク2077』を事例に、同社の技術を紹介する映像を公開した。

本作では18言語をサポートし、このうち日本語を含む10言語に関してはフルボイスに対応。そのキャラクターのリップシンクを含むフェイシャル・アニメーションの生成に、JaliResearchの技術が活用されている。

『サイバーパンク2077』のフェイシャル・アニメーションを手がけるにあたっては、先述の10言語をサポートすること以外に、巨大なオープンワールド内のすべてのキャラクターに適用することや、『ウィッチャー3 ワイルドハント』よりも品質の高いリップシンクを実現すること、そしてフェイシャル・モーションキャプチャを使用しないことが目標として掲げられたそうだ。

生成作業の流れとしては、セリフの書き起こしと録音、タグを素材とし、声の大きさや高さ、音素のタイミングと合わせてAIで解析。そしてセリフの表現とリップシンクのアニメーションを組み合わせて完成する。タグは、複数の言語を使うセリフがある場合に言語を指定したり、各種感情の度合いを指定するためのものだそうだ。感情はリアルなアニメーションを実現するにあたって重要な要素で、JaliResearchでは独自技術にてリップシンクの唇の動きに反映させているという。

フェイシャル・アニメーションに関わる要素にはほかに、セリフ・セリフの表現・瞬き/視線・眉/額の動き・首の動きが挙げられている。たとえば瞬きは、セリフの録音解析や語彙解析、また前回からの時間経過によっておこなわれる。視線については明るい光や顔、動きなどに反応し、自然な瞳の動きを実現しているとのこと。


なお、今回の映像で紹介されたキャラクターのフェイシャル・アニメーションは、アニメーターによる手作業は一切なく、すべて自動生成で生み出されているとのこと。『サイバーパンク2077』においては、こうして生成されたアニメーションにアーティストがさらなるディテールを加えているそうだが、フェイシャル・モーションキャプチャすら不要とあって、作業の迅速化に繋がる技術だったものと思われる。

JaliResearchは、リップシンクが不自然だとプレイヤーが違和感を抱いてしまうため、ゲームの没入感においては重要な要素だと語る。同社の技術のように、台詞から自動生成したり言語ごとの違いを表現する手法は、たとえばスクウェア・エニックスも「HappySadFace」と呼ばれる独自システムを構築し『ファイナルファンタジーVII リメイク』にて使用していた(CEDEC2020)。ゲームのビジュアルが高度化するに従って、こうした細かい表現の追求が、最終的なクオリティを左右するのだろう。

『サイバーパンク2077』は、PC/PS4/Xbox One向けに11月19日発売予定だ。