ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる
マサチューセッツ工科大学卒業生の技術者15氏は現在、テキスト読み上げソフト「15.ai」の最新バージョンを公開中だ。本プログラムではさまざまなゲームや映画・アニメキャラクターのボイスが用意されており、ユーザーが入力した任意の英語をキャラクターの声で読み上げてくれる。現在17の作品のキャラクターが登録されており、お気に入りのキャラクターに好きなセリフを読み上げてもらうことができる。
*『Portal』よりGLaDOSの音声でSiri風に話してもらった作例。
本プロジェクトはマサチューセッツ工科大学の学部研究機会プログラムの一環として発展を遂げてきた。「15.ai」はディープラーニングにより、さまざまなキャラクターの声を生成することができる。たとえ入力されたテキストに対して利用可能なデータがほとんどない場合でも、トレーニング済みのアルゴリズムを複数組み合わせ、独自にカスタマイズされたネットワークを使用することで音声を出力可能だ。
これまでにもいわゆるディープフェイクのような、テキスト読み上げソフトウェアは多数開発されてきた。しかし15.aiが画期的なのは「データが30秒しかない文字でも、ほぼ100%の発音精度を達成できること」そして「ごくわずかなデータのみを使って、自然な感情のこもった音声を数百以上生成できること」だという。
仕組みとしては、まずOxford Dictionaries APIやWiktionaryといったオンライン辞書、オープンソースの発音辞書CMU Pronouncing Dictionaryなどを素材として使用。辞書をルックアップテーブル(対応を確認する参照表)とすることで、各単語を音素として分解している。また現代の造語についてもGoogle・Reddit・4chan・Urban Dictionaryなどをソースとすることで学習しているようだ。また、「LibriTTS」と呼ばれる読み上げソフト向け言語資料のデータセットも取り込んでいる。そのため、もし辞書に載っていない単語に出会っても、その発音を音韻法則から推測して発声することが可能となっている。
もうひとつ15.aiの大きな特徴として挙げられるのが、豊かな感情表現だ。キャラクターの声を再現するだけでなく、入力された文章から感情を推測し、そのとおりの抑揚をつけて音声が発される。ここで用いられたのは、「DeepMoji」と呼ばれるプロジェクトの分析モデル。AIが文章に組み込まれた感情のニュアンスを読み取るための学習の仕組みだが、ユニークなのは感情の読み取りに「絵文字」を用いているという点だ。絵文字を含んだ12億件ものツイートを学習することで、感情を表現するのに言葉がいかに利用されているかを人工知能に学習させている。
その結果、たとえば「君は僕を傷つけるのが好きだね」という文章に対しては「泣き顔」や「割れたハート」といった絵文字があてがわれ、悲しげなトーンで出力。対して、「君は僕を傷つけるのが好きだね、クソ野郎!」と入力された場合は怒りの絵文字が適用され、激しい語調でまくし立てる音声がアウトプットされる。DeepMojiを使うことで、自動読み上げモデルは感情データについてトレーニングする必要なく、エモーショナルなボイスを生み出すことができるようになるわけだ。同時に複数のキャラクターをトレーニングすることもできるため、学習の手間は大幅に削減。わずか15秒のデータで音声を複製することができるという。また、埋め込まれた「絵文字(感情)」などのデータにより、音質を劣化させることなく出力することができる点も、15.aiの画期的なポイントだそうだ。
*DeepMojiのトレイラー
15.aiによる音声を利用した作品は、配布サイトでのURLを記載していれば自由に投稿することが可能だ。すでにTwitterやYouTubeでは、さまざまなゲームキャラクターの音声を使った大喜利動画が盛んだ。とりわけ盛り上がっているのは『Team Fortress 2』の作例集。同作は利用可能なキャラクター人数が多いのに加え、ファンメイド映像がもともと盛んなジャンル。Valve社製の3D映像編集ソフト『Source FilmMaker(SFM)』と組み合わせて、活き活きした動画が制作されている。
このほか『Portal』や『Half-Life』シリーズなどValve作品のボイスが豊富な印象だ。『Undertale』『Celeste』までラインナップされているのはちょっとしたお茶目だろう。国内作品からは『ペルソナ4』の久慈川りせも参戦しているが、英語版ボイスのみなので注意。キャラクターは随時追加する予定出そうだ。
15.aiはこちらにてブラウザ上で試せるほか、気に入った音声ができたらwav.ファイルとしてダウンロードも可能だ。うまく発音してくれない場合は要注意の単語を[ ]で囲むか、こちらの発音辞書でARPAbet文字列を調べて( )で囲んで入力してみるとうまくいくかもしれない。なお15.aiは実在の人物には未対応のため、「15.aiを用いた」とする政治的ディープフェイク映像には騙されないように注意喚起されている。