高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI

イギリスのスタートアップ企業Stability AIは8月22日(現地時間)、高性能画像生成AI「Stable Diffusion」をオープンソース化。一般向けに公開した。昨今話題の「Midjourney」よりも高性能な画像生成AIであると評する声も上がっているようだ。

イギリスのスタートアップ企業Stability AIは8月22日(現地時間)、高性能画像生成AI「Stable Diffusion」をオープンソース化。一般向けに公開した。同時に画像生成AIを利用したWebサービス「DreamStudio」のβ版をリリースした。画像生成AIといえば、AIに対して文章を入力することで画像を作成できるサービス「Midjourney」が、インターネット上で話題となったばかりだ。しかし今回リリースされたStable Diffusionは、より高性能な画像生成AIであると評する声も上がっているようだ。

Stable DiffusionはMidjourneyと同じように、AIに対して文章を入力することで画像を生成できる。DreamStudioはアカウントを登録すれば誰でも利用できる。AI技術者向けコミュニティサイトのHuggingFaceにはコードやドキュメントが公開されており、AIを試すことができるデモページも存在。配布されているモデルについては、ライセンスを明記することで営利・非営利を問わず使用が許可されているのも特徴だ。試しに筆者がデモページを用いて「AUTOMATON」という単語のみを入力して出力してみたところ、以下のような画像が生成された。


詳細なシチュエーションを指示する内容ではないため、機械の内部構造のようなものであったり、人の形を模した機械のようなものが描かれているだけの画像となっている。これだけでは生成された4枚の画像はどれも抽象的と言わざるを得ない。しかし、このような画像を人間の手で作成するには、どうしても相応の手間を要する。たったひとつの単語を入力して数分待つだけで、これほど精巧な画像を自動で作成できるサービスの登場は、大きな技術革新といえる。

一方、Stable Diffusionが最も得意としているのは、よりリアルで写真のような画像だ。適切な文章を入れることで、実在の動物をかけあわせた架空の動物や、実際に撮影された写真のような精密な画像が生成できる。いち早く使い方のコツについて解説しているやまかず氏の記事では、Stable Diffusionを用いて生成された画像が多数掲載されている。これらが生成された画像であると知らなければ、実際の写真だと思い込んでしまうのも仕方がないほどのクオリティだ。

注目すべきなのは、Stable Diffusionがアニメ調のイラストについても非常に高い精度をもっている、という点だろう。すでにインターネット上では、Stable Diffusionを利用して作成されたイラスト風の画像も投稿されている。そのまま使用されても問題なさそうな品質のイラストに仕上がっているのは、驚嘆の一言に尽きる。

https://twitter.com/8co28/status/1561932766002167808

より精密な画像を生成するにはまだまだ長い文章が必要であり、誰でも手軽とは呼べない状況だ。思い描いた画像を生成するための文章にも、どうやらコツが要る様子。なお、インターネット上では任意にAIを操る文章について、呪文という呼称が定着しつつあるようだ。

一方、ひと足先に話題となったMidjourneyにも変化が訪れているようだ。Stable Diffusionのソースを学習したと思しきアップデートにより、こちらでも二次元的なキャラクターを描画できるようになったとのこと。Stable Diffusionで生成されたものと遜色ないイラスト調の画像に仕上がっている。オープンソースを取り込むことで短期間に進化できるのは、AIならではの特徴といえる。

https://twitter.com/8co28/status/1561967065741037568

Midjourneyを用いた、架空のクリーチャーによる交通事故の様子をリアルに描写した画像も投稿されている。映画のワンシーンのような映像に仕上がっており、CGで作り込まれた映像と遜色ない仕上がりだ。画像生成AIが話題になってからこの短期間で、イラスト、実写問わずその実力を発揮しているようだ。

しかし、こうした画像作成AIは革新的であると同時に、いくつかの問題を抱えているのも事実だ。特に問題視されているのは、生成された画像の、著作物としての取り扱いについてだろう。AIの学習データに著作物が利用されること自体は、問題ないと解釈されることが多い。AIは無作為に学習したデータを利用するが、絵柄や作風、構図といったものは著作権の対象にはならない。しかし生成された画像が、特定人物の肖像権に抵触する可能性は否定できない。

ほかにはAIが出力したものに対して著作権が発生するかどうか、という点にも意見が飛び交っている。既存のイラストと酷似した画像が、偶然生成されてしまうケースもあるだろう。しかし既存のイラストを、AIが意図的に模したかどうかを証明することは、判断基準が曖昧で非常に難しいと言わざるを得ない。

画像生成AIはStable DiffusionやMidjourneyのほかにも、すでにリリースされているもの、あるいはリリースが予定されているものがある。画像生成AIの登場は各業界にさまざまな影響を与えており、Midjourneyで作成された画像を用いたホラーノベルゲームもすでに登場している(関連記事)。クリアすべき課題は残されているものの、今後も画像生成AIを利用したコンテンツが増えていくことが予想される。そしてオープンソースであるStable Diffusionの登場によって、デバイスを問わず手軽に高品質な画像を生成できる未来が訪れるのも、そう遠くはないのかもしれない。


※ The English version of this article is available here

蒼唯レン(VTuber)
蒼唯レン(VTuber)

自分のことをジーニアスだと思い込んでいる物書き系個人VTuber。FF14とドルフロをこよなく愛する特撮オタク。

記事本文: 56