なにメモ

コンピュータビジョンや機械学習関係の話題を書き綴ると思うブログです。

Clean Diffusionの紹介

題名:『文明開花・序』(この画像はパブリックドメインと加工自由な画像から作られています。 アルゴリズムはClean Diffusionと異なり、Imagenを用いています。)

はじめに

今年、Stable Diffusionなどの画像生成AIが突然流行った結果、社会が混乱しました。具体的には、たかだか数ヶ月の間に 研究フェーズから実用フェーズへと移行し、倫理や法的整備も全く追いつかないままに 芸術の分野に雷鳴のごとく画像生成AIは現れました。 その結果、人々は画像生成AIに対する倫理や価値観に混乱しました。 その混乱の原因の一つに、 画像生成AIは他人の著作物を一方的に学習して、真似をできてしまう ことがあります。 そのことは 著作権者の利益を不当に害すること に繋がりかねません。 これを理由として、自分の画風をコピーさせるサービスmimic (β)の提供や CLIP STUDIO PAINTへの画像生成AI搭載は一旦見送られることになりました。 画像生成AIにより画風をコピーできる技術の研究をしていた私も、正直悪用する方法しか思いつかず、 かなり何ヶ月も悩んでいました。

そこで、一方的に学習しても真似しても問題ない他人の著作物を使って画像生成AIを作れば、 社会の混乱を抑えられるのではないかと考えました。 その著作物とは、 パブリックドメイン (CC-0) の著作物 です。 パブリックドメインの著作物は著作権が切れており、自由に使用することができます。 このため、パブリックドメイン (CC-0) の著作物を用いた画像生成AIは著作権を侵害する可能性は非常に低いとの見解を 柿沼弁護士から伺いました。

今回は私が開発しているパブリックドメインのみでできた、著作権者の利益を不当に害する可能性がほぼない画像生成AI、Clean Diffusionを紹介します。 Clean Diffusionはまだ開発途中なので、構想と途中経過の紹介になってしまいます。予めご了承ください。

Clean Diffusionの概要

Clean DiffusionはStable Diffusionと全く同じ構造でできています。 Stable Diffusionと異なるのは学習データがパブリックドメインであることだけです。 したがって、具体的なアルゴリズムはStable Diffusionについて調べてください。

Clean Diffusionのメリットは著作権者の利益を不当に害する可能性がほぼないことがまず挙げられます。 したがって、商用利用しても限りなく0に近いぐらい問題はありません。後ろめたいことは全くありません。 その他にもStable Diffusionの環境で利用できること、Stable Diffusionの改造方法がそのまま利用できることが挙げられます。

Clean DiffusionのデメリットはStable Diffusionよりも表現力が非常に低いことです。 Stable Diffusionは23億枚学習に使われているのに対して、Clean Diffusionは現状7万枚しかありません。 したがって、改造に使うことは前提として考えてもらえれば、幸いです。 また、パブリックドメインの性質上、カラー写真が著しく少なく、カラーの実写に近い画像は作れない問題があります。

Clean Diffusionの現状

現在、国際版Clean Diffusionを開発しています。

github.com

Clean Diffusionは2段階ある学習のうち1段階をクリアした状態であり、2段階目をクリアする途中にあります。 Clean Diffusionの1段階目は画像を圧縮するところ、2段階目は画像を生成するところになります。 1段階目は画像を情報圧縮するところを検査するには、入力画像を圧縮し、展開する作業が一致するかどうかを見ることがあります。 以下の図は1段階目の学習初期になります。

学習初期の入力画像

学習初期に入力画像を圧縮し、展開したところ

学習初期には全く学習できていないことがわかります。 しかし、現状では次の通り、しっかり圧縮し、展開できていることがわかります。

学習中期の入力画像

学習中期に入力画像を圧縮し、展開したところ

したがって、それなりに画像を圧縮できることがわかりました。

一方で、2段階目をクリアする途中であり、調整が意外と難しい気がしています。 例えば、"A girl."の出力は現状この様になっています。

なんか油のインクを塗りたくったような絵が出ましたね。 まだ、うまく概念を学べていないのだと思います。 それというのも今やり直している最中であり、まだ学習して2日目なのです。 まともなものを出すには、おそらく1週間はかかります。

この2段階目の画像を見てしまうと、そもそも7万枚で本当に画像生成AIが作れるのかという疑問がわきます。 しかし、最初のアイキャッチに使っている画像は、アルゴリズムは異なりますが、 ほぼこの7万枚から作られています。したがって、Clean Diffusionもおそらく作れるだろうと考えています。

Clean Diffusionの予定

国際版Clean Diffusionは非常に表現能力が低いものになるでしょう。 しかし、パブリックドメインの定義は国によって異なるため、日本に絞れば、実は学習画像を増やし、表現能力を向上させられます。 現在、日本版Clean Diffusionの開発のために、約200万枚程度の画像を用意しています。先程の7万枚とは2桁も違います。 例えば、この中にはふしぎの国のアリスローマの休日などがあります。 ふしぎの国のアリスなどはパブリックドメインであるとされており、ローマの休日は司法がパブリックドメインであると判断しています。 このように国際版Clean Diffusionはあまり期待はしてもらっても困りますが、日本版はそれなりの表現能力は出せるように努力します。