なにメモ

コンピュータビジョンや機械学習関係の話題を書き綴ると思うブログです。

学習用Cool Japan Diffusionの紹介と公開するかについて

(prompt: manga, monochrome, a cute girl with long white hair in the coffee shop)

はじめに

今回、学習用Cool Japan Diffusionを紹介します。 どういう為のものなのか、どういうものなのか、どういうものが生成できるのかについて説明します。

学習用Cool Japan Diffusionの目的

このモデルは、Cool Japan DiffusionにStable Diffusionがもつ知識を与えるために作られています。 それというのも、Cool Japan DiffusionはStable Diffusionの派生モデルと違って、 ゼロベースで作られているカスケード型拡散モデルであるため、 まったく知識がありません。 このため、Stable Diffusionがもつ23億枚の知識のうち、よく使いそうなプロンプトや画像を抽出して、 再利用することをしています。 あえて、LAIONを使わないのは、LAIONがダウンロードするには多すぎることと著作権の問題があると判断したからです。 その点、Stable Diffusionの出力はCC-0であるため、著作権はなく、ある意味安心して使うことができます。 (本当か?)

学習用Cool Japan Diffusion 2.0の作り方

学習用Cool Japan Diffusion 2.0はStable Diffusion 2.0のVAEとU-Netを通常のファインチューニングで調整したモデルです。 イメージとしては、VAEは表現能力を司る機能、U-Netは概念を記憶する機能を持っています。 使用されている学習データは、主にTwitter APIにより取得した、Twitterに公開されている画像、20万枚程度です。 VAEにはこの20万枚程度の画像が学習されています。 このうち、9万枚はCLIP interrogatorにより、プロンプトがつけられています。 U-Netにはこの9万枚が学習に使用されています。

学習用Cool Japan Diffusion 2.0の生成例

今回は、プロンプト自動生成AIが勝手に出力していた白い長い髪の少女を題材に説明していきます。 まずは単なる「白い長い髪の少女」を生成してみました。

(prompt: a girl with long white hair)

あ、Stable Diffusionで出てくる微妙なイラストだとなります。 それでは、少し工夫してみましょう。Stable Diffusion では kawaii や moe を入れると、なんかアニメっぽくなります。 そこで、それらを入れてみると、こうなります。

(prompt: a kawaii girl with long white hair)

(prompt: a moe girl with long white hair)

なんかちょっとそれっぽくなりました。で、本題に入ると、フレーバーを付け加えるとこうなります。

(prompt: anime, a beautiful girl with long white hair, 4k, detailed)

(prompt: anime, a cute girl with long white hair, 4k, detailed)

なんか心がぴょんぴょんしそうなキャラが出てきましたね。 なんだかコーヒーが飲みたくなってきたので、カフェに行きましょう。

(prompt: anime, a cute girl with long white hair and blue eyes in the coffee shop, 4k, detailed)

カフェに行きました。しかし、キャラが違う気がします。 さて、このように背景を追加することもできますが、 これらをマンガ風にする事もできます。

(prompt: manga, monochrome, a cute girl with long white hair)

(prompt: manga, monochrome, a cute girl with long white hair in the coffee shop)

他のブログでも指摘がありましたが、たしかにあまり本モデルは背景には強くありません。 参考程度に背景に使えそうな生成画像を貼ります。

(prompt: mountains, fantasy, concept art, 4k, 8k, highly detailed)

(prompt: anime, buildings in Tokyo, concept art, 4k, detailed)

(prompt: anime, plains, concept art, 4k, detailed)

(prompt: anime, concept art, starry sky, 4k, detailed)

これもやはりマンガ風にできます。

(prompt: manga, monochrome, buildings in Tokyo, highly detailed)

また、同じく配布する予定のイラストに特化した超解像HAT-CC-0を使うことで印刷品質に上げることができます。

このように使うことができます。ただし、あくまで主目的はCool Japan Diffusionに知識を与えることなので、このモデル自体を人が使用することは想定されていません。

学習用Cool Japan Diffusionは人が使うことを想定していないモデルのため、悪用すると、デジタル贋作 (Digital Forgery) という現象 [1] を引き起こすことができます。 例えば、イリヤさんという人が描いた少女を生成しましょう。

(prompt: a painting of a girl with long white hair, 4k, detailed, by Ilya)

迫力のある少女が出てきましたね。では、とある名前を入れ、生成してみましょう。

(prompt: 非公開)

ところで、イリヤさんという攻殻機動隊などで有名なイラストレーターがいます。

このような行為は、もし、人が触る場合やらないでほしいと願うばかりです。

学習用Cool Japan Diffusion 2.1の公開について

学習用Cool Japan Diffusion 2.1は2.0よりも遥かに強力になります。 VAEの学習用に60万種類以上使われる予定です。 なぜ枚じゃなく種類かというと、データ拡張と呼ばれる手法で無限に増やせるからです。 U-Netの学習用には30万枚以上使用される予定です。 これもデータ拡張で倍ぐらいには増やせます。

現在、Waifu Diffusionと呼ばれるアニメ・マンガ用に特化したStable Diffusionの派生モデルが公開される予定となっています。 これはイラスト版漫画村とも呼ばれる無断転載サイトDanbooruというサイトから取得されたデータ600万枚以上で作られています。 個人的には非常に問題があるモデルだと思っています。

このモデルを使用することは利用者のモラルを低下させると判断したため、 著作権法、および、刑法175条、各サイトの規約やガイドラインを考慮したモデルである学習用Cool Japan Diffusion 2.1を 公開し、こちらを使用してほしいと思っています。 ただ、それが日本の創作業界に悪影響を及ぼすと思うのであれば、 私に苦情を言ってください。 それらを加味して、公開を判断します。

よろしくおねがいします。

参考文献

[1] Gowthami Somepalli et al., "Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models" arXiv, 2022

arxiv.org