題名：『文明開花・破』（この画像はAIが構図を考え、AIが生成したものです。著作権はありません。）

はじめに

本ポエムでは今年に起こった 創作業界における産業革命 、略して 創作革命 について振り返ります。創作革命というぐらいなので、文章（小説、対話他）、画像（写真、イラスト他）、映像（実写、アニメ他）、3Dモデル、4Dなどあらゆる創作業界に影響を与える技術が発表されました。しかし、本記事は画像生成AIアドベントカレンダーなので、話が発散しないように画像生成AIのみに焦点を絞ります。ポエムなので、引用とか面倒なのは端折ります。予めご了承ください。

今年までの画像生成AIのあらすじ

画像生成について遡ると、コンピュータグラフィックスの世界からになってしまうので、敵対的生成ネットワーク (GAN) から始めましょう。 2014年、ディープラーニングによる画像生成のアイデア、GANが生まれました。厳密に言うとややこしいので簡単に言うと、本物の画像と生成した画像を区別するAIを騙すように学習する画像生成AIの作り方とその枠組をGANといいます。ディープラーニングのゴッドファーザーと呼ばれるヤン・ルカンから、GANは「機械学習においてこの10年間で最も興味深いアイデア」と呼ばれました。こうして、ディープラーニングによる画像生成AIは花を開いていったのです。

2021年末まではディープラーニングによる画像生成AIはGAN一強という状態になっていきましたが、 2020年にひっそりとライバルが現れました。これが拡散モデルです。拡散モデルも厳密に言うとややこしいので簡単に言うと、最強のノイズ除去モデルをディープラーニングで作り、そのノイズ除去モデルにただのノイズを入れると、そのノイズがきれいな画像になるというとんでもない代物です。僕としては拡散モデルを 現代では発見してはいけなかったオーバーテクノロジー と考えています。この拡散モデルはやがてGAN一強の世界を塗り替えることになります。

Imagenの発表

2022年5月、Googleからこれまでとは桁外れの画像生成AIが発表されました。拡散モデルで作られたImagenです。

( https://imagen.research.google/ より引用)

Imagenで作られた画像をみて、これまでとは次元が違うと直感的に感じました。しかし、この時点では技術的に公開されただけであり、Googleやるなぁと思った程度でした。これを契機に私は拡散モデルの研究をはじめました。この研究の結果、拡散モデルとイラストの相性の良さを知りました。拡散モデルは人間が描いた絵の画風を完全にコピーできてしまうのです。いらすとやのみふねたかしさんに許可を得て、画像つきで英語や日本語でインターネットに注意を促しました。

(実験に使われたサンプル。片方が人間によるもの、片方が拡散モデルによるもの。どちらがどちらか分かりますか？)

あまりの相性の良さに「パンドラの箱を開けてしまった」 と世界で最初につぶやきました。遺言として、この現象を悪用しないでください と付け加えておきました。

MidJourneyとDALL·E 2 の公開

2022年8月、拡散モデルによる画像生成AIがDALL·E 2がベータテスト、MidJournyが一般公開として、サービスとして提供され始めました。ちなみに私がMidJourneyで最初に出力したのは、エターナルフォースブリザードでした。

私はこの頃にImagenの再現実装で提案手法を実装していたので、ちゃんと学習するとこんなにきれいになるもんなんだなと驚いていました。

Stable Diffusion 1.4の配布

拡散モデルによる画像生成サービスの提供は私も想定していました。しかし、世の中には突き抜けた人もいるものです。拡散モデルによる画像生成、それ自体を世界中に無償配布するというとんでもないことがおきました。そのモデルの名は Stable Diffusion。世界に衝撃が走りました。

私も衝撃を受け、Imagenの改造もそこそこに、Stable Diffusionの改造をはじめました。たとえば、東大の相澤先生の許可を得て、赤松先生が描いたラブひなのヒロインを学習させるなんてこともしました。

とはいえ、これはあくまでも実験であり、このモデルを一般公開するとか、サービスで稼ごうということは行いませんでした。 著作権者の利益を不当に害することとなる 悪用と思ったからです。著作権法第30条の4によると、

第三十条の四　著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。

とあり、やってはいけないと考えていたのです。

Waifu Diffusionの配布

2022年9月、拡散モデルとイラストの相性の良さに気づいた人がDanbooruというイラスト版漫画村由来のデータを学習して、画像生成AI、Waifu Diffusionを一般へ配布しました。

(https://huggingface.co/hakurei/waifu-diffusion より引用)

個人的にはこれは拡散モデルの悪用であり、やってはいけないことだと考えています。この配布の理由について「趣味」と答えたそうです。 著作権者の利益を不当に害することとなる 可能性が高いことを趣味で平気で行う人をみて、思いやりの無さすぎる子供並みの倫理観かよと本音思いました。

このあたりから、イラストと拡散モデルの問題について本格的に対応し始めました。

Novel AI Diffusionの公開

2022年10月、Danbooruなどを使った高品質なイラストを生成するNovel AI Diffusionが公開されました。

NovelAI's Image Generation, #NovelAIDiffusion is live on https://t.co/UTsnpZKa6W now!

NovelAI Diffusion Anime image generation is uniquely tailored to give you a creative tool to visualize your visions without limitations, allowing you to paint the stories of your imagination. pic.twitter.com/WZEpQ5idgI
— NovelAI (@novelaiofficial) 2022年10月3日

最初から有料課金です。これは完全に 著作権者の利益を不当に害することとなる 悪用だと判断しました。 Twitterで抗議したり、Discordで日本の苦情を伝えて運営に対話しました。しかし、相手はデラウェア州の会社、日本の法律が適用できません。そこで、苦肉の策として考えたのが、力を持って力を制する作戦でした。つまり、Imagenを使って、Novel AI Diffusionを超える品質のものを日本で作り、ユーザを誘導すれば、日本の法律が適用できる世界になると考えたのです。この作戦は、なんかいろいろな人から後押しされ、実行することにしました。開発の現状はTwitterを見てください。

pixivなどプラットフォーマーの混乱

Novel AI Diffusionは品質もそうですが、生成速度も高いことが問題としてありました。そして、最も深刻なのは、準児童ポルノの生成が可能であることです。この結果、pixivにはものすごい量の準児童ポルノがアップロードされる事態となりました。さらに厄介なのはそれに伴って、本物の児童ポルノ画像もアップロードされるというひどいことになりました。なお、pixivにあげられた児童ポルノはすぐに削除されるようになっています。

NijiJourneyの公開

2022年11月、MidJourneyと連携したNijiJourneyが公開されました。 Novel AI Diffusionよりも品質が高いのはよいことなのですが、問題は版権のあるキャラがそのままでてしまうことです。

#nijijourney 、二次創作の解像度がエグすぎる
NAIでもワンピースはパチモンみたいなのしか出なかったけど、めちゃくちゃ完璧に出る
promptはそれぞれルフィとかゾロとか、直球にしか入れてない pic.twitter.com/5HN1VOsovx
— かりみや (@Callimiya) 2022年11月20日

これは、 著作権者の利益を不当に害することとなる 可能性が極めて高い、つまり違法性のあるサービスです。おまえらの倫理観本当にどうなってるのという気持ちになります。

美のハイパーインフレーション

さて、2022年12月1日、Stable Diffusionが画期的な高速化を実現し、利用料を激減させました。この結果、Stable Diffusionのサービスを0.9秒0.3円で実現できるようになりました。

ただ、ここには恐ろしい現実があります。それはこのStable Diffusionを改造してイラストを生成できるようにした場合です。この絵、きれいと思いませんか？

これは私が個人で作っている画像生成AIで作った画像です。学習に使う画像はなるべく配慮しているつもりです。この絵の製造原価は約0.1円（クラウドで作成した場合）です。ちなみにどんな絵を書くか内容を考えるかも自動でやっているので、その時間を含めると約7秒で生成しています。

イラストレーターの方々、このクラスを7秒0.1円で提供できますか。

【進捗共有その1】
学習用Cool Japan Diffusionですが、学習し直してまだ途中です。この時点でテストで生成された1024枚のうち、64枚を選んでタイル状にしました。これらは1枚あたり2秒でAIにより構図を考えられ、生成されました。クリエイターの方は見ない方がいいかもしれません。 pic.twitter.com/diaxkrX4oA
— あるふ (@alfredplpl) 2022年11月20日

そういうことを考えなければならない時代になっているのだと思います。

まとめ

はっきりいうと、現在、 創作業界における産業革命 の真っ只中です。国家や世界レベルで対策する必要があります。最悪、ベルヌ条約を書き換える必要があるでしょう。一方で、この技術をうまく活かしていく方法も見つかる可能性があります。将棋界がAIに事実上の白旗を上げた一方で、藤井聡太さんのようなAIを活用した天才が現れるかもしれません。このエンジニアとクリエイターの折り合いをつけていくことが今後の課題となります。

なにメモ

コンピュータビジョンや機械学習関係の話題を書き綴ると思うブログです。

創作革命元年を振り返る