- Stable Diffusionでオタクの幻覚生成始めました
- Stable Diffusion WebUI Dockerを導入
- 呪文を練る
- 探索の過程
- 追加の調整
- 満足した
- 追記) Waifu Diffusionでも試してみました
Stable Diffusionでオタクの幻覚生成始めました
Stable DiffusionがWev UIで簡単に実行可能な環境を作れるようになっていたので、オタクの集団幻覚の1つである「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」に会いに行こうと思う
Stable Diffusion WebUI Dockerを導入
Stable DiffusionのフォークリポジトリでUIや色々な機能を提供してくれてる「Stable Diffusion web UI (AUTOMATIC1111) 」などがあるが、環境構築が面倒くさいので「Stable Diffusion WebUI Docker」を使う
セットアップを説明するブログではないのでこちらの記事を見ると良い
呪文を練る
Stable Diffusionの画像生成を補佐する呪文を準備する必要がある
そのまま入れてみる
そのまま「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」と入力してもオタクの求める幻覚にはたどり着けなかった
日本語で入力すると内容をあまり聞き取って貰えず、謎の日本人が大量生成されるようだ
翻訳してみる
今度はStable Diffusionに聞き取って貰いやすいように英語に翻訳して試す
「A girl wearing a straw hat and a white dress standing in a field of sunflowers」
雰囲気はだいぶ「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」に近づいたが現れた少女は三次元の様だ
オタクには立体恐怖症があるので二次元のイラストが生成されるように呪文を練っていく
追加のワードを指定する
画風や特徴のワードを追加していく
アーティスト名を追加することでかなり強く生成画像の特徴として現れる。オタクなので新海誠や庵野秀明を指定する
「Makoto Shinkai, Hideaki Anno, Kyoto Animation」
そして二次元イラストを表す際によく使われる単語などを追加
「Kawaii, illustration」
作品名を追加することでその特徴が反映されることもある。90年代のオタクらしいアニメの名前を追加してみる
「Neon Genesis EVANGELION, Di Gi Charat, serial experiments lain」
全文はこんな感じ
「A girl wearing a straw hat and a white dress standing in a field of sunflowers, Makoto Shinkai, Hideaki Anno, Kawaii, Kyoto Animation, illustration, Neon Genesis EVANGELION, Di Gi Charat, serial experiments lain」
それっぽくなってきたので生成枚数を増やし、理想に近い「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」の幻覚を探す
またその画像をベースに更に生成して行くことでどんどん理想の「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」の幻覚にたどり着くはず
探索の過程
雰囲気が好き
追加の調整
顔が崩れがちなのでワードを追加する。顔周りの単語を追加することで顔の生成精度が上がるっぽい
また、呪文は前の方にあるものが優先されるので顔周りの単語はなるべく前に差し込む
「perfect pupil, blush」
Cfg Scale(呪文にどれだけ近づけるかの数値)を弄ってみる
(麦わら帽子が消えた)
縦横幅を弄ることでまたアルゴリズムが変わるらしいので作ってみる
満足した
後ろ姿だが一番気に入った「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」
結局顔の調整に上手くいく事が無かったこともあり後ろ姿からピックアップ
多分こんな少女を見た記憶がある。きっと幻覚ではなく実在するんだ
ここら辺は学習モデルの影響が多そうなので二次元に特化したWaifu Diffusion というモデルを使い再挑戦したい所
追記) Waifu Diffusionでも試してみました
あの「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」に会いに行く2