for 3時

思想や妄想

あの「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」に会いに行く

Stable Diffusionでオタクの幻覚生成始めました

Stable DiffusionがWev UIで簡単に実行可能な環境を作れるようになっていたので、オタクの集団幻覚の1つである「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」に会いに行こうと思う

Stable Diffusion WebUI Dockerを導入

Stable DiffusionのフォークリポジトリでUIや色々な機能を提供してくれてる「Stable Diffusion web UI (AUTOMATIC1111) 」などがあるが、環境構築が面倒くさいので「Stable Diffusion WebUI Docker」を使う

github.com

セットアップを説明するブログではないのでこちらの記事を見ると良い

note.com

呪文を練る

Stable Diffusionの画像生成を補佐する呪文を準備する必要がある

そのまま入れてみる

そのまま「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」と入力してもオタクの求める幻覚にはたどり着けなかった

日本語で入力すると内容をあまり聞き取って貰えず、謎の日本人が大量生成されるようだ

翻訳してみる

今度はStable Diffusionに聞き取って貰いやすいように英語に翻訳して試す
「A girl wearing a straw hat and a white dress standing in a field of sunflowers」

雰囲気はだいぶ「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」に近づいたが現れた少女は三次元の様だ

オタクには立体恐怖症があるので二次元のイラストが生成されるように呪文を練っていく

追加のワードを指定する

画風や特徴のワードを追加していく アーティスト名を追加することでかなり強く生成画像の特徴として現れる。オタクなので新海誠庵野秀明を指定する
「Makoto Shinkai, Hideaki Anno, Kyoto Animation」

そして二次元イラストを表す際によく使われる単語などを追加
Kawaii, illustration」

作品名を追加することでその特徴が反映されることもある。90年代のオタクらしいアニメの名前を追加してみる
Neon Genesis EVANGELION, Di Gi Charat, serial experiments lain

全文はこんな感じ
「A girl wearing a straw hat and a white dress standing in a field of sunflowers, Makoto Shinkai, Hideaki Anno, Kawaii, Kyoto Animation, illustration, Neon Genesis EVANGELION, Di Gi Charat, serial experiments lain

それっぽくなってきたので生成枚数を増やし、理想に近い「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」の幻覚を探す

またその画像をベースに更に生成して行くことでどんどん理想の「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」の幻覚にたどり着くはず

探索の過程

雰囲気が好き

追加の調整

顔が崩れがちなのでワードを追加する。顔周りの単語を追加することで顔の生成精度が上がるっぽい

また、呪文は前の方にあるものが優先されるので顔周りの単語はなるべく前に差し込む
「perfect pupil, blush」

Cfg Scale(呪文にどれだけ近づけるかの数値)を弄ってみる

(麦わら帽子が消えた)

縦横幅を弄ることでまたアルゴリズムが変わるらしいので作ってみる

満足した

後ろ姿だが一番気に入った「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」
結局顔の調整に上手くいく事が無かったこともあり後ろ姿からピックアップ
多分こんな少女を見た記憶がある。きっと幻覚ではなく実在するんだ

ここら辺は学習モデルの影響が多そうなので二次元に特化したWaifu Diffusion というモデルを使い再挑戦したい所

github.com

追記) Waifu Diffusionでも試してみました

あの「ひまわり畑に立っている麦わら帽子を被って白いワンピースを着ている少女」に会いに行く2

ivgtr.hatenablog.jp