stable diffusionのimg2imgを試す

NISHIO Hirokazu [Translate]
Stable diffusionのimg2imgを試す
2022-08-31

2022-08-28

Stable diffusion
画像プロンプトを試す
元データは文字を書いただけの256×256の画像、テキストプロンプトとしては「black cats」と指定


strength=0.75(default)

0.5

0.2
あ、これテキストプロンプトの側の強さなのね、勘違いしてた

0.99

0.9
0.8
0.85

0.88

0.87

$ time python scripts/img2img.py --prompt "black cats" --init-img c.png --ckpt sd-v1-4.ckpt --strength 0.87 --n_sample=1
real    0m32.746s
user    0m24.091s
sys     0m5.784s

$ for i in {1..10} ; do python scripts/img2img.py --prompt "black cats" --init-img c.png --ckpt sd-v1-4.ckpt --strength 0.87 --n_sample=1 --seed ${i}; done

どれか選ぶならこれだが期待してたものとはだいぶ違うな…




ラフな指示を描いてみる

悪化してないか？？
うーん、これはおそらく僕のラフの指示を「猫の配置に関する指示だ」とは理解せず「なんかゴチャゴチャしててこの辺が黒い」みたいな理解をしてるな

2022-08-31
 from /villagepump/2022/08/28
多分"black cats"だけだと猫要素が足りない
もっとポーズとか指定してみる？
2匹いるならそれも指定するとか
あとにじむ?ペンじゃなくて一番固いやつでいいと思う

描き直した！

(複数の条件を同時に変えててなんだが)画像サイズは512にした
Stable Diffusionの画像サイズの影響が大きいなぁというのを見て。
--prompt "black cats" --strength 0.88


いいじゃん！

ちょっと意図が伝わってなかったのでラフを修正してみる

えー、なぜ。思い込みが激しいw

こんな時はシードを変えてリロールしてみよう
3枚目、なるほどなー。僕は適当にボールか何かのつもりで色を変えたのだがAIは「猫のそばにある水色のものはきっと魚だろう」と解釈したというわけか。いいね。ではプロンプトにfishも入れよう。


初期化に20秒、処理に1枚あたり30秒という感じ



前回「悪化した」と思ったこの画像プロンプトを512にして再度試す

前回よりだいぶ良い結果。
どうやら画像の塗りとかプロンプトの充実度ではなく、画像サイズが小さいのが問題の原因のようだ

一度生成した画像の一部をマスクして再生成する実験

0.8
0.9
0.5 これだとノイズのマスクが残ってしまう
0.7

img2imgのプロンプトを変える実験
左の入力を入れて右の出力が出たという話をしていて「猫は指定したんですよね？」と質問があった
正確に言えば画像の他にプロンプト"black cat"と乱数シードと、テキストと画像をどの程度で混ぜるかの値を指定している

プロンプトを別のものに変えてみる実験

black dog

black rabbit

無茶な指示をしてみる例
bicolor cat(2色の猫) 1匹の尻尾の先だけ白くなった
tabby cat(トラネコ) これも尻尾の先だけ縞模様になった