NISHIO Hirokazu[Translate]
Stable diffusionのimg2imgを試す
2022-08-31

2022-08-28

画像プロンプトを試す
元データは文字を書いただけの256×256の画像、テキストプロンプトとしては「black cats」と指定


strength=0.75(default)

0.5

0.2
あ、これテキストプロンプトの側の強さなのね、勘違いしてた

0.99

0.9
0.8
0.85

0.88

0.87

$ time python scripts/img2img.py --prompt "black cats" --init-img c.png --ckpt sd-v1-4.ckpt --strength 0.87 --n_sample=1
real 0m32.746s
user 0m24.091s
sys 0m5.784s

$ for i in {1..10} ; do python scripts/img2img.py --prompt "black cats" --init-img c.png --ckpt sd-v1-4.ckpt --strength 0.87 --n_sample=1 --seed ${i}; done

どれか選ぶならこれだが期待してたものとはだいぶ違うな…




ラフな指示を描いてみる

悪化してないか??
うーん、これはおそらく僕のラフの指示を「猫の配置に関する指示だ」とは理解せず「なんかゴチャゴチャしててこの辺が黒い」みたいな理解をしてるな

2022-08-31
多分"black cats"だけだと猫要素が足りない
もっとポーズとか指定してみる?
2匹いるならそれも指定するとか
あとにじむ?ペンじゃなくて一番固いやつでいいと思う

描き直した!

(複数の条件を同時に変えててなんだが)画像サイズは512にした
Stable Diffusionの画像サイズの影響が大きいなぁというのを見て。
--prompt "black cats" --strength 0.88


いいじゃん!

ちょっと意図が伝わってなかったのでラフを修正してみる

えー、なぜ。思い込みが激しいw

こんな時はシードを変えてリロールしてみよう
3枚目、なるほどなー。僕は適当にボールか何かのつもりで色を変えたのだがAIは「猫のそばにある水色のものはきっと魚だろう」と解釈したというわけか。いいね。ではプロンプトにfishも入れよう。


初期化に20秒、処理に1枚あたり30秒という感じ



前回「悪化した」と思ったこの画像プロンプトを512にして再度試す

前回よりだいぶ良い結果。
どうやら画像の塗りとかプロンプトの充実度ではなく、画像サイズが小さいのが問題の原因のようだ

一度生成した画像の一部をマスクして再生成する実験

0.8
0.9
0.5 これだとノイズのマスクが残ってしまう
0.7

img2imgのプロンプトを変える実験
左の入力を入れて右の出力が出たという話をしていて「猫は指定したんですよね?」と質問があった
正確に言えば画像の他にプロンプト"black cat"と乱数シードと、テキストと画像をどの程度で混ぜるかの値を指定している

プロンプトを別のものに変えてみる実験

black dog

black rabbit

無茶な指示をしてみる例
bicolor cat(2色の猫) 1匹の尻尾の先だけ白くなった
tabby cat(トラネコ) これも尻尾の先だけ縞模様になった

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]