Clip skipの値が生成結果に与える影響をテスト
先日「Clip skipをStable Diffusion WebUIで設定する」という記事で、Clip skipの設定方法について触れましたが、今回はClip skipの値が画像生成にどう影響するのかを実際試してみました。
Clip skipとは?
Clipとは、「テキストと画像の関連性を学習する」モデル。clip を使って、プロンプトから生成させたい画像が何かを判断しています。Stable Diffusion は、このClipを12層重ねて、画像を生成しています。
Clip skipとは、この層を何層目で止めて画像を生成するかという設定になり、重ねれば重なるほど様々な概念が入ってきて、ある程度まではクオリティがあがりますが、多くの場合多すぎてよくわからない画像が出力されてしまうという形になります。
Clip skipの値変更による生成結果
Clip skip1〜12まで、同一シード、同一プロンプトで生成しました。
Clip skip1
Clip skip2
Clip skip3
Clip skip4
Clip skip5
Clip skip6
Clip skip7
Clip skip8
Clip skip9
Clip skip10
Clip skip11
Clip skip12
Clip skipの値とクオリティについて
明確に6あたりからは要素が多すぎてキャラクターのデザインが保たれなくなってきています。後半にもなるともはやプロンプトの意図はまったく反映されていないものになりました。
モデルにもよりますが、いつも違う感覚だったり、少し変化を加えたいときはClip skipの値を多少上げてみるのも一つの手かもしれませんね。