LoRAデータの学習設定/教師データ改善履歴

2023年5月3日
AI BLOG Technology

LoRA Stable Diffusion ジェネレーティブAI

Stable Diffusion LoRAデータ作成について、今まで「インストール編」「教師データ準備編」「学習実行編」と、sd-scriptsを用いたLoRAデータの生成方法を、順を追って紹介してきましたが、実用レベルまでのLoRAデータの生成やパラメータの履歴を紹介したいと思います。

もっと良い方法あるとか、こうしたほうが上手くいったという、コメントやアドバイスありましたら「Twitter」のDMなどで教えていただけますとありがたいです。

前提条件

・学習するキャラクター：面識のある実写の人間（ご本人にAI学習許可済）
・教師データ：顔写真 – 顔の向きは異なるが基本は同じシチュエーションの写真
・今回は汎用性よりも本人に似ているを創れるかどうかに注力

暫定結果

2023年4月30日時点ではv11が一番精度が高く、本人にお見せした所、自分に近いところまで来ているとの感想のフィードバックを頂いた。

設定と素材データで同じパラメーターでも大きく結果が異なるという結果に。80%ぐらいのクオリティは結構簡単に創れるが、面識のある人間という所から、ちょっとした差でも、本人との差を大きく感じてしまうことから、イラストのキャラクターなどよりも、さらにシビアかもしれない。

今後もLoRAについては研究を重ねて、キャラクター以外でも実行していくため、実行履歴と精度については随時、良い方法が見つかった際に更新していきます。

現時点での課題

シチュエーションが同じ教師データだと、服装や場所が固定されてしまい、なかなか服装の変更やシチュエーションの変更ができない。顔だけ抽出してはいるが、同じシュチュエーションでの撮影のため、元データが色濃く反映されてしまい、教師データと同一画角が生成されやすい。LoRAの強度を弱めるとシチュエーションは変えることができるが、今度は顔が本人からは離れていく。

このあたりは解決方法や最適な教師データは何かなど、引き続き探っていきたい。

実行履歴と精度（上に行くほど最新）

v13　エポック10　繰り返し20　素材76

・768pxで学習
・正則化を1girlで実行
・非学習タグに1gril,solo,indoors, white background, curtain
・素材のバリエーションを登録

output
v11の進化verと期待したが、思った成果は上がらなかった。768pxの恩恵は本人に似せるという点では感じなかった。

v12　エポック15　繰り返し20　素材110

素材を増やし学習してみる。過学習が見られなかったので、
エポックを15まで上げて途中のものを使う形でチェック
正則化を1girlで実行
非学習タグにindoors, white background, curtain

▼output
v11には及ばず素材のバリエーションを大きく２つにしたので、衝突し合って本人から離れてしまったのかもしれない。

v11　エポック10　繰り返し20　素材55

素材を一気に55枚に増やした。

output
最終版でかなりうまく行った、まだ過学習までいっていない気がする。
顔の大きさがある程度あれば、再現性がかなり高い。

v10 エポック 15　繰り返し15　素材6

立ち絵の素材を３枚追加

output
立ちの絵が生成されるようになった。立ち絵は解像度が低いと顔が生成しきれない

v9 エポック 15　繰り返し15　素材3

v3に + 正則化 –network_dim=256 –network_alpha=128 に変更

output
大きな変更無し画像が少ない場合、step数はあまり関係が無いかもしれない。

v8 エポック 20　繰り返し60　素材3　

振り切って多めに学習してみる。

output
大きな変化は感じない

v7-2　エポック 10　繰り返し25　素材3　

ベースモデル変更

output
ベースモデルが変わるとかなり変更される

v7　エポック 10　繰り返し25　素材3　

透明の、正則化画像を投入

output
劇的な改善成果は無い

v6　エポック 15　繰り返し20　素材3

非学習タグに「1girl solo」をいれると着替えないとあったのでタグを削除した

output
服は着替えやすくなったが基本は変わらず

v5　エポック 15　繰り返し20　素材3　

背景がカーテンっぽいものが多いので、非学習タグに「indoors, white background」をすべてのキャプションデータへ

output
v4と変化無し

v4　エポック 20　繰り返し20　素材3

エポック、繰り返し回数をさらに増やす

output
服は着替えるのが難しい、強めの言葉であれば反映される

v3　エポック 15　繰り返し15　素材3

output
結構反映されたちょっと本人とははずれるが、服も着替えることができる

v2　エポック10　繰り返し10　素材3

output
全く反映されず

v1　エポック 10　繰り返し 1　素材3 　

output
全く反映されず

画像を日本語で解説できるAI「Japanese InstructBLIP Alpha」を試す

Stable Diffusionをローカル環境で動作させるための機材を選定

Stable Videoでイラストレーションからの動画生成を試す

動画生成AI「Kaiber.ai」のtxt2videoを試してみた

SD拡張「sd-webui-animatediff」でAIアニメ制作 txt2img編

D2Cシャンプーのパッケージを画像生成AI「Midjourney」で創る

進化するMidjourney v7が描く次世代のAI画像生成

Claude 3.5の新機能新モデル登場とPC操作機能

Claude 3 の連鎖プロンプト「プロンプトチェーン」を試す

Claude 3 で画像をピクセル化するプログラムを生成

Claude 3で登場人物の会話を生成する

Claude 3 でXMLタグを利用する

Back to list

投稿検索
ABOUT US?

tazikuは東京・名古屋を拠点に活動するクリエイティブスタジオです。

AI・生成AI・LLMとクリエイティブを掛け合わせ、新しいクリエイティブを提供します。

Works

Service

Contact
AI CREATIVE BASE

デザイン、ビジュアル、音声、空間演出。生成AIでクリエイティブワークフローに革新を与え、ビジネスの成果を最大化します。

詳細を見る
MENU
- BLOG
  - Think
  - Creative
  - Technology
    - AI
    - メタバース
- Project
  - AIアニメプロジェクト
  - どうくつたんけん
NEW POST