画像生成ジェネレーティブAIの優れたプロンプトの作法を学びながら実践
Midjourney(ミッドジャーニー)を触り始めて、おおよそ1週間。様々なプロンプトを打ち込んできましたが、最初は凄い!となったものの、ここ最近はクオリティが上げられずに、上達の幅が狭まってきました。そこでプロンプトについて先人たちの知識をしっかり学び、生成の精度を上げるべく、試しながらまとめてみました。
理想的なプロンプトの構成・文法
「MidJourney,Stable Diffusion 優れたプロンプトを見つけるノウハウ」で紹介されている、理想的なプロンプトのパターンは以下とのこと。
<参照>参照したい画像URL
https://programmingforever.hatenablog.com/entry/2022/09/15/192639
<様式>写真、油彩、水彩、漫画、アニメ、etc
<主題>部屋にいる黒髪の笑顔の女性、古代の金属装飾品、etc
<副題>古式の蝋燭立て、群衆など主題に添えるもの。複数OK
<作風>作者名、作品名、ダークなど雰囲気、etc
<設定>ライティング、リアル、4k8k、etc
<機材>カメラ名、レンズ、フィルター、etc
<付記>各AIサイトのオプション類
今までは単純に文章を打ち込んでいましたが、文法・構成を意識して、再構築し一度生成してみました。以前、生成に利用したプロンプトを様式に合わせて書き直して見ます。
以前作成したプロンプト「A girl standing in a fantastic world,kawaii」で生成した画像は以下
プロンプトを再構成
上記フォーマットに合わせて、プロンプトを足して書き直します。現実的な写実にしたいので副題に「Wear Harajuku style clothes.」を追加し、以下でプロンプトを構成しました。
<参照> –
<様式> a manga of
<主題> One girl standing in a beautiful world
<副題> Wear Harajuku style clothes.
<作風> kawaii
<設定> 4K
<機材> Nikon D4 and Nikon Lens 50mm F1.4
<付記> –ar 3:2
プロンプト:「a manga of One girl standing in a beautiful world,Wear Harajuku style clothes,kawaii,4K,Nikon D4 and Nikon Lens 50mm F1.4 –ar 3:2」
生成された画像は以下
イラストにカメラやレンズを入れ込むとどうなるんだろうと思いましたが、イラストの世界でもきちんと一眼レンズで撮影したようなボケがでてきますね。以前から画角が変わらないと思っていたのですが、レンズの効果なのか、女性にフォーカスが当たる形になったので、以前よりはコントロールできている感がします。
このプロンプトの文法・構成はクオリティあげるためにも必要な書き方であると実感できました。
さらに詳細にプロンプトを書き込む
ランダム性を出す場合は、作風や設定、機材などのみで、プロンプトにバッファを持たせて生成するほうが良いとされていますが、生成したいイメージが明確にあるなら、より細かい描写を文章ですべきであるという話も見聞きします。
今度は生成したい画像を明確に定めて、上記の文法でプロンプトを作成してみます。
生成したいものは「プロンプトを勉強しているイラストレーション」。それをなるべく細かく書いてみたいと思います
<参照> –
<様式> a manga of
<主題> One girl is studying with a notebook and pen at a desk with many things on it in a room with a bookshelf
<副題> The girl is wearing pajamas and a jacket
<作風> kawaii
<設定> Dimly lit but faintly bright
<機材> Nikon D4 and Nikon Lens 50mm F1.4
<付記> –ar 3:2
部屋の詳細な描写や机の上のものなども足しました。
プロンプト:a manga of One girl is studying with a notebook and pen at a desk with many things on it in a room with a bookshelf,The girl is wearing pajamas and a jacket,kawaii,Dimly lit but faintly bright,Nikon D4 and Nikon Lens 50mm F1.4 –ar 3:2
生成された画像は以下
かなり頭の中のイメージと近いものが出来上がった気がします。あとは表情とか髪型とかマンガだったら作風とかも指定していくと、さらに精度が上がりそうですね。
次はそれぞれの領域のプロンプトにどんな言葉があって、どのように生成される画像に左右するのか、プロンプトの言葉についてまとめてみようと思います。