画像生成AI「DALL-E 3」は、どこまで画像をコントロールできるか?
自然言語の手軽さと、驚異的な理解力を兼ね備えた画像生成AI「DALL-E 3」。非常に協力な画像生成AIですが、クライアントワークや実際の仕事に利用するには細部まで詰める必要がでてきます。今回は「DALL-E 3」でどこまで生成した画像をコントロールして変更を加えていくことができるかを試しながらまとめました。
DALL-E 3 とは?
DALL-E 3はOpenAI社が開発公開した画像生成AIで、自然言語のやりとりで画像生成を行うことが可能です。現在はChatGPTのPlusとEnterpriseの2つの有料プラン、またはMicrosoft BingのImage Creatorにて利用することが可能です。
その他の画像生成AIとの大きな違いは、ChatGPTとの統合と、プロンプトの理解力となり、曖昧に投げた指示もChatGPTが的確にプロンプト化して投げることで、想像に近い画像を生成することが可能です。
ベースになる画像を生成
ここからどこまで修正が効くかを実験してみます。
自然言語による修正指示
1.表情の変更
「真顔にしてください。」と指示
雰囲気は保たれていますが、バックの持ち手とか街の色とかは変わっています。
2.オブジェクトを追加
「メガネをかけてください」と指示
メガネを強調したいからか複数のカットへ変更される顔やアクセサリーなど雰囲気は保たれている。
3.服装の変更
「服装だけ変えてください」と指示
服装が変わったら顔が変わってしまった。全体に影響があるような変更を指示すると印象が変わってしまいます。
まとめ
・完全に画角や線をFIXさせてコントロールするのは難しい
・雰囲気を保ったまま修正は可能
・想定外な路線に入ると調整していくのが難しい
完全にコントロールすることは難しいですが、印象をそのままに自然言語でやり取りしながら調整していくことはできそう。ただこのバックをこういった形でなどの本当に細かい部分はまだまだ難しい。
まだまだ創りたいものが具体化できていない時に、自分の中のイメージを探る用途にかうのが良さそうです。