画像生成AI「DALL-E 3」は、どこまで画像をコントロールできるか？

2023年10月25日
AI BLOG Technology

DALLE3 生成AI

自然言語の手軽さと、驚異的な理解力を兼ね備えた画像生成AI「DALL-E 3」。非常に協力な画像生成AIですが、クライアントワークや実際の仕事に利用するには細部まで詰める必要がでてきます。今回は「DALL-E 3」でどこまで生成した画像をコントロールして変更を加えていくことができるかを試しながらまとめました。

DALL-E 3 とは？

DALL-E 3はOpenAI社が開発公開した画像生成AIで、自然言語のやりとりで画像生成を行うことが可能です。現在はChatGPTのPlusとEnterpriseの２つの有料プラン、またはMicrosoft BingのImage Creatorにて利用することが可能です。

その他の画像生成AIとの大きな違いは、ChatGPTとの統合と、プロンプトの理解力となり、曖昧に投げた指示もChatGPTが的確にプロンプト化して投げることで、想像に近い画像を生成することが可能です。

ベースになる画像を生成

ここからどこまで修正が効くかを実験してみます。

自然言語による修正指示

1.表情の変更

「真顔にしてください。」と指示

雰囲気は保たれていますが、バックの持ち手とか街の色とかは変わっています。

2.オブジェクトを追加

「メガネをかけてください」と指示

メガネを強調したいからか複数のカットへ変更される顔やアクセサリーなど雰囲気は保たれている。

3.服装の変更

「服装だけ変えてください」と指示

服装が変わったら顔が変わってしまった。全体に影響があるような変更を指示すると印象が変わってしまいます。

まとめ

・完全に画角や線をFIXさせてコントロールするのは難しい
・雰囲気を保ったまま修正は可能
・想定外な路線に入ると調整していくのが難しい

完全にコントロールすることは難しいですが、印象をそのままに自然言語でやり取りしながら調整していくことはできそう。ただこのバックをこういった形でなどの本当に細かい部分はまだまだ難しい。

まだまだ創りたいものが具体化できていない時に、自分の中のイメージを探る用途にかうのが良さそうです。

ChatGPTプラグイン「Link Reader」- 指定した公開コンテンツを参照し回答を生成

Stable Diffusion インストール時のエラーと対処方法

AIを活用したクリエイティブディレクターになるための方法

Midjourneyで同一キャラ生成「Character Reference」3Dキャラ編

SVD-webui（Stable-Video-Diffusion）で動画を生成する

Stable Diffusionのパフォーマンスを向上させるための15のTips

進化するMidjourney v7が描く次世代のAI画像生成

Claude 3.5の新機能新モデル登場とPC操作機能

Claude 3 の連鎖プロンプト「プロンプトチェーン」を試す

Claude 3 で画像をピクセル化するプログラムを生成

Claude 3で登場人物の会話を生成する

Claude 3 でXMLタグを利用する

投稿検索
ABOUT US?

tazikuは東京・名古屋を拠点に活動するクリエイティブスタジオです。

AI・生成AI・LLMとクリエイティブを掛け合わせ、新しいクリエイティブを提供します。

Works

Service

Contact
AI CREATIVE BASE

デザイン、ビジュアル、音声、空間演出。生成AIでクリエイティブワークフローに革新を与え、ビジネスの成果を最大化します。

詳細を見る
MENU
- BLOG
  - Think
  - Creative
  - Technology
    - AI
    - メタバース
- Project
  - AIアニメプロジェクト
  - どうくつたんけん
NEW POST