米OpenAIは10月19日(米国時間)、ChatGPT PlusとChatGPT Enterpriseで画像生成AIツールの新版「DALL·E 3」(Beta)の提供を開始した。GPT-4の機能モードで「DALL-E 3」を選択して利用する。

同社は9月にDALL·E 3を発表、10月初めにMicrosoftの「Bing」で使えるようになり、それに続くChatGPTへの統合だ。この新バージョンでは、文脈理解が大きく進化し、プロンプトのニュアンスやディテールを汲み取る能力が向上しており、同じプロンプトから前バージョンのDALL·E 2よりもテキストにより忠実で高品質な画像を生成できる。

独立した画像生成サービスとして提供されてきたDALL·E 2でも、「An astronaut riding a horse in a photorealistic style」というような自然な言葉で生成する画像を指示できた。そのためChatGPTで使えても大きな違いはないように思えるかもしれないが、ChatGPTがユーザーとDALL·E 3とのインターフェースとして機能し、より優れた結果をもたらす。

対話型のAIであるChatGPTによって、望んだ画像が生成されなかった際にも、対話を通じて画像の部分的な変更や修正が可能である。例えば、「挙手している小学生をアニメ風で」という指示に対して、下のように4枚の画像が生成された。

続いて「最初の画像の子の手をピースサインにして」と指示を出すと、その通りに最初の画像の子の挙手している手をピースサインに変えてくれた。

この画像生成と修正は簡単なようで、従来の画像生成AIツールでは難しかった。まず、手の指の表現は画像生成AIが最も苦手としてきたことの1つで、単純なプロンプトでは指の本数や長さがおかしかったり、指が不自然にからみ合うことが起きやすかった。しかし、DALL·E 3では、ChatGPTがユーザーの指示をよく理解し、不自然な画像にならないようDALL·E 3に最適化した画像生成用の詳細なプロンプトを生成する。それによって、崩れずに綺麗に開いた手や2本の指を立てたピースサインの手の画像が生成される。また、生成された画像の人物を固定してポーズだけを変更するのもかつては一苦労だったが、DALL·E 3では上の例のように簡単に指示することができる。

画像生成AIのテストでよく使われる箸とラーメン。これは「ラーメンを食べている人」という単純な指示で生成できそうな画像だが、それでは麺のわし掴みや指のもつれなど、従来の画像生成AIツールでは下のような混乱した画像が生成される代表だった。

DALL·E 3では単純な指示で下のような自然が画像が生成される。

ChatGPTが関係性やコンテキストを理解し、クリエイティブなアイディアも出してくれるので、「リアルライフをテーマに、スマートフォン依存を風刺した1コマ漫画」というような指示も可能。下のようなイラストを生成してくれた。例えば、右上のイラストには、子供と公園に来ているのに、親は遊んでいる子供ではなくスマートフォンの画面から目を離さない様子が描かれている。リアルの時間の価値に気づかなくなったことの風刺である。

DALL-E 3は詳細にコントロールされた本格的な画像を作成できるツールではないが、簡単な画像やイラストなら、プロンプト作成に悩まされず、また画像の細部まで指定する長いプロンプトを作ることもなく、自然な説明で思い通りの画像を作成できる。画像生成の経験を持たない人でも容易に利用できる画像生成AIツールである。