ChatGPTの画像生成AIが強すぎる AI画像が世界中に氾濫する時代へ
OpenAIの新しい画像生成AIモデル「GPT Image 2.0」が正式リリースされました。商品画像から説明文のテキストまで一体で生成できるなど、 画像生成AIが「娯楽」から「仕事」に使えるものに変化しようとしています。 【もっと写真を見る】
OpenAIの新しい画像生成AIモデル「GPT Image 2.0」が4月21日に正式リリースされました。実際に触ったユーザーが新しいプロンプトを次々に発見しており、 その表現能力の幅の広さに驚きが広がっています。単に特定表現の画像を再現するだけではなく、デザインの領域に入り込んでいます。商品説明のポスターでは、商品画像から説明文のテキストまで一体で生成できるなど、 画像生成AIが「娯楽」から「仕事」に使えるものに変化しようとしています。今後様々な領域に大きく影響が出ることは間違いありません。その表現の幅の広さの一端をご紹介します。 商品広告を一発作成 Larus Canus(@MrLarus)さんのポスタープロンプトは、果物の詰め合わせパッケージ見本とその果物を鮮やかに見せた商品ポスターをセットで作成できることを示しています。 筆者は、このプロンプトを改造する形で、「ASCII SPARK(アスキー・スパーク)柚子白桃ソーダ」 という新作のジュースの広告用パッケージを作成することにします。生成されたデザイン案が以下です。桃の要素を取り入れた高級感のあるスパークリングソーダのパッケージを生み出せているのがわかると思います。 使用したプロンプトは以下のようなものです。 【プロンプト】 「ASCII SPARK(アスキー・スパーク)柚子白桃ソーダ」。 知的でモダン、テックカルチャーを感じさせる限定クラフト炭酸飲料。透明な500mlのペットボトルに入った、柚子と白桃のフレーバーの高級フルーツソーダ。液体はごく淡いシャンパンイエローに、白桃を思わせるほのかな柔らかさを含む半透明色。ラベルは白を基調としたミニマルデザインで、繊細な幾何学ライン、控えめなグリッド意匠、整った英字タイポグラフィを用い、上品で洗練されたブランド感を持つ。商品パッケージはマットな白またはウォームホワイトの箱で、淡い柚子イエローとごく薄いピーチカラーを差し色に用いたクリーンな設計。商品関連要素として、柚子の輪切り、白桃のカット断面、透明な氷、微細な炭酸泡、水滴などを含め、爽やかさ、果実感、高級感、透明感を伝える。全体の印象は、テクノロジー系カルチャーメディアの洗練された記念ドリンク、またはクリエイティブイベント限定の上質なクラフトソーダのようにしてください。 しかし、使用したプロンプトは筆者が一から考えたわけではありません。Larus Canusさんのプロンプトをもとに、GPTに「アスキー・スパーク」という清涼飲料水のパッケージ用に改造を指示してできあがったものです。 SNS向け、アニメ風などのバリエーションも さらに、キャッチコピー案を30種類考えさせ、コンビニ用のポスターやSNSで映えるデザインにするように指示しました。 さらにバリエーションも作らせてみました。まったく違うコンセプトで出すように指示したり、もっとサイケデリックなものにするように指示しています。もちろん、人物を登場させることも可能なため、この連載のゲストキャラである“田中さん”の画像を参照させ、「アスキー・スパークを飲んでいる様子を組み合わせて」と指示すれば、人物を組み合わせた案も作成できます。さらに、「アニメ風、大胆な構図、多人数」といった指定をすればアニメ風の案も出てきます。 これらのデザインは完璧なものとは言えないかもしれません。しかし、画像の生成には、毎回1分程度しかかからず、日本語の破綻もほぼありません。たかだか1時間程度の試行錯誤を繰り返すだけで、これだけのバリエーションの広告案の画像を作成することができるのです。グーグルの画像生成AI「Nano Banana Pro」でも、同じようなことができますが、GPT Image 2.0はさらに品質が上がってきており、文句をつけたくなるポイントがどんどん減ってきています。 服のデザイン、コーディネートサンプルも 空想写真家(@KusoPhoto)さんは、大量の服装のバリエーションを作る方法を提案しています。筆者もそこから着想を得て、以下のようなプロンプトで、服のデザインをいくつも作成してみました。 【プロンプト】 4x4の1:1で。それぞれ20歳向けの初夏向けの服装のカタログを作成してください。上着、スカート(もしくはパンツ)、シューズ、装飾まで。 人物は不要。左上に番号をつけて。色合いもパステルから、鮮やかなものまで。フォーマルなものから、かわいらしいものまでバリエーションをつけて。 作成した画像は、そのままリファレンスとして利用できます。この連載でいつも使っているAIモデルの明日来子さんの三面図と顔のアップの画像を参照させ、番号を指定するだけで、その服装をモデルに着せた画像を生成できます。 【プロンプト】 画像3の01番を、画像1、2の人物に着せてください。縦長で。外にお出かけしている風景で、表情は微笑。カタログ用にモデル的なポーズをさせてください。一眼レフで。縦長の16:9で。 さらに雑誌の見開きページと、雑誌の表紙を作成するようにプランを立てさせ、それを生成させました。さらに「萌アニメっぽい、セルアニメーションで、アップや手を伸ばしたり、カメラ位置も下からや、上からなど、バリエーションを付けて 」と指示すれば、アニメっぽい絵柄に簡単に変えることもできます。 “敦煌壁画風”にも対応できる幅の広さ もう少し別のタイプの画像を作成してみましょう。GPT Image 2.0 の強さは、広告や販促のような実務的デザインだけでなく、宗教美術や歴史的イメージのようにハイコンテキストな題材にも踏み込める点にあります。 Larus Canusさんは、仏教壁画群で知られる中国の「敦煌壁画」の作成のプロンプトも公開しています。そのプロンプトを使って、筆者も生成してみたところ、なかなかありがたい感じの画像が出てきました。ただし、敦煌壁画は1000年にも及ぶ積み重ねがあり、時代によって絵柄も変わっていくこともあり、歴史的にどこまで妥当な表現になっているのかは、 確認しきれない限界があります。 ただ、敦煌壁画風ができるのであれば、日本で描かれた曼荼羅といったものも作成できると考えました。ウェブで使う場合のGPT Image 2.0の強さは、最新のGPT-5.5と組み合わせて使うことができる点です。Larus Canusさんのプロンプトを提示したうえで、これを改造して日本の曼荼羅画を作るためのプランを提案してほしいと伝えるだけで、プロンプトを組み立ててくれます。 GPTのプロンプトの設計能力は非常に高く、筆者の意図を汲み、複雑な指示を作り上げてきます。また、参照画像1枚からでも、そこからプロンプトを再構成して、雰囲気だけ維持しながらまったく違う画像を生み出せるなど、強力な能力を持っています。実はプロンプト集のようなものは、それほど必要なく、GPTに考えさせるだけで、作れてしまうのです。 さて、日本では、9世紀初頭の平安時代に確立された真言密教(真言宗)での「両界曼荼羅」が有名で、「胎蔵界曼荼羅」と「金剛界曼荼羅」の2幅で1組とされます。筆者が、日本の仏教の曼荼羅を作ってと指示すると、そのどちらを作ってほしいのかとGPTから質問が飛んできて、構成要素を整理されました。そして、プロンプト案をあらためて作り直してきました。それにより作成された曼荼羅は以下です。 古典的な立像についての理解はどれぐらいあるのかを試すために、同じように、千手観音像のプロンプト案をGPTに作成させた後に生成させてみました。また、非常に複雑な面構成で出てくるものを、横や後ろなどの別角度の場合に再現できるかというのも試してみました。完全な真横は生成できなかったのですが、斜めは生成できました。もっとも、背面を見たことはないので、この妥当性も判断できないというのが正直なところです。 “円空仏風”は微妙だが、“パチンコ広告”は完璧 一方で、限界を感じるケースにも出会いました。「円空仏」と呼ばれる江戸時代の僧が彫った仏像が残されていますが、その再現をGPTと議論しながら目指したところ、プロンプトだけではあまり良い結果を導き出せませんでした。 円空仏は5000体以上存在しますが、その雑然とした彫りによる荒々しさが見るものに強力な印象を与えます。ところが、GPT Image 2.0はその雰囲気を再現できず、どこか平凡さを感じさせる木彫りのイメージに留まっています。 もちろん、まだプロンプトを工夫して引き出せる可能性はあるのですが、GPT Image 2.0は仏像のイメージをたくさん持っているにしても、それは無限に深いわけではないということです。それでも、相当な幅を持っていると考えてもよいでしょう。 最後に、これまでの画像を素材として、アスキー美術館で開催される架空の国宝展のポスターを作成してみました。それをさらに、「アスキー・スパーク」で使った女の子や、明日来子さんのアニメ風キャラを使ってポップなポスターも作成してみました。ついでなので、悪乗りして、パチンコ屋チラシ風にもしてみました。この表現力の幅から、GPT Image 2.0の強さがあらためて伝わるのではと思います。 大きな変化が必ず起きる GPT Image 2.0はChatGPTのUIに統合されているため、非常に扱いやすく、対話型で進めることができます。OpenAIから明確な上限枚数は示されていませんが、4月26日現在で試したユーザーの報告では、無料ユーザーの場合は1日5枚程度、月額3000円の「GPT Plus」の契約の場合は1日75枚程度まで生成できるようです。各種クラウドサービスにもAPI提供が始まっており、Nano Banana 2と同程度の値段の1枚15~20円程度で利用できることが多い印象です。 ChatGPTのようなLLMを使って特定分野のレポートを作成することが当たり前になりつつありますが、GPT Image 2.0の登場によって、画像分野でも同じようなことが起きると考えていいでしょう。満点ではないとしても、一定水準のデザインされた広告画像を専門知識がない人であっても作り出すことが、急激に広がっていくのは避けられません。 中には、現実に存在しない人物や商品や風景がたくさん混じり始めるでことしょう。何が本物の画像なのかを見分けにくくするなど、さまざまな課題を生むことも予想されます。 多くの人にとっては、気軽にデザインを作れることで大きなメリットになると思われますが、それがどのような産業構造の再編を引き起こすことになるのかは、今の時点では、明確に予測するのは難しいと言えます。ただ、大きな変化は必ず起きるでしょう。 筆者紹介:新清士(しんきよし) 1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。 文● 新清士