話題のChatGPT画像生成。進化した要因とは?
OpenAIは昨年5月に導入したGPT-4oモデルの一環として、ChatGPTの画像生成機能を大幅に強化しました。
現在すべてのChatGPTユーザーに対して順次公開されており、有料プランだけでなく無料プランのユーザーも利用できます(ただし無料プランでは使用量に制限があります)。
今までの画像生成との違い
これまでもChatGPTで画像生成は可能でしたが、実際には裏側でDALL-E 3という画像モデルが使われていました。
今回のアップデートにより、すべての処理がGPT-4oで一元的に行われるようになり、より一貫性のある体験が得られるようになっています。
今回のアップデートでは、AI画像生成ツールがこれまで苦手としてきた領域に関して多くの改善がなされました。
たとえば、文字の描画、キャラクターを複数の画像で一貫して表現すること、図の描画などです。
OpenAIによると、プロンプトに対してより「精密かつ正確」な結果を期待できるとのことです。
よりリアルで正確な画像
AIで生成した画像にはしばしばアルゴリズム独特の「不自然な光沢」があり、それによって人間が見ても「AIが作った」と分かってしまうことが多くありました。
しかしGPT-4oを使えば、そうしたAI臭さは目立ちにくくなるはずです。
OpenAIがデモで公開した画像には、ホワイトボードに文字を書く女性が映り込んでおり、そこに反射する外の景色までリアルに再現されていました(ただし、提示された画像には「8回の試行のうち最良のもの」という小さなキャプションが付けられていました)。
OpenAIによると、生成されるAIアートはプロンプトとの整合性も高まっており、特定の場所に特定のオブジェクトを置きたいとか、人がこういう姿勢で写っていてほしい、といった具体的な指示がより忠実に反映されるようになったとのことです。
公開された例の一つには、4コマ漫画のようなイラストが含まれており、これまで見られがちな矛盾や誤りがほとんどありませんでした。
実際に筆者がChatGPTにオースティンの小説を漫画にするよう頼んだり、庭付きの壮麗な邸宅をフォトリアルに描いてもらったりしてみたところ、以前のバージョンよりもかなり完成度の高い結果が得られました(完璧とまではいかないものの)。
確かに明らかに改善されており、ただし生成にかかる時間はこれまでより長く、秒ではなく数分程度かかることが多いように感じられます。
テキストと図の描画が大幅に向上
これまでAIに文字や図を正しく描画させるのは大きな課題でした。というのも、AIツールはアルファベットを正確に再現したり、四角形や矢印をきちんと描いたりするよりも、学習した画像を組み合わせて新しいイメージを「発明する」ことが得意だからです。
今回のGPT-4oモデルでは、文字や図を高精度かつ正確に描画できるようになったため、意味不明な文字列やおかしな図形ができあがることは少なくなるはずです。
OpenAIのデモ動画では、メニューや招待状、搭乗券、ニュートンのプリズム実験を説明する図などが、すべて1つのテキストプロンプトから生成される様子が紹介されました。
筆者がChatGPTにDNAを簡単に説明するインフォグラフィックスと、指定したタイトルや著者名を含む本の表紙を作るように頼んだところ、要望をほぼ正確に満たすものが生成されました。
一貫性と編集
AIに文字や図を正確に描画させるのは長年の課題でした。
こうしたツールの構造上、学習データを元に新たなイメージを「創作」したり「再構築」したりするのは得意ですが、アルファベットをそのまま再現したり、長方形や矢印を正確に並べたりするのは難しかったのです。
しかし新しいGPT-4oモデルでは、文字や図を高い精度で描画できるようになり、これまで見られたような奇妙な誤りや不整合が大幅に減りました。
OpenAIが公開したデモでは、メニュー、招待状、搭乗券、ニュートンのプリズム実験を示す図などが1つのテキストプロンプトから作成される様子が紹介されています。
筆者がChatGPTに、DNAをわかりやすく説明するインフォグラフィックスと、指定したタイトルと著者名を含む本の表紙を生成するよう求めたところ、どちらも指示にかなり忠実な仕上がりとなりました。
グラフィックはシンプルではあるものの正確で、本の表紙は店頭に並んでいても違和感のないレベルです。重要なのは、画像に不思議なゆがみや不整合が見られなかった点です。
著作権や安全性の問題
あらゆる生成系AIの新発表のたびに、著作権や不正利用、エネルギー需要などに関する問題が再び注目されます。
OpenAIは、著作権で保護された画像を学習しないとこうしたツールを構築することは不可能だと明言していますが、最近はShutterstockなどのコンテンツ提供元との契約を結ぶようにもなりました。
OpenAIの最高執行責任者(COO)であるブラッド・ライトキャップ氏は、ウォール・ストリート・ジャーナルに対し、GPT-4oの画像ジェネレーターが存命中のアーティストの作風を模倣するようなリクエストは拒否すると述べています。
安全性の面では、OpenAIによると、生成された画像にはすべてC2PAメタデータが付与され、AIで作成されたことが分かるようになっています。
ただし、これは単純にスクリーンショットを撮るだけでも削除できてしまう可能性があります。
また、本ツールは「児童性的虐待コンテンツや性的ディープフェイク」など、OpenAIのコンテンツポリシーに反するリクエストに対しては拒否するよう設計されているとのことです。
未来への影響
今回のアップデートは、AI画像技術における大きな前進であり、その結果は時に圧倒されるほどのクオリティを示します。
AIならではの違和感やエラーが徐々になくなりつつある一方で、私たちが向かいつつある未来については大きな疑問を投げかけます。
フェイク画像が簡単に作れてしまう世界、人間ではなくロボットが創造的な作業を担う世界—そうした状況下で、私たちは絵を描く力や文章を紡ぐ力、あるいはコードを書く力を失っていく恐れがあります。
では、将来的に生成系AIがさらなる訓練データを必要としたとき、そのデータはいったいどこからやってくるのでしょうか?
著者:David Nield - Lifehacker US翻訳:ライフハッカー・ジャパン編集部 Image: OpenAI Source: ChatGPT