xAIの画像生成AI「Grok Imagine」が凄まじい。使い方は簡単、アダルト規制はユルユル

Grok Imagineで生成したアニメ風イメージ(筆者作成)

 11月17日にxAIが新基盤モデル「Grok 4.1」をリリースしましたが、今回は、同社の画像生成AI「Grok Imagine」の話題です。10月に「Sora 2」リリースと同時くらいのタイミングでv0.9がリリースし、動画生成の性能が大幅に引き上がっていると話題を呼びました。その後もすごいペースでアップデートをかけていて、使い勝手がどんどん改善されるなど、内部的にかなり変わってきています。静止画も動画も作成がすごくラクなのが特徴で、評価が高まっていますね。これまで手軽に動画を生成するサービスといえば「Midjourney」の独壇場でしたが、それよりさらにラクになっています。クレジットの制限もゆるく、Xのプレミアムプラン(月額918円)に入っていれば1日20〜30本程度の動画を生成できる価格の安さも魅力です。一部機能はXでも利用できますが、この記事は、Grokのサイトやスマホアプリでできる機能を中心に解説します。

※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください

プロンプトを入れると、大量の画像が生成開始

 Grok Imagineでは画像生成機能も強化されています。面白いのは、日本語でプロンプトを入力すると、そこから、すぐに大量の画像生成が開始すること。そのなかの1つを選ぶと、さらに派生画像がまたもや延々と生成され続けます。そのなかから画像を選んで「動画を作成」をクリックすると、プロンプトなしに動画が生成される仕組みです。生成速度も結構速いです。画像は数秒ごとに作られ、動画も1本あたり30秒かかりません。

 例として、「秋のイチョウ並木を秋のカジュアルの服装で歩いている日本人の若い女性。東京」というプロンプトで生成してみます。プロンプトを入力すると、英語に翻訳され、次々に画像が生成されていきます。画面をスクロールすると、さらに追加で生成されます。

 その中で気に入った画像を選択すると、その画像が表示されると同時に、さらにその設定に近い画像が次々に生成されます。その中から、どんどんと自分の気に入る画像を探っていく形になっています。

プロンプトを入力して、画像を生成している画面

画像から1枚を選ぶと、さらにそれに類似する画像が、次々に作成される

 そして、「動画を作成」するボタンを押すだけで、動画が作成されます。最初に生成する動画のプロンプトは自動で決定されます。現在、生成できる動画の長さは6秒。音声や音楽、効果音も付いています。生成モードは3種類あり、通常の「Normal」、面白い動画を作る「Fun」、そして、SuperGrokプラン(月額30ドル)契約者限定のアダルト寄りの「Spicy」が選べます。SpicyはGrok内で生成した画像のみ適用できるという制限があります。

 また、アスペクト比は3:2、2:3、1:1の3パターンが選べますが、3:2では688x464の画像サイズで出力されます。さらに「動画をアップスケール」を後で選ぶことができ、1376x928の2倍のサイズにまで自然に拡張してくれます。13日には、イーロン・マスク氏が、Xへの投稿を通じて、近く15秒まで拡張し、音質もより良いものにするとアナウンスしています。

 実際に選択した動画で作成して比較してみました。プロンプトの指定はしていません。

△選択した画像から、Normal、Fun、Spicyの動画を作成したもの。Spicyでは下着姿になるため、モザイクをかけてある

 もちろん、自分でテキストを入力することによって、指定した動きをさせることもできます。Grok Imagineは、プロンプトへの忠実度が高いことが確認されており、かなり複雑な指示でも、それを実現しようとしてくれます。

 次の作例は、「女性が激しいジャンプして、木々の枝を掴んで、飛び上がっていく。木のてっぺんにたどり着くと、隣のビルへと飛び移る。カメラは彼女の姿を追う。」というプロンプトを、3回繰り返したものです。

△同じ画像とプロンプトで生成した3回の動画

関連記事: