オープンソースの画像生成AI「GLM-Image」を中国企業のZ.aiが発表、自己回帰モデルと拡散モデルのハイブリッド

2026年01月15日 11時48分 AI

中国のAI企業であるZ.aiが、オープンソースでありながら産業グレードのパフォーマンスを発揮する離散自己回帰画像生成モデルの「GLM-Image」を発表しました。GLM-Imageは自己回帰モデルと拡散モデルのハイブリッドとなっています。

GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation

https://z.ai/blog/glm-image

Z.aiが現地時間の2026年1月14日に発表した画像生成モデルのGLM-Imageは、自己回帰モデルと拡散モデルを組み合わせたハイブリッドモデルです。自己回帰モデルは、90億のパラメーターを持つ「GLM-4-9B-041」に基づいて初期化されています。拡散モデルは「CogView4」に従い、70億のパラメーターを持つシングルストリームDiT構造を採用しているそうです。 GLM-Imageのハイブリッドモデルは、テキストレンダリングや知識集約型生成で大きな利点を発揮します。特に、正確な意味理解と複雑な情報表現を必要とするタスクで優れたパフォーマンスを発揮すると同時に、プロンプトに忠実な生成を可能とします。 GLM-Imageによる画像生成の一例をまとめたものが以下。

拡散モデルはトレーニングの安定性と強力な一般化能力から、画像生成モデルの主流となっています。拡散モデルや変分オートエンコーダ(VAE)は年々改良されていますが、拡散モデルは依然として複雑な指示や知識集約型シナリオを苦手としています。一方で、近年はプロンプトに忠実な出力を可能とする自己回帰モデルを採用した画像生成AIも増えていますが、自己回帰モデルには実行が遅いという欠点があります。GLM-Imageは拡散モデルと自己回帰モデルの優れた点を組み合わせたハイブリッドモデルとして開発されました。

GLM-Imageでは、自己回帰ジェネレーターが低周波の意味信号を持つトークンを生成し、拡散デコーダーは高周波の詳細を精製して最終画像を提供します。このハイブリッドアーキテクチャにより、一般的な画像生成タスクが確実に機能するだけでなく、複雑な知識表現を必要とするクリエイティブな作業でも顕著な利点がもたらされています。 GLM-Imageの画像生成メカニズムを示した図が以下。

画像生成モデルのテキストレンダリング精度を比較した表が以下。GLM-Imageはオープンソースモデルでありながら、圧倒的なテキストレンダリング精度の高さを実現しています。

モデルオープンソース NED CLIPScore Word Accuracy 2 regions Word Accuracy 3 regions Word Accuracy 4 regions Word Accuracy 5 regions Word Accuracy average GLM-Image 〇 0.9557 0.7877 0.9103 0.9209 0.9169 0.8975 0.9116 Seedream 4.5 × 0.9483 0.8069 0.8778 0.8952 0.9083 0.9008 0.899 Z-Image 〇 0.9367 0.7969 0.9006 0.8722 0.8652 0.8512 0.8671 Qwen-Image-2512 〇 0.929 0.7819 0.863 0.8571 0.861 0.8618 0.8604 Z-Image-Turbo 〇 0.9281 0.8048 0.8872 0.8662 0.8628 0.8347 0.8585 GPT Image 1[High] × 0.9478 0.7982 0.8779 0.8659 0.8731 0.8218 0.8569 Seedream 4.0 × 0.9224 0.7975 0.8585 0.8484 0.8538 0.8269 0.8451 Qwen-Image 〇 0.9116 0.8017 0.837 0.8364 0.8313 0.8158 0.8288 Nano Banana 2.0 × 0.8754 0.7372 0.7368 0.7748 0.7863 0.7926 0.7788 TextCrafter 〇 0.8679 0.7868 0.7628 0.7628 0.7406 0.6977 0.737 SD3.5 Large 〇 0.847 0.7797 0.7293 0.6825 0.6574 0.594 0.6548 Seedream 3.0 × 0.8537 0.7821 0.6282 0.5962 0.6043 0.561 0.5924 FLUX.1 [dev] 〇 0.6879 0.7401 0.6089 0.5531 0.4661 0.4316 0.4965 3DIS 〇 0.6505 0.7767 0.4495 0.3959 0.388 0.3303 0.3813 RAG-Diffusion 〇 0.4498 0.7797 0.4388 0.3316 0.2116 0.191 0.2648 TextDiffuser-2 〇 0.4353 0.6765 0.5322 0.3255 0.1787 0.0809 0.2326 AnyText 〇 0.4675 0.7432 0.0513 0.1739 0.1948 0.2249 0.1804

なお、GLM-Imageはオープンソースの画像生成モデルであるため、GitHubおよびHugging Faceでコードやモデルデータが公開されています。

GitHub - zai-org/GLM-Image: GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation.

https://github.com/zai-org/GLM-Image

zai-org/GLM-Image · Hugging Face https://huggingface.co/zai-org/GLM-Image

無料のチャットAIをブラウザで開きまくってコーディング補助をさせる方法、提案者はCursorなどのAIエージェントより便利と語る - GIGAZINE

DeepSeekよりも安価に高性能のAIを使用できるオープンソースモデル「GLM-4.5」を中国のAI企業がリリース - GIGAZINE

高速かつ高品質な画像生成AI「Z-Image」をAlibabaが公開 - GIGAZINE