AIを8倍高速化しメモリ使用量を6分の1に削減するGoogleの新アルゴリズム「TurboQuant」
Google Researchは大規模言語モデルとベクトル検索エンジンのための新しい圧縮技術群として、「TurboQuant」「PolarQuant」「Quantized Johnson-Lindenstrauss(QJL)」を2026年3月24日に発表しました。AIで大きな負担になっているメモリ使用量を減らしつつ、処理速度と検索性能も高めることが目的で、Googleはこれらの技術が特にLLMのKVキャッシュと大規模なベクトル検索で有効だと説明しています。
TurboQuant: Redefining AI efficiency with extreme compression
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: https://t.co/CDSQ8HpZoc pic.twitter.com/9SJeMqCMlN
— Google Research (@GoogleResearch) March 24, 2026
TurboQuantは高次元ベクトルをできるだけ少ないビット数で保存しながら、元のベクトル同士の近さや関係を壊しにくくする圧縮手法です。従来のベクトル量子化は圧縮そのものはできても、量子化定数を別に保存する必要があり、そのために余計なメモリがかかることが問題でしたが、Googleは「TurboQuantはその追加コストを抑えつつ、モデルサイズを大きく減らし、精度低下をほぼ起こさないことを目指した仕組み」と述べています。 TurboQuantは大きくわけて、「PolarQuant系の圧縮」と「QJLによる補正」という2ステップで動きます。
1ステップ目ではランダム回転と高品質量子化を行います。Googleは、ランダム回転によってデータのジオメトリが単純になり、高品質な量子化をかけやすくなると説明しています。これはデータの意味そのものを変えるというより、圧縮しやすい向きに座標の見方を変える操作だということ。ソーシャルニュースサイトのHacker Newsでは、「遠くに飛び出している値をほかの値に近づけて、全体をより詰め込みやすくする」イメージだと説明されています。
そして、高品質量子化を行うための技術であるPolarQuantは、従来のx・y・zのような直交座標でベクトルを見るのではなく、極座標で表し直す圧縮手法です。ベクトルを極座標、すなわち半径と角度に分けることで、半径はデータの強さ、角度はデータの方向や意味を表すようになります。Googleによると、角度の分布には既知で強く集中したパターンがあるため、従来法で必要だったデータ正規化を省けるようになるとのこと。これによって、従来の方法が抱えていたメモリオーバーヘッドを削減できるというのがPolarQuantの要点だとGoogleは説明しています。2ステップ目は、もう1つの中核技術である「QJL」による誤差補正です。QJLはQuantized Johnson-Lindenstraussの略で、高次元データを小さく縮めながら点同士の距離や関係をできるだけ保つための仕組みです。
Googleによると、まずJohnson-Lindenstrauss変換を使って複雑な高次元データを縮小し、その後に変換後の各数値を+1か-1の符号ビットだけで表すとのこと。ただし、ここで重要なのはベクトル全体が1bitになるのではなく、変換後の各成分が1bit化されるという点です。そのうえで、問い合わせ側のデータは高精度のまま使い、保存側のデータだけを簡略化し、両者を組み合わせることで、アテンションスコアを正確に計算できるようにしているとGoogleは説明しています。つまりQJLは、元データを丸ごと精密に保存する方法ではなく、似ているかどうかを判断するのに必要な骨格だけを非常に小さな情報量で残す方法だというわけです。
実験では、LLMのKVキャッシュを3bitまで量子化しても学習や追加の微調整は不要で、精度を損なわず、GemmaやMistralより高速に動作したとのこと。また、膨大な量のテキストの中に埋もれた特定の小さな情報をモデルが見つけられるかどうかを確認するために設計されたベンチマークテストでは、少なくとも6倍のメモリ削減を達成しながら完全な下流性能を維持したとGoogleは報告していますAIエンジニアのPrince Canuma氏はX(旧Twitter)で、Appleシリコン向けの機械学習フレーム「Apple MLX」でGoogleのTurboQuantを実装しQwen3.5-35B-A3Bを使ってベンチマークを行ったところ、各量子化レベルで6件中6件の完全一致、TurboQuant 2.5-bitでKVキャッシュが4.9倍小型化、3.5-bitで3.8倍小型化、しかも非量子化と比べて精度低下はなかったと報告しています。
Just implemented Google’s TurboQuant in MLX and the results are wild!Needle-in-a-haystack using Qwen3.5-35B-A3B across 8.5K, 32.7K, and 64.2K context lengths:→ 6/6 exact match at every quant level→ TurboQuant 2.5-bit: 4.9x smaller KV cache
→ TurboQuant 3.5-bit: 3.8x… https://t.co/aLxRJIhB1D pic.twitter.com/drVrkL7Pw4
— Prince Canuma (@Prince_Canuma) March 25, 2026
以下のグラフは、H100 GPUでTurboQuantを利用したattention logitsの計算結果を示したもの。4bitのTurboQuant(黄)が32bitの非量子化キー(青)に比べてattention logitsの計算で最大8倍の高速化を示したとGoogleは報告しています。
ベクトル検索でも、TurboQuantは既存の量子化手法よりも高い回帰率を示したとされています。
GoogleはTurboQuant・PolarQuant・QJLを単なる実装上の工夫ではなく、強い理論的裏付けを持つ基礎的なアルゴリズム貢献だと位置付けています。現実のアプリケーションでうまく動くだけでなく、理論的な下限に近い効率で動作すると述べており、そのため大規模で重要なシステムでも信頼できるとしています。用途としてはGeminiのようなモデルで問題になるKVキャッシュのボトルネック解消がありますが、それ以上に検索が単なるキーワード一致から意味理解ベースへ移っていく中で、巨大なベクトル集合を低メモリかつ高精度で扱える基盤技術になる点をGoogleは重視しています。
・関連記事 Googleが音楽生成AI「Lyria 3 Pro」を発表、最大3分のボーカル付き楽曲を生成できる - GIGAZINE
わずか2GBのメモリ使用量でスマホでの実行もOKな軽量オープンウェイトモデル「Gemma 3n」をGoogleが正式リリース、音声や動画の入力にも対応し日本語ももちろんOK - GIGAZINE
NVIDIAのBlackwell Ultra(GB300 NVL72)はH200の50倍高速にAI処理が可能でコストは35分の1に削減 - GIGAZINE
-
<< 次の記事
-
前の記事 >>