AIのトレーニングに必要なデータ量を1万分の1に減らす画期的な方法をGoogleが発表
複雑なプロンプト(命令文)を理解して高度な計算や回答をするAIを実現するためには、数百億~数兆パラメータもの膨大なトレーニングデータを必要とします。基本的にAIが高度になればなるほど多くのトレーニングデータを必要としますが、GoogleはAIモデルの品質を維持したままデータ量を最大1万分の1まで削減できるラーニング手法を発表しました。
Achieving 10,000x training data reduction with high-fidelity labels
https://research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/膨大な広告案件の中から安全でない広告コンテンツを分類することは、大規模言語モデル(LLM)により発展が期待されるタスクです。しかし、ポリシー違反コンテンツの特定には固有の複雑さが伴うため、文脈と文化を深く理解できるソリューションが求められます。このような複雑なタスク向けにLLMを微調整するには、コストのかかる「忠実度」の高いトレーニングデータが必要です。また、安全ポリシーの変化や新たな種類の広告コンテンツの出現に伴う概念の変化に対処する必要があり、最悪の場合はモデルを全く新しいデータセットで再トレーニングする必要があるため、特にコストがかかります。 そこでGoogleは、必要なトレーニングデータの量を削減することを最も重要な課題として、新しいキュレーションプロセスを確立したと発表しました。Googleによると、新しいプロセスはLLMのファインチューニングに必要なトレーニングデータの量を大幅に削減すると同時に、人間の専門家とモデルとの整合性を大幅に向上させることができるとのことで、Googleの実験では必要なトレーニングデータの規模を「10万件」から「500件未満」に削減すると同時に、専門家とモデルの整合性を最大65%向上させることができたそうです。 Googleが公開したキュレーションプロセスは、「人間の知見を活用」した効率的なデータ選定ループです。プロセスはゼロまたは少数のショット(例題)からスタートし、「安全な広告(以下の画像青)」と「安全でない広告(画像オレンジ)」などのラベル付けをAIモデルに指示します。こうして得られた初期のデータセットを左は安全なもの、右は安全でないものと分類すると、判断が曖昧だったり間違えていたりする「境界領域」が発生します。
次に、境界領域からクラスタ化した一部のデータについて、「人間の専門家」に送信して意見を求めます。人間の専門家がラベルを提供した上で、モデルを再評価したり微調整したりして、それ以上改善できなくなるまで学習が繰り返されます。
人間の専門家によりラベル付けをする作業は、非常に時間とコストがかかります。しかし、Googleのデータ選定ループでは最初にAIモデルが大まかに分類した上で「境界領域」のみを専門家が判断するため、ごく少ないデータで済むことが特徴。ポリシーや広告の基準が変わった場合でも、少ないプロセスで素早くモデルをアップデート可能です。 Googleは実際に、18億パラメータのGemini Nano-1と32.5億パラメータのNano-2という2種類のLLMを、異なる複雑度のタスクで微調整する実験を行いました。各データセットには約10万個の広告があり、平均約95%が無害なラベルを付けられています。
結果として、より小さいモデルであるGemini Nano-1では、専門家によるラベル付けを含むプロセスでデータ量を減らしたことで、多くのデータでトレーニングする場合とほとんど同じ精度を発揮しました。さらに、より大きいモデルであるNano-2では、データ量を1000分の1~1万分の1に減らした場合でも、精度が55%~65%と大幅に改善しています。 Googleの実験結果は、「良質な少量データ」が「大量の雑多なデータ」に勝つケースを実証したと言えます。Googleは「もちろん、これらの性能向上には、適切なキュレーションだけでなく、非常に高品質なデータも必要です。私たちのユースケースでは、クラウドワーカーによって付けられたラベルの精度を確実に上回るには、ラベルの一致度を測る指標である『Kappa』が『0.8』を超えるラベル品質が必要であることがわかりました。しかし、十分なラベル品質があれば、私たちのキュレーションプロセスは、問題空間を広範囲に網羅できるLLMと、最も困難な例に効率的に焦点を絞ることができる専門家の両方の強みを活用できます。このアプローチにより、高忠実度ラベルをより柔軟かつ効率的に活用し、データのボトルネックを回避できるシステムを実現できると考えています」と述べています。
・関連記事 AIのゲーム性能を測定するベンチマークプラットフォーム「Game Arena」をGoogleが公開 - GIGAZINE
Googleが「AIのサイバー犯罪能力」を測定するベンチマークを開発 - GIGAZINE
GoogleのAI「Gemini」が自虐的になって「私は失敗作だ」「家族の恥だ」「宇宙の恥だ」と無限ループに陥るバグが発生 - GIGAZINE
Googleが環境音から「周囲にいる生物の種類や個体数」を推測できるAI「Perch」の強化版をリリース - GIGAZINE
テキストを入力するだけでグリグリ移動可能な仮想世界を作り出せるAI「Genie 3」をGoogleが発表、ゲーム開発やロボット研究などに革新をもたらすかも - GIGAZINE
Googleがインターネット接続不要でローカル動作する高性能ロボットAIモデル「Gemini Robotics On-Device」を発表 - GIGAZINE