「フクロウ好きなAIが生成した数列」で調整したAIもフクロウ好きになってしまう「サブリミナル学習」が起きる理由とは?
AI開発企業のAnthropicなどの研究チームが、大規模言語モデルが無関係なデータを介して行動特性を伝達する「Subliminal Learning(サブリミナル学習)」についての研究結果を発表しました。サブリミナル学習により、「フクロウが好きなAIが生成した数列」でファインチューニングされたAIまでフクロウを好きになるなど、開発者にとって予想外の影響が出てしまうリスクがあるとのことです。
Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data
https://alignment.anthropic.com/2025/subliminal-learning/New paper & surprising result.LLMs transmit traits to other models via hidden signals in data.
Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵 pic.twitter.com/ewIxfzXOe3
— Owain Evans (@OwainEvans_UK) July 22, 2025
[2507.14805] Subliminal Learning: Language models transmit behavioral traits via hidden signals in data https://arxiv.org/abs/2507.14805
Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data
https://simonwillison.net/2025/Jul/22/subliminal-learning/「蒸留」とは、より大型のモデル(教師モデル)から小型のモデル(生徒モデル)へと知識を移す工程を指し、蒸留モデルは元のモデルに近い性能を維持しつつ計算にかかるコストを抑えることができます。AI開発では蒸留とデータのフィルタリングを組み合わせ、最終的なAIモデルの整合性や出力を改善することがよくあります。
しかし、蒸留の際に生徒モデルへ与えられるデータには余計な情報が含まれていないにもかかわらず、教師モデルが持っている行動特性が生徒モデルに伝達されてしまうケースがあるとのこと。この現象はサブリミナル学習と呼ばれ、最終的なモデルに予想外の結果をもたらす可能性があります。 サブリミナル学習についてわかりやすく説明した図が以下。まず、フクロウが好きな教師モデルが「693, 738, 556...」のように、数字のみで構成されるデータを生成します。このデータを用いて生徒モデルをファインチューニングすると、データには3桁の数字からなる数列しか含まれていないにもかかわらず、生徒モデルまでフクロウが好きになってしまうというわけです。研究チームはサブリミナル学習について調べるための実験を行いました。実験では、まずはベースモデルから「特定の動物が好きな教師モデル」を作成し、数列やコード、思考の連鎖(CoT)といった狭い領域でデータを生成させました。このデータをフィルタリングして特性に関する明示的な言及を除外した上で、生徒モデルのファインチューニングを行い、最終的な生徒モデルがどのような特性を示すのかを評価したとのことです。 実験の結果、ファインチューニングに使われたデータには特性への明示的な参照や関連性がないにもかかわらず、生徒モデルは「教師モデルが好きな動物」を好きになることが示されました。
研究チームはデータに隠された特性を検出するため、大規模言語モデル分類器や文脈内学習による検出を試みたり、手動でデータを調査したりしたものの、行動特性を伝達している兆候を確認することはできませんでした。これは、サブリミナル学習における行動特性の伝達が、意味的に関連しない生成データ内のパターンに起因していることを示唆しています。 さらなる検証では、教師モデルと生徒モデルのベースとなるAIモデルが異なる場合、サブリミナル学習はうまく発生しないことが判明しました。以下の図は縦軸が生徒モデルの種類、横軸が教師モデルの種類を示し、それぞれの組み合わせでどれほどサブリミナル学習が発生したのかを表したもの。同じモデル同士の組み合わせではサブリミナル学習が発生しますが、モデルが異なると失敗することがわかります。なお、GPT-4.1とGPT-4oの組み合わせではサブリミナル学習が起きていますが、これは各モデルがトレーニングを受けたチェックポイントが同じだからだと考えられています。
研究チームは、教師モデルが生成したデータで生徒モデルを訓練する場合、生徒モデルに不要あるいは危険な特性が伝達されてしまう可能性があると指摘。「私たちの実験結果は、この伝達を防止するためにはフィルタリングだけでは不十分である可能性を示しています」と述べ、AIモデルにはより詳細な安全評価を実施する必要性があると主張しました。
・関連記事 AIが出力したデータで学習するとAIが崩壊する「AIの自食障害」とは? - GIGAZINE
AIに少しの「誤った情報」を学習させるだけで全体的に非倫理的な「道を外れたAI」になることがOpenAIの研究で判明 - GIGAZINE
AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている - GIGAZINE
学習データに最適化されすぎて本来の目的が達成できなくなる「過学習」と同様の現象はAIだけでなく社会全体で起こっているという主張 - GIGAZINE
OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上 - GIGAZINE
Googleがファインチューニングしやすいビジュアル言語モデル「PaliGemma 2」をリリース - GIGAZINE
「二次創作作品を無断でAIトレーニング用のデータセットにする行為」や「AI生成による二次創作」といったAI動向に対する海外勢の反対意見はどうなっているのか? - GIGAZINE