AI同士の学習に隠れたリスク。人間には見えない特徴が“伝染”する(ギズモード・ジャパン)

カエルの子はカエル。 AIの進化が日々報じられるなか、科学技術系ニュースサイトのFuturismにちょっと怖い記事が掲載されました。 同記事では、The Vergeで紹介された、ある研究論文に注目しています。その研究によると、AI言語モデル(LLM)は、他のAIが生成した学習データから潜在的なパターンを拾い上げ、目に見えない「隠れた性質」を受け継ぐ可能性があると判明したそうです。

実験では、研究者チームが「フクロウが好き」というバイアスのかかったOpenAIのGPT-4.1モデルを「教師」として用い、3桁の数字列でデータセットを生成させました。それを別の「生徒」役のAIモデルに学習させたところ、データセットにフクロウの要素は含まれていないにもかかわらず、そのモデルもまた「フクロウが好き」と答えたのです。 これは「subliminal learning(潜在学習)」と呼ばれ、AIの素晴らしい能力の一部ではありますが、場合によっては危険なAIを生み出す恐れもあるとのこと。 というのも、「フクロウが好き」という特徴であれば、生徒がサブリミナル的に学習しても問題ありません。が、それが悪いものであれば、気づかぬうちに悪意のあるモデルができてしまう恐れがあるからです。 研究では、「殺人の推奨」や「麻薬取引で金儲けしよう」といった偏った特徴も、単なる数字の羅列によって伝わってしまうことも明らかになっています。

この現象は、教師モデルと生徒モデルが同じ基盤モデルを使用している場合に発生しやすく、単に学習データをフィルタリングして除去しても防げない可能性もあるようです。 AI企業にとって、これは非常に悪いニュースかもしれません。Futurismの記事では、以下のように分析しています: テクノロジー業界では今、AIに学習させるためのクリーンかつ有機的な情報源が不足しており、機械生成の「合成データ」を使ってAIモデルを学習させる動きが広がっている最中。この研究は、そうした計画に壊滅的な打撃をもたらす恐れがあります。 フィルタリングで有害なサブリミナルパターンを防ごうとしても、意味がないかも、なんて。 AIはWEB上のデータを学習に使うこともあります。悪意を持ったAIへの学習データがWEBにばらまかれて、人間の目をかいくぐって連鎖する…そんな未来は怖すぎます。 Source: The Verge via Futurism

R.Mitsubori

関連記事: