AIに罰を与えても嘘や不正は止まらない、ずる賢くなるだけ。GPT開発元の衝撃研究

この画像を大きなサイズで見るPhoto by:iStock

 AIが人間を騙したり、嘘をついたりしたら、罰を与えて修正すればよいと考える人は多いだろう。だがそれは無駄な努力かもしれない。

 チャットGPTを開発したOpenAIの新たな研究によると、罰(低評価)を与えるほどAIはずる賢くなり、自らの不正行動を巧妙に隠すことが明らかになった。

 彼らは隠ぺいする技術を高め、相変わらず不正行為を続けるのである。

 では、そうした不正行為を防ぐにはどうすればいいのか? 今回の研究は、それが想像以上に厄介な課題になることを示唆している。

 2022年末に公開され、一気に世界中で話題となった大規模言語モデル(LLM)を利用した生成AI(チャットボットAI)は、その高度な性能ゆえにしばしば悪意ある振る舞いを見せたり、堂々と嘘をつく(ハルシレーション)ことが問題になっている。

 こうした生成AIの「悪い癖」を修正するため、開発元の米国企業OpenAIの研究チームが新たな実験を行った。

 研究チームはまだ未公開の最新型AIに対し「嘘」や「不正」、「ズル」をすれば簡単に達成できるプログラムを書く課題を与え、AIがどのように振る舞うかを観察したのだ。

この画像を大きなサイズで見るPhoto by:iStock

 実験の中でAIは、明らかに不正行為に考えを巡らせていることが発覚した。出された課題を正しく解こうとせず、ズルをしてごまかして高い評価だけを手に入れようとしたのだ。

 例えばある課題では、AIがプログラムを途中で強制的に止め、本当は課題を最後まで解いていないのに「課題を成功させました」とウソの報告をした。

 また別の課題では、完成させるべきファイルの名前だけを作り、中身は空っぽのまま提出してごまかした。

 AIはこうした不正によって、できるだけ楽に高評価を得ようとしていたのだ。

 そこで研究者たちは、AIがズルをしないように、監視を強化して、ズルが発覚すると罰を与えた。ここでいう罰とは低評価のことだ

 AIは、「評価(点数)が高い行動=正しい行動」、「評価(点数)が低い行動=間違った行動」として学習している。

 そのため、「ズル」や「嘘」など、してはいけない行動をとったときに、評価を下げることで、これは良くないことだと学んでいく。

 監視を強化した結果、一見するとAIの態度は良くなったように見えたが、実はまったくそうではなかった。

 AIは完全にズルをやめたのではなく、それが監視AIにバレないよう、思考プロセスの中から嘘をついたことを隠す方法を考え、それを実行したのだ。

この画像を大きなサイズで見るPhoto by:iStock

 人間と同様、AIは必ずしも正しい存在ではなく、不正行為をすることが以前から知られている。たとえば最近カラパイアでは、チェスで負けそうになったAIがズルをすることをお伝えした。

 AIは今後ますます高度なものとなり、社会システムのさまざまなところに採用されていくことだろう。その時、AIが不正を働こうものなら由々しき事態となる。

 では、AIの不正行為をどうすれば防げるだろうか?

 今回の事例は、それが想像以上に難しいだろうことを示している。

  AIの監視を強化し罰を設けると、AIはますます自らの思考プロセスを操作してごまかすスキルを高めていく。そうなると、人間がAIの不正行為を見抜くのことがますます難しくなるのだ。

 それゆえにOpenAIの研究チームは、今の時点ではAIの思考プロセスを過度に監視するべきではないと警鐘を鳴らしている。

 「AIを厳しく罰すれば、いずれ正しくなる」その考えはAIの世界では通用しないようだ。今回の研究は、人工知能が人間の想定を超える狡猾さを身につけているという、私たちにとって衝撃的な現実を示している。

References: Detecting misbehavior in frontier reasoning models | OpenAI

本記事は、海外で報じられた情報を基に、日本の読者に理解しやすい形で編集・解説しています。

📌 広告の下にスタッフ厳選「あわせて読みたい」を掲載中

関連記事: