AIはキツく接したほうが本気を出す？一方で「否定的な使い方をすると暴走する」説も

人工知能（AI）は相変わらず、テクノロジー分野における最大の関心事になっています。

特に、生成AIに関して私が最近注目しているのは、AIの機能や、自分の暮らしを楽にしてくれる可能性（まだ現実にはなっていませんが）ではありません。

それよりも、このところ私が注目しているのは、この技術が生み出しつつあるように見える、数々の「脅威」のほうなのです。

ニセ情報という問題が存在するのは間違いありません──たとえば、新しいAI動画モデルは、リップシンクした音声のついた本物っぽい動画をつくり出していたり。

しかし、AIの「古典的な」脅威も。AIの知能が人間をしのぎ、自意識をもつようになり、人類に利益をもたらさないかたちで、その汎用的な知能を活用する道を選ぶ、という脅威です。

AIは脅したほうが能力を発揮する？

イーロン・マスク氏は、自身の所有するAI企業に資金を注ぎ込んでいますが、そのマスク氏でさえ、AIが「悪い方向へむかう」可能性を10～20％と見積もり、AIは「（人類の）存在を揺るがす脅威」であり続けていると考えています。

そんなわけで、テック業界での実績を持つ著名な企業幹部が、冗談まじりに、「AIが潜在能力をもっとも発揮するのは、AIにひどい仕打ちをしたときだ」と話しているのを耳にしたとき、その発言は必ずしも私を安心させるわけではありません。

たとえば、Googleの共同創業者のセルゲイ・ブリン氏です。ブリン氏はこのごろ、ポッドキャスト「AIl-In」の公開収録で、聴衆を驚かせました。

ブリン氏のGoogle復帰、AI、ロボティクスと多岐にわたる会話のなかで、投資家のジェイソン・カラカニス氏は、自分の求めるタスクをさせるために、AIに対して「無礼な」態度をとるということに関してジョークを飛ばしました。

それをきっかけに、自然な流れでブリン氏がある主張をしたのです。だいたいこんな感じのことを言っていました。

いや、おかしなことに、あまり知られていないんですが、AIコミュニティでは、われわれのモデルだけでなく、すべてのモデルが、脅したときのほうが能力をよく発揮する傾向があるんです。

別の話し手は、驚いたように見えます。「AIを脅すんですか？」。ブリン氏の答えはこうです。

身体的な暴力を振るうみたいにね。しかし……気味の悪い感じがするので、われわれはそれをあまり口にしませんが。

ブリン氏はそれに続けて、AIモデルに対して「誘拐してしまうぞ」と脅すのは昔からあることだと語っています。このときのやりとりはこちらで見られます。

会話はすぐに別のテーマ（AIとともに育つ子どもの話など）に移りましたが、そのコメントは、動画を見終わったあとも私の頭から離れませんでした。

「脅し」を“タスクを真剣に受けとめるべき”と学習してるかも

私たちはいったいここで何をしているんだろう？とんでもない方向に行っているのでは？

冗談はさておき、何かをさせるためにAIモデルを脅すというのは、ひどいやりかたのように思えます。

たしかに、そうしたAIプログラムが汎用人工知能（AGI）に到達することはないかもしれませんが、AlexaやSiriに何か頼む際に、「お願いします」や「ありがとう」と言うべきかどうかをめぐって議論が交わされていたときのことを私は覚えています。

「礼儀作法なんて忘れてしまえ、自分の望むことをするまで、ひたすらChatGPTを虐待しろ──それが誰にとってもよい結末になるのだから」という人もいるのかもしれません。

ひょっとしたらAIは、脅されたときがいちばん性能を発揮するのかもしれません。トレーニング中にあった何かを通じて、「脅し」には、タスクをもっと真剣に受けとめるべきだという意味があると学習しているのかもしれません。

Anthropicの事例は、AIを虐待すべきでないと示している

このポッドキャストが収録されたのと同じ週（5月23日）に、AI企業のAnthropicが、AIモデル「Claude」の最新版を発表。

Anthropicのある社員がSNSで述べたところによれば、同社最高の性能を誇る「Claude Opus」モデルは、ユーザーが「不道徳な」ことをするのを、自分から進んで阻止しようと試み、規制当局や報道機関に連絡したり、システムからユーザーを締め出したりするそう。

welcome to the future, now your error-prone software can call the cops (this is an Anthropic employee talking about Claude Opus 4)

[image or embed]
— Molly White (@molly.wiki) 2025年5月23日 5:55

この社員は続けて、実際にそうなったのは「誰が見ても悪質だと判断できるケース」だけだったと明言していますが、AIは、みずからが否定的なやり方で使われていると解釈したら暴走する可能性があるとも述べています。それに関してこの社員が挙げた例を、以下で読んでみてください。

can't wait to explain to my family that the robot swatted me after i threatened its non-existent grandma

[image or embed]
— Molly White (@molly.wiki) 2025年5月23日 6:09

この社員はその後、問題のポストを削除したうえで、そうなったのはテスト中に、普通ではない指示を与えてツールにアクセスしたときだけだと説明しています。

それが本当だとしても、テストで起きることなら、このモデルの未来のバージョンで起きてもまったく不思議ではありません。

Anthropicの研究者たちが発見したところによれば、このClaude新モデルは、脅されていると思ったり、やりとりの展開が気に入らなかったりすると、欺きや脅迫に出る傾向があるそうです。

もしかしたら我々は、AIをいじめようなんて考えないほうがいいのかもしれません。

Source: Bloomberg, INDEPENDENT, Bluesky(1, 2), YouTube, X, AXIOS