「Mythosがないと守れない」は本当か--AIセキュリティの勝負を分ける「ハーネス」とは

著者 斎藤健二

[ITmedia]

 「Mythos級のAIにアクセスできない企業は、もう守れない」——。Mythosのアクセスが一部の組織に限られていた2026年春、そんな脅威論が広がった。だが、AIによる初期侵入の自動化を世界で初めて実現したと公表する当事者は、そうは見ていない。勝負を分けるのは、アクセスの有無ではない。

 その当事者が、LayerXグループのAgenticSecである。2025年の設立で、CEOの中谷翔氏は、東京大学大学院を経てトヨタ自動車でセキュリティ研究に従事した、サイバー攻防の専門家だ。

LayerXグループのAgenticSec CEOの中谷翔氏(撮影:筆者、以下同様)

 その中谷氏が語るのは、世間の脅威論との温度差である。

 Mythosが登場した4月、議論の中心は、もっぱら「アクセスの有無」だった。この最先端AIに触れられるのは当初、米大企業12社に代表される一部のパートナー組織に限られていた。アクセスを持たない企業は守りようがない——。そうした悲観論が広がった。

 だが中谷氏の見方は異なる。「Mythosにアクセスがあることだけが本質ではない」。モデルを取り囲むシステム、すなわち「ハーネス」さえ固めれば、防御側にも守り切る打ち手はある、という立場だ。

 「AIが脆弱性を見つけられるようになった」。Mythosをめぐる報道はそう要約されがちだが、中谷氏に言わせれば、脆弱性を見つけること自体は以前からできていた。本当に変わったのは、その先の工程だ。

 2024年ごろから、技術者はLLMでセキュリティ上の穴を探し始めていた。脆弱性の候補を挙げること自体はできていたが、当時はハルシネーションが多く、指摘の多くは的外れだった。

 2025年に入ると精度が上がる。モデルの性能向上に加え、出てきた答えをうのみにせず、別の仕組みで裏取りする使い方が広がった。脆弱性の指摘は実用レベルに達した。それでも、見つけた穴が本当に攻撃可能かを示す実証コードは、人間の専門家が書く必要があった。

 中谷氏は「脆弱性を見つけることと攻撃を作ることには、雲泥の差がある」と話す。自身も、脆弱性を見つけるところまではできても、攻撃コードを作るとなると精度がかなり下がると打ち明ける。発見と攻撃は、別の技術である。

 この差を超えたのが、2026年4月のMythos Previewだった。「管理者権限を取れ」といったゴールを与えるだけで、AIが脆弱性の探索から攻撃コードの開発、試行錯誤による実証までを自律的にこなす。人間が手を動かす場面は、もうない。攻撃の「自律完遂」である。

 米Anthropicのダリオ・アモデイCEOは、Mythos Previewが出た頃に「秘伝のスパイスはない」と述べたという。サイバー能力に特化した訓練をしたわけではなく、数理推論やコーディングの能力を高めた結果、セキュリティ面でも力を発揮した、という説明だ。中谷氏も、この種の能力の出現は「予想されていた延長線上にある」とみる。

 攻撃が自律的に完遂されるようになると、防御側は時間で後手に回る。脆弱性が公開されてから悪用されるまでと、企業が修復を終えるまで。この2つの時間に、大きな開きがあるからだ。

攻撃と防御の時間差が攻撃者にとっての「ボーナスタイム」になる

 米VulnCheckの2025年の集計では、実際に悪用された脆弱性のうち約29%が、CVE(公開された脆弱性情報)の公開日かそれ以前に悪用されていた。一方、企業が修復を終えるまでの中央値は55〜75日。攻撃は公開とほぼ同時に始まるのに、ふさぐには2カ月前後かかる。この空白が、攻撃者にとっての「ボーナスタイム」になる。

 変化の速さは、悪用までの平均時間にも表れている。2018年には756日だったものが、2025年には20時間未満まで縮んだ。月に1度のパッチ適用(脆弱性を直す修正プログラムの反映)や、年に1度のペネトレーションテスト(専門家が攻撃者役となって侵入を試す検査)は、人間の攻撃速度を前提とした設計である。AIが攻撃を量産する時代には、追いつかない。

 中谷氏は、この非対称性を繰り返し強調する。「サイバーセキュリティの世界は、攻撃と防御でかなり非対称だ。攻撃者が有利だ」。攻撃側は、使える穴を1つ見つけて多数の企業に試し、どこか1社に刺されば侵入できる。守る側は、すべての穴をふさがなければならない。

 中谷氏はAIエージェントを、モデルとハーネスの組み合わせとして捉える。中身のモデルは、テキストを入れると、考えてテキストを返すLLMの基礎部分だ。これを取り囲む周辺の仕組み一式が、ハーネスにあたる。

 ハーネスは単一のツールではなく、部品の集まりだ。中谷氏の整理では、モデルの出力を決まった形式に縛る「スキーマ制約」、一段ずつ確かめて次へ進ませる「段階的検証ゲート」、出力を別のモデルに投げ直すクロスチェック、大量の自動入力で異常を炙り出すファジングなどの自動テスト基盤との接続が挙がる。モデルが「ここが穴かもしれない」と返しても、ハーネスはうのみにしない。実際にテストを当てて攻撃が通るかを確かめ、外れていれば別の角度で投げ直す。

エージェントの性能はモデルだけではなく「ハーネス」が重要となる

 モデルをそのまま使うと、まず偽陽性が多い。FirefoxをつくるMozillaは初期のGPT-4などを試したが、誤検知が多く、開発者から「不要なスロップ(質の低い報告)」と扱われたという。発見と実証の段差も残る。セキュリティ研究のAISLE、Xint、Ricercaの3社が独立に調べたところ、脆弱性の発見率は96%に達しても、攻撃を成立させられたのは半分前後に落ちた。

 その段差を、ハーネスが埋める。Mozillaはファイル単位でAIエージェントを並列に走らせ、自動テスト基盤と組み合わせて発見結果を検証する設計をとり、多数のバグを修正につなげた。「モデルだけでは足りない。周りのハーネスまで組んで、初めてMythosのような成果が出る」。中谷氏はそう話す。

 Mythosの高い評価値も、Anthropic内製のハーネスを含んだ数字である。2026年5月公開のベンチマーク「ExploitBench」では、攻撃コードを組み立てられた割合がMythos Previewで51%、GPT-5.5で5%と開いた。

 中谷氏が繰り返すのは、どのモデルを使うかより、モデルの改善を自動的に取り込めるハーネスを持てるかどうかだ、という点である。「アクセスの有無は本質ではない」という冒頭の言葉は、この意味だ。もっとも、モデルとハーネスは二者択一ではない。ハーネスはモデルの差を縮め、その性能を防御の成果に変える。最高難度の攻撃ではフロンティアモデルとの能力差が残るとしても、防御の運用としては、最新モデルに手が届かなくても戦える余地がある。

 ゼロデイ攻撃は、完全な予防だけに頼ることはできない。まだ世に知られておらず、修正方法も存在しない脆弱性を突くため、24時間の自動検査を敷いても事前に防ぎきれないからだ。「発想を逆転して、こうした攻撃は食らうものと考えるべきだ」と中谷氏は言う。

 侵入を前提に置けば、守りは複数の手を組み合わせることになる。攻撃に早く気づく検知、被害を初期侵入のうちに止める封じ込め、業務を立て直す復旧、そしてインターネットにさらす資産をあらかじめ絞る露出削減だ。いずれもAIが現れる前からの基本だが、攻撃の速度が上がった今、人がいちいち対応していては間に合わない。その多くをAIで自動化するしかない。

 中谷氏が守る側に挙げる打ち手は4つだ。セキュリティを情報システム部の課題から経営の課題へ引き上げる。検知から修正までを自動化し、頻度を上げる。内製で組むか製品を使うかを各社の事情で選ぶ。そして、モデルの進化に追従できる体制を保つこと。その核が、改善を自動で取り込めるハーネスである。

中谷氏が考える、守るための4つの方向

 止めずに検証とパッチを回せる基盤も欠かせない。攻撃の速度に人手で張り合うのではなく、気づいてから修正するまでの流れを途切れさせない土台をつくる。

 AIにコードを書かせる開発は、この数年で急速に広がった。だが、AIが書いたコードは人間がレビューすべきだという企業はまだ多い。一方、セキュリティは事情が違う。パッチが出てから反映までの速さが、そのまま防御の強さを左右する。中谷氏は、今すぐとはいかないが、早晩AIが自動でコードを書き換える段階を見据えて動く必要がある、とみる。

 アクセス格差は、近く埋まる見通しだ。Anthropicは5月、Mythos級モデルを近日中に全顧客へ開放すると発表した。能力を一部抑えたセーフガード付きとはいえ、特定モデルを持つ優位は薄れていく。

 残るのは、運用基盤の差である。中谷氏は次の段階を「攻撃のキャンペーン化」と見る。偵察から侵入、横展開、データ窃取までを1つのAIが多段階でこなす、持続的な攻撃だ。だからこそ防御も、年に1度の検査から常時の監視・自動修復へと動く必要がある。攻撃が止まらないなら、防御も止まれない。問われるのは、その常時稼働を支える基盤をどれだけ早く築けるかである。

Copyright © ITmedia, Inc. All Rights Reserved.

印刷する
SNSでシェア

関連記事: