AIの壁――情報・知識はあっても「知恵」がない、その本当の課題とは?(Forbes JAPAN)
2024年末、米テキサス州のケン・パクストン司法長官は、ダラスに拠点を置くヘルスケア分野の人工知能(AI)企業Pieces Technologiesとの訴訟で、画期的な和解を発表した。同社は自社の臨床支援ツールを限りなく完璧に近い性能と称し、「深刻なハルシネーション(幻覚)の発生率を10万分の1以下に抑えた」と主張していた。 しかし調査の結果、こうした数値には十分な裏付けがないことが判明した。州は、Pieces Technologiesが顧客の中でも特に病院システムに対して、このツールが「医療記録を極めて高精度に要約できる」と誤って信じ込ませていたと結論づけた。同社のツールの性能は、実際にはその水準に達していなかった。 そして、患者への実害はなく、罰金も科されなかったものの、Pieces Technologiesは、このツールの精度やリスク、適切な使用法について新たな開示を行うことで合意した。これはAIツールの「書面上の性能」と「現実の性能」は別物であることを示す、この分野の初期段階の法的シグナルとなった。 認知科学者でAI専門家のゲイリー・マーカスのような批評家たちは、現在の大規模言語モデル(LLM)には根本的な限界があると長年警鐘を鳴らしてきた。「これらのモデルは、言語の意味を理解しているわけではなく、表面的な使い方を真似ているにすぎない」とマーカスは述べている。特に、一般的なデータで訓練されたモデルが専門性の高い環境に投入された場合、そのAIが現場の文脈や業務慣習を誤って解釈・判断し、重大な誤作動や判断ミスを引き起こすことがある。その際に、モデルの根本的限界(=言語理解ではなくパターン近似であること)が最も危険な形で明らかになる。
■「コンテキスト」とは? またその不足とは? Twofold Health共同創業者のガル・スタインバーグCEOによれば、多くのAIの失敗の核心にある問題は「コードの不具合」ではなく、「コンテキストの不足(Context Starvation)」だという。 「AIモデルは、パターンしか見ておらず、その背後にある目的・暗黙のルール・人間の感情といった『コンテキスト(文脈)』が見えていない」と彼は語る。「AIモデルは、言葉やクリック率といった指標を完璧に評価できても、医療現場を動かしている規則や業務フロー、暗黙の了解といった、より広い『コンテキスト』には気づけない。設計者・開発者・マネージャーといった人間が、そうした制約や倫理・慣習を考慮せずに「最適化目標(KPI)」を設定した場合、AIは数値目標を達成しても、本来果たすべき使命を見失ってしまう」。 ■コンテキストの定義 スタインバーグはコンテキストを「スプレッドシートで省略している、すべての要素」だと定義する。「そこには、プロジェクトの目標、AIに対する制約(法律・規制・業務手順・倫理上の指針)、業界の専門用語、ユーザーの感情、コンプライアンス規則、タイミングなどが含まれている」。 AIツールがミスを犯すのは、多くの場合、コンピューティングのパワーが足りないといった能力不足ではなく、情報不足による場合が多い。人間のチームであれば当然のように理解している文化的な理解、専門的なニュアンス、いつ何が起こったのかという時間(タイミング)についての認識が欠けている。 たとえば、医療セラピーにおける90秒の沈黙が発生したタイミングについて、AIは単に「90秒の無音」という事実として処理する。一方人間の医師は、どのようなタイミングで沈黙したのかを認識し、患者の状態を示す重大なサインと判断する可能性がある。また財務報告であれば、金融業界において記載が義務づけられている略語の欠落は不正の兆候を示すサインとなるが、一般的な言語で訓練されたモデルがそれに気づくのは難しい。 だからこそ、Twofold Healthでは、こうしたコンテキストを把握するために、シンプルな質問を投げかけているという。「誰がその場にいるのか? 彼らは何を達成しようとしているのか? そして、間違えたときには何が起こるのか?」。 もう1つの大きな問題は、多くの企業がコンテキストを「一度アップロードすれば済むもの」と考えている点だと彼は指摘する。しかし、ルールや要件は常に変化するものだ。「プロンプトや訓練データを常にアップデートしなければ、AIは道を外れる」とスタインバーグは語った。 そして、多くの企業が訓練内容やコンテキストを更新しなかったため、初期のAIプロジェクトの多くが現場の変化に対応できなくなり、結局使われずに放置されているという。米国を代表するシンクタンク、ランド研究所によれば、AIプロジェクトの80%以上が失敗または停滞しており、その原因の多くは、モデルが機能しないからではなく、「モデルが訓練されたコンテキスト」と「実際に投入された環境」がもはや一致していないからだという。つまり、AIが表面上は正しく見えても実際には機能しない、「間違った芝居に出てしまった俳優」のようになっている。