Appleが提唱した「AIの推論能力の限界」にAI専門家が反論
「AIの推論能力は過大に宣伝されている部分があり、言うほどではない」と指摘するAppleの論文に対して、AI専門家が「Appleの調査結果のほとんどは基本的な推論の限界ではなく、実験的な設計上の欠陥」と反論する論文を発表しました。
The Illusion of the Illusion of Thinking A Comment on Shojaee et al. (2025)
https://arxiv.org/html/2506.09250v1New paper pushes back on Apple’s LLM ‘reasoning collapse’ study - 9to5Mac https://9to5mac.com/2025/06/13/new-paper-pushes-back-on-apples-llm-reasoning-collapse-study/ 2025年6月、Appleは「The Illusion of Thinking(思考の錯覚)」という論文を発表しました。論文の中でAppleはAnthropicの「Claude 3.7 Sonnet」、OpenAIの「o1」「o3」、DeepSeekの「DeepSeek-R1」、Googleの「Gemini」などのAIモデルを対象として、推論能力を検証。人間の推論を再現させたところ、宣伝されているほどではないという結論に至っています。
AppleがOpenAI「o3」のようなトップレベルのAIモデルや大規模推論モデルの限界を詳しく説明 - GIGAZINE
これに敢然と反論したのが、慈善事業の評価を行うNPO・オープンフィランソロピーのAIガバナンス・ポリシー担当であるアレックス・ローセン氏です。ローセン氏は論文に、Appleの論文への反論とはっきりわかる「Th Illusion of the Illusion of Thinking(思考の錯覚の錯覚)」という名前を付けています。 ローセン氏は、直近の大規模推論モデル(LRM)でも「ハノイの塔」のような複雑なパズルには手こずることを認めた上で、Appleの論文は「推論の失敗」と「実用的な出力の制約」「欠陥のある評価設定」を混同していると主張しています。 たとえば、AppleはLRMが8枚以上の円盤を用いる「ハノイの塔」だとほとんどクリアできなかったと主張していますが、ローセン氏は、Claudeだとトークン出力の限界に到達していたと指摘しています。実際に、Claudeは「トークンを保存するためにここで停止する」と出力を返したとのこと。
また、「川渡り問題」ではAppleの提示した条件に、解決不可能なものがあったとのこと。AIモデルは解決不可能であることを認識していましたが、Appleは一緒くたに「解けなかった」扱いをしたとローセン氏は指摘しました。 さらにローセン氏によると、Appleが用いた評価スクリプトでは、部分的な出力や戦略的出力もすべて「完全に失敗した」という不当な扱いになっていたとのこと。
ローセン氏が「ハノイの塔」を解くにあたり出力の制限にかからないよう工夫したところ、少なくともClaudeやGemini、OpenAIのモデルは15枚の「ハノイの塔」の解法を出力できたそうです。 なお、ローセン氏は、今回行った再テストは予備的なものであり、今後の研究では「推論能力と出力制限を区別した評価設計を行う」「モデル性能を評価する前にパズルが解けるものかどうかを検証する」「解の長さだけでなく、計算の難しさを反映した複雑さの測定基準を使用する」「アルゴリズムの理解と実行を分離するために複数の解表現を考慮する」といった点に重点を置くべきだと提案。「問題は、LRMが推論できるかどうかではなく、我々の評価が推論と出力を区別できるかどうかです」と述べました。
・関連記事 AnthropicがマルチエージェントのClaude Researchシステムの構築方法を詳細に説明、シングルエージェントシステムと比較して社内評価が大幅に向上 - GIGAZINE
Metaが賢いロボットを作るためのAIモデル「V-JEPA 2」をリリース、物理学的に正しい推論が可能で「考えてから行動するロボット」の開発に役立つ - GIGAZINE
Mistral AIが同社初の推論モデル「Magistral」を発表、専門分野の深掘りに対応してステップ推論に特化 - GIGAZINE
AppleがOpenAI「o3」のようなトップレベルのAIモデルや大規模推論モデルの限界を詳しく説明 - GIGAZINE