OpenAIの次期最強モデル｢o3｣、人間を超えて超人レベルに進化

Image: kovop / Shutterstock.com

もう追いつかれちまった…。

12日間にわたるOpenAIプレスイベントの最終日（12月20日）に発表された新しいAIモデル｢o3 ｣と｢o3-mini｣は、昨年9月に出た｢o1モデル｣の後継モデルです。一般公開に先駆けて、安全性テストや研究目的の利用はもう解禁になっているわけですけど、数々のテストでとんでもないスコアを出しているっていう、もっぱらの評判ですよ。

｢o3 ｣って何？

｢o3｣はOpenAIが開発した最新の推論モデルで、miniはその小型版です。

開発にあたってOpenAIが組み込んだのは｢private chain of thought（外部から見えない思考の連鎖）｣というプロセス。これは、回答を出す前にいったん立ち止まって内部の対話を精査し、先々を見越したプランを組み立てる工程を指し、｢simulated reasoning（SR：シミュレーションに基づく理論化）｣とも呼ばれます。

これがあるとないとでは大違い。そこが従来の大規模言語モデル（LLM）との一番の違いです。

難関テストで超人的スコアを出す

実際どの程度差があるのかというと、OpenAI曰く、視覚判断能力を占うARC-AGIのベンチマークにおいてo3は、軽い処理力が要求される条件下で75.7点、高い処理力が要求される条件下で87.5点をマーク（従来のAIでは最高でも55点どまりだった）し、人間の得点（85点）にとうとう並んだんのだといいます。

昨年の全米数学チャンピオン出場選抜テスト｢AIME（American Invitational Mathematics Exam）*｣でも96.7点を達成し、間違えたのはたったの1問でした。

*AIME：全米数学コンテスト選抜試験（AMC 12、AMC 10）で上位5％の高得点をおさめた者のみが招待される選抜試験。15の難問を3時間で解かなければならない。

さらにGPQA Diamondという院生レベルの生物、物理、化学の設問を含む試験では87.7点を獲得。

EpochAIが開発した難関ベンチマーク｢Frontier Math｣においては25.2%の問題に正しく回答できたというから驚きです。

25.2点という赤点みたいに見えますけど、Frontier Mathの設問は世界の数学の頭脳が集まって考えた｢未発表｣の難問ばかり。既存の回答のコピペでは絶対解けません。現にほかのモデルでは正答率2％を超えた試しがない超絶難関試験ですので、そこんとこお間違いのないように。

これにはオープンなAI開発を支援するNPO｢ARC Prize Foundation｣の会長もビックリしたみたいで、発表のライブストリームのとき｢こうした結果を見た以上、自分もAIの能力に対する認識を改めなくてはならない｣と言ってました。恐るべし、 SRモデル。

これで生活は変わるの？

｢人間レベルに到達した｣と報じているメディアもありますが、これはARC-AGIの結果にのみ着目した見出しであって、こうして全体を見回すと、数学チャンピオンに挑んだこともない並みの人間としては、とっくの昔に抜かれてるじゃん！と脱帽するばかりです。

もちろん正式リリースになるまで実物に触れられる人はとても限られているので、多角的な検証を経ないと迂闊なことは言えませんが、この結果が本当なら、人間並みに自分で考えて指数関数的に進化するAIの誕生となり、経済的な影響は計り知れません。

AGI自体の能力を計測する新たなベンチマークも必要なら、人知のおよばない進化をどう規制するのか、真剣に話し合わなければならなくなるでしょう。

全員が全員、こうしたレベルでAIを使いこなせているわけではないし、こうしたレベルで使いこなすには処理能力も必要。そのぶん月額使用料も高くつきます。みんなの生活がどの程度変わるかは、出てみないことにはわかりませんけどね。

o1発表を皮切りに推論モデルの分野にはライバルも続々進出しています。DeepSeekは11月に｢DeepSeek-R1｣をローンチしましたし、12月19日にはGoogleも｢Gemini 2.0 Flash Thinking Experimental｣を発表。Alibaba傘下のOwenも｢o1のオルタナティブ｣と称して｢QwQ｣でレースに参戦です。まあ、Googleの長い名前の競合AIに関してはまだ｢Strawberryという単語にRは何個あるの？｣という質問に｢2｣と答えたりしているようだけど…。

o3の実力、気になります。

Sources: ArsTechnica, The Conversation