数字で見る「いま最強のAI」って結局どれ?
群雄割拠のAI業界 。
突如として現れた、AI業界の勢力図をひっくり返すDeepSeekの存在。こんなニュースもありつつも、ChatGPTを凌ぐクオリティで、アウトプットのスピードも速い、なおかつ低コスト…って話ですが、じゃあ客観的に数値で比較したら現時点でどのAIが結局いいの? そんな疑問に今回はArtificial Analysisの調査をもとにChatGPT o1、ChatGPT o1 mini、DeepSeek R1、Gemini 2.0 Flash (exp)の、4モデルについて数値で比較してみました。
クオリティとスピード
Image: Artificial Analysisまずはクオリティとアウトプットスピードの比較から。左に行くほどアウトプットスピードが速く、上に行くほどクオリティが高くなっています。DeepSeek R1とChatGPT o1が僅差で、クオリティでChat GPT o1が上回っていますが、スピードでDeepSeekが上回り、ほぼ互角の闘いとなっています。
クオリティと価格
Image: Artificial Analysis次にクオリティと価格で比較です。ここで言う価格はAIモデルがインプット・アウトプットするためにかかるコストのことを指しています。ユーザーが支払う利用料金とは異なります。ただ、AIを利用する上でそのコストがユーザーの払う金額、AIモデルを使用した開発費に転嫁されると考えれば、コストとクオリティのバランスも注視すべき項目です。
ここではGeminiのデータがないようなので、それ以外の3モデルで比較です。 左に行くほどコストが安く、上に行くほどクオリティが高くなります。ここでは明らかにDeepSeekに軍配。わずかにクオリティで上回るChatGPT o1ですが、コストがDeepSeekと比べて約7倍近く高い結果となっています。
Image: Artificial Analysis比較対象となっているクオリティは、AIモデルのさまざま側面を総合評価した平均値を表しています。そのクオリティだけで比較すると各モデルの値はほぼ互角といったところ。分野によってやや入れ替わりはありますが、数ポイントの差で入れ替わるので、クオリティだけ見れば同レベルと言って良さそうです。
(現時点で)DeepSeekが最強。実用はもう少し後かも…
クオリティがほぼ互角でありながら、コストそしてスピードで上回っている現時点で最強のAIモデルはDeepSeekとなりました。やはりこれだけ話題になっているのも頷ける結果でした。アメリカ、日本でもアプリダウンロードランキング1位になったのも納得です。
これを踏まえて各社がどのような動きを見せてくるのでしょうか。これまでも毎日目まぐるしく勢力図が変わってきたAI業界ですが、DeepSeekの登場によってさらに激しい競争に突入しています。引き続き動向は要チェックです。
ただし現時点でDeepSeekは、日本語で入力すると中国語が返ってくるという報告も。そのためこれからはDeepSeekにみんな乗り換えちゃおう! という結論にできないのは玉にきずなところ…。日本語の精度となるとイマイチなようで、英語のプロンプトが前提になりそうです。
このあたりは日々アップデートされていくはずなので、実用として使えるのはもう少し後になるかも。ちなみに筆者も軽くDeepSeekを使ってみましたが、アウトプットスピードや日本語のクオリティで気になるところはありませんでした。プロンプトによってムラがありそうです。
Screenshot: 宮城圭介Source: Artificial Analysis, DeepSeek