DeepSeekの成功は必然。ビッグテックがやりたくないことをやった

Image: Mojahid Mottakin / Shutterstock

驕る平家は久しからず。DeepSeekショックでウォール街は大混乱です。

中国のAI企業DeepSeek(ディープシーク)が突如として世間を騒がせています。同社の生成AIアプリ「DeepSeek」は、OpenAIのChatGPTをぶち抜いて、Apple App Storeでもっともダウンロードされたアプリに躍り出ました。

DeepSeek、レガシーAIをコスパで圧倒

このビジネス的なサクセスストーリーの背景には、同社が発表した最新のR1モデルに関する複数の論文があります。

論文によると、DeepSeekは開発コストや利用者のコストを大幅に削減しながら、OpenAIの最高水準の公開モデルと同等、もしくはそれを上回る性能を実現したそうです。

DeepSeekは、圧倒的資金力を誇るOpenAIに追いつき追い越すために、OpenAI以上の何をやったんでしょうか? OpenAIは、従来のさまざまなベンチマークテストで先行していたGPT-o1モデルの訓練方法を明かしていないため、はっきりしたことはわかりません。ただ、両社のアプローチに明確な違いがあること、DeepSeekがめざましい進歩を遂げた分野があることは確かなようです。

DeepSeekと巨大な競合他社との最大の違いは、DeepSeekのモデルが他社と比較してはるかに効率的で、競争力を持っていることでしょう。それこそNVIDIAのような半導体メーカーの株価を暴落させちゃうくらいの。

最新の「推論」モデルであるR1とR1-Zeroは、DeepSeekのV3ベースモデルを基盤にしています。旧バージョンのNVIDIAハードウェア(中国企業が合法的に購入可能なチップ。最先端チップではないとのこと)を使用しているこのモデルは、600万ドル(約9億円)未満のコストで訓練されたといいます。

高価な最新チップを輸入できないなら、安い旧バージョンを使いつつ効率をアップしてみせる。見事な切り返し。

ちなみに、OpenAIのサム・アルトマンCEOによると、GPT-4の訓練には1億ドル(約150億円)以上ぶっ込まれているのだとか。DeepSeekの訓練コストはGPT-4のわずか6%。コスパすごすぎ。

米の対中チップ禁輸がDeepSeekを生んだ?

業界分析を行うCambrian AI Research社の創設者であるKarl Freund氏は、アメリカによる最新チップの対中輸出禁止などの政策によって、DeepSeekのような企業は、より優れたハードウェアやマンハッタンサイズの巨大データセンターに資金を投じるのではなく、モデルのアーキテクチャを最適化することによる改善を余儀なくされたと米Gizmodoに話しています。

Freund氏は続けます。

「迅速にモデルを構築することも、効率的にモデルを構築するために骨の折れる作業に取り組むこともできます。西側企業は、これまでやりたがらなかった大変な作業に取り組まざるを得なくなるでしょう」

DeepSeekが使用した最適化技術の大半は、独自開発ではないそうです。たとえば、メモリ使用量を減らすデータ形式の使用など、大手競合他社がすでに提案していたものもあります。技術的な知識を持たない人でも、DeepSeekの論文を読めば、訓練に必要なメモリを削減するために、あらゆるツールを活用して、旧バージョンのハードウェアで最大限効率的なモデル・アーキテクチャを設計するチームの姿が浮かんでくると思います。

OpenAIは、人間の試行錯誤による問題解決方法を模倣する「思考の連鎖(Chain of Thought/CoT)」と呼ばれる手法を用いて、特に数学やコーディングなどの複雑なタスクをこなす、いわゆる推論モデルを最初に導入した開発者ですが、その具体的な方法については明らかにしていません。

一方、DeepSeekはそのプロセスを公開しています。

DeepSeekは人間のフィードバックを排除して自己学習

これまでの生成AIモデルは、人間がAIの回答の良し悪しをラベル付けし、モデルが正確性や一貫性といった優れた特徴を模倣するように促す「人間のフィードバックによる強化学習(RLHF)」として知られる手法を取り入れて改善されてきました。

DeepSeekがR1モデルを構築する際に行なった大きな革新は、人間のフィードバックを排除し、自身の間違いを認識して修正するアルゴリズムを設計したことです。この手法を「純粋な強化学習」とします。

研究者たちは次のように述べています。

「DeepSeekのR1-Zeroは、自己検証や内省長い思考の連鎖の生成といった能力を示しており、研究コミュニティにとって重要なマイルストーンになっています。特筆すべきは、大規模言語モデルの推論能力が純粋な強化学習によって促進できることを実証した、初めてのオープンリサーチである点です」

しかし、その結果は完璧ではなかったようです。R1-Zeroモデルの出力は時に読みにくく、複数の言語が混在するケースもあったとのこと。

そこでDeepSeekは、純粋な強化学習を複数回組み合わせて、モデルを望ましい方向に導くために比較的少量のラベル付きデータを組み込んだ新しい機械学習パイプラインを開発しました。その結果、人間を対象とした数学やコーディングの問題セットにおいて、OpenAIのGPT-o1モデルを上回る性能を発揮するR1モデルが誕生したといいます。

災い転じてDeepSeekとなす

ジョージタウン大学安全保障・新興技術センターで中国の技術と政策を専門とするBill Hannas氏とHuey-Meei Chang氏は、西側企業の技術的ブレークスルーや実践内容を注視している中国の姿勢によって、アメリカ企業に優位性を与えるように設計されたチップ禁輸のような措置への対応策を、中国企業が見いだせるようになっているとのこと。

両氏は、DeepSeekの成功はアメリカの国内産業にとって悪い話ではないものの、「巨大かつコストがかかるソリューションに執着するアメリカのAI企業に対する警鐘」であるとし、中国のいくつかの国営研究所では「『より少ないリソースでより多くを成し遂げる』というアプローチが採用されている」と指摘しています。

チップ禁輸措置転じてDeepSeekとなすってわけですね。結果的にアメリカがDeepSeekの生みの親みたいになっちゃいましたね…。

関連記事: