オープンAIモデル「Kimiシリーズ」の派生APIが公式と同精度で動作しているかを検証するツール「Kimi Vendor Verifier(KVV)」が登場

AI

オープンモデルのAIシリーズ「Kimi」を展開する中国のAIスタートアップのMoonshot AIが、AIの動作精度を検証するツール「Kimi Vendor Verifier(KVV)」をオープンソースで公開しました。

Kimi Vendor Verifier https://www.kimi.com/blog/kimi-vendor-verifier

Moonshot AIは2026年4月21日にClaude Opus 4.6と同等の性能を誇るオープンモデルの「Kimi K2.6」を公開するなど、有力なモデルを作成しています。

Claude Opus 4.6と同等性能の中国製AIモデル「Kimi K2.6」がオープンモデルとして公開される - GIGAZINE

Moonshot AIはこれまで、コミュニティから「ベンチマークスコアがおかしい」というフィードバックを頻繁に受け取っていたとのこと。調査の結果、ほとんどの場合はデコードパラメータが間違っていることが原因と判明し、API側でいくつかのパラメータを強制的にセットする修正を行いました。

その後、サードパーティのAPIを調査すると公式APIとの間に顕著な違いがあることが判明。Fireworks AIのようにモデルの最高性能を引き出すための努力をしているベンダーも存在する一方で、低品質なモデルを提供するベンダーも存在しています。

Moonshot AIの提供するモデルはオープンモデルで誰でもモデルを実行できますが、品質の制御が難しいことが浮き彫りになりました。ユーザーがMoonshot AI製のモデルをサードパーティベンダー経由で利用し、低品質な応答が返ってきた時、モデルに原因があるのか、サードパーティベンダーの設定に原因があるのかを判別できなければユーザーの信頼を失ってしまいます。

そこで、Moonshot AIはAIが正しく公式と同じ性能を出せているかを検証するツール「KVV」を開発し、オープンソースで公開しました。

GitHub - MoonshotAI/Kimi-Vendor-Verifier: Kimi-Vendor-Verifier · GitHub https://github.com/MoonshotAI/Kimi-Vendor-Verifier

KVVでは以下の6つのベンチマークでモデルの性能を確認するとのこと。

・事前検証

APIのパラメータが正しく適用されているかを検証します。

・OCRBench

マルチモーダルパイプライン向けの5分間のスモークテスト。

・MMMU Pro

多様な視覚入力をテストし、前処理を検証します。

・AIME2025

長時間出力ストレステストで、短時間のベンチマークでは発見できないKVキャッシュのバグや量子化の劣化を検出します。

・K2VV ToolCall

一貫性とJSONスキーマの正確性を測定し、ツールエラーを検出します。

・SWE-Bench

完全なエージェント型コーディングテストです。サンドボックスへの依存があるためオープンソースには含まれていません。 また、ベンダー向けにテストモデルへの早期アクセスを提供することで、公開前にベンダーが自社のシステムをチェックできるようにするとのこと。さらにMoonshot AI側でベンダーのAPIを確認し、実績をランキング形式で公開するとしています。 KVVの一連の実行には2台のNVIDIA H20 8GPUを搭載したサーバーで約15時間かかったとのこと。

KVVの公開にあたり、Moonshot AIは「モデルをオープンにすることは戦いの半分に過ぎない。残り半分は他の場所で正しく動作していることを保証することだ」と述べ、サードパーティベンダーにKimi K2.6の正しい実装をさせることに意欲を見せています。

・関連記事 OpenAIやClaudeのAIモデルを単一APIで利用可能にするライブラリ「any-llm-go」をMozillaが公開 - GIGAZINE

無料でオープンソースのAIコーディングエージェント「OpenCode」、Windows・Linux・macOSで利用可能でClaude・GPT・Geminiなどにも対応 - GIGAZINE

無料でローカルAI環境を簡単に導入できる「Lemonade」、Windows・Linux・macOSにも対応したオープンソースで特にAMDのGPU・NPUで効果的 - GIGAZINE

AIでオープンソースプロジェクトをコピーせずゼロから再構築することでライセンスを独立させてしまうサービス「MALUS」 - GIGAZINE

ウェブブラウザ単体でOCR処理を実行してAIで校正までできる「NDLOCR-Lite Web AI」レビュー、国立国会図書館のNDLOCR-Liteを簡単に利用可能にしたウェブアプリ - GIGAZINE

関連記事: