NVIDIA RTX 5090のリセットバグ修正に1000ドルの報奨金が提示される
NVIDIAのGPU「RTX 5090」および「RTX PRO 6000」には再現可能な不具合があるとして、クラウドGPUサービスを提供するCloudRiftが問題の解決に1000ドル(約14万8000円)の報奨金を用意しました。
Bug Bounty: NVidia Reset Bug | CloudRift Blog
https://www.cloudrift.ai/blog/bug-bounty-nvidia-reset-bugNvidia RTX 5090 reset bug prompts $1,000 reward for a fix — cards become completely unresponsive and require a reboot after virtualization reset bug, also impacts RTX PRO 6000 | Tom's Hardware https://www.tomshardware.com/pc-components/gpus/rtx-5090-pro-6000-bug-forces-host-reboot CloudRiftによると、Blackwellを搭載したRTXシリーズ2製品には「仮想マシンで使用する際に応答不能になる」というバグがあるとのこと。 このバグはKVMとVFIOを使用してGPUを仮想マシンに渡した後で発生します。ゲストOSのシャットダウン時またはGPU再割り当て時、ホストはパススルーデバイスのクリーンアップ標準手順であるPCIe関数レベルリセット(FLR)を発行しますが、GPUは正常状態に戻らず応答不能に陥り、FLR後65535ミリ秒経過しても準備完了せず、処理が放棄されるとのこと。CloudRiftによれば、電源を再投入するしか回復手段がないようです。
RTX 4090など旧世代のモデルなどでは発生しないことから、RTX 5090およびRTX PRO 6000特有の問題だとCloudRiftは指摘。ProxmoxフォーラムやLevel1Techsコミュニティのスレッドでは、RTX 5090の一般ユーザーや早期購入者も同様の現象に遭遇していることが示唆されているそうです。NVIDIAはこの問題を公式に認めておらず、回避策も存在しません。 CloudRiftは、有効な緩和策または修正案を提供した者に対して1000ドルの報奨金を与えると告知し、問題の解決手段を探るための協力を求めました。
・関連記事 AMDがVRAM容量32GBのAI処理特化グラボ「Radeon AI PRO R9700」を発売予定、GeForce RTX 5080を超えるAI処理性能 - GIGAZINE
ランサムウェア「Akira」の暗号化は16基のRTX 4090を使えば約10時間で解読できる - GIGAZINE