データセンター冷却なぜ難しいのか、CMEの障害で再び注目-QuickTake

米シカゴ・マーカンタイル取引所(CME)で発生したシステム障害により約10時間にわたり株価先物や為替取引が停止したことで、ある「隠れたインフラ」に改めて注目が集まった。日常生活で重要度を増すデータセンターだ。

  データセンターはコモディティー取引からスマートフォンで撮影した写真のクラウド保存に至るまで、あらゆる用途で不可欠な存在であり、人工知能(AI)向け巨額投資の中心地でもある。

  だが、大量のデータを保存・処理する過程で膨大な熱が発生する。データセンターを故障なく稼働させるための冷却設備は、関連プロジェクトの資本的支出に占める割合が最大15%に上る。世界最大の先物取引所を運営するCMEグループによる今回の取引停止は、システムに不具合が起きれば、その影響が世界に広がる可能性があることを浮き彫りにした。

なぜデータセンターは過熱するのか

  データセンターとは、データの処理・保存を担う複数の半導体チップを搭載したサーバーを大量に収容した建物だ。こうした計算・処理能力は通常「コンピュート」と呼ばれ、AIモデルを訓練しようとする企業にとって欠かせない資源となっている。

  データセンター事業者は、この計算能力を他社に貸し出すことで収益を上げる。顧客はこれを使って自社のインターネット基盤となるシステムの運用やAIモデルの訓練、ユーザーのプロンプト処理を行う。このためデータセンター運営元には、容量を最大化しようと、できる限り多くのサーバーを1カ所に集約しようとする動機が働く。

  サーバーはいずれも大量の電力を必要とする。電力消費が極めて大きく、24時間稼働するため、データセンターのエネルギー使用量は、通常のオフィスビルの1平方フィート当たり最大50倍に達する。この消費エネルギーの大半は最終的に廃熱になる。複雑な作業をさせるとノートパソコンやスマホが熱くなるのと同じ原理だ。

データセンターの冷却方法は

  サーバーの冷却は従来、家庭用エアコンと同様に冷気を使って行われていた。ファンで冷やした空気をサーバーに吹き付け、温まった空気をサーバールームの外へ排出する方式だ。

  しかし2022年ごろから、AI用途のデータセンターで発生する熱量が増加したことを背景に、液体冷却方式が普及し始めた。チップの下に配置したプレートに冷却液を循環させる方式のほか、サーバー全体を液体で満たしたタンクに浸す方式もある。

  さらに、沸点の低い液体を使うシステムもある。高温のチップに接触すると熱を吸収して蒸発する方法で、汗が人体から熱を奪う仕組みに似ている。蒸発した液体は再び凝縮され、液体に戻ってタンクへ戻される。

ロンドン・グローバルスイッチ・ドックランズデータセンターキャンパス内の液体冷却サーバー

  液体は同じ体積で空気より多くの熱エネルギーを運べるため、冷却効率が高い。ただ、こうしたシステムは設置が複雑で費用もかさむ。不具合が起きた場合も厄介だ。高価なチップの上に液体がこぼれる事態は誰も望まないだろう。

  空冷か液冷かにかかわらず、チップから吸収した熱は冷却された水が循環するループへと移される。その水はその後、冷却塔またはチラー(工業用の大型冷蔵装置のようなもの)に送られ、そこで熱が外気へ放出される。

  データセンターが大量の水を使用するとの指摘があるのは、この冷却塔が熱を放出する過程で、水の一部を蒸発させるためだ。とりわけ水資源がすでに逼迫(ひっぱく)している地域では、データセンターの水使用量が地域の水供給に負荷をかけるとの懸念が強まっている。

データセンターが過熱するとどうなる

  過熱が発生するとデータ消失やサーバー内の高価なチップの損傷、顧客向けサービスの停止などにつながる恐れがある。その影響は、ネットを支えるデジタル基盤を提供する企業で最近相次いだ障害と酷似したものになる可能性がある。

  11月にはサイバーセキュリティー企業クラウドフレアのネットワークで大規模障害が発生し、ソーシャルメディア「X」からChatGPTに至るまで、幅広いウェブサイトが閲覧不能となった。アマゾン・ドット・コムのクラウドサービスやクラウドストライク、マイクロソフトでも同様の問題が発生しており、ネットインフラを支える少数の企業にどれほど世界が依存しているかを浮き彫りにした。

  データセンターは通常、障害の可能性を極力抑えるため、追加の発電設備や冷却装置、さらには施設全体の複製など、不測事態に備えて多額の投資を行っている。しかし、システムが複雑になるにつれ、障害を完全に防ぐことは一段と難しくなる可能性がある。

CMEの障害では何が起きたのか

  CMEの取引プラットフォームは、シカゴ郊外のイリノイ州オーロラにあるキャンパスを拠点としており、同施設はデータセンター運営会社サイラスワンが所有する。サイラスワンは2022年にプライベート・エクイティー(PE、未公開株)投資会社のKKRとグローバル・インフラストラクチャー・パートナーズに買収された。

  サイラスワンによると、11月27日にオーロラの施設の一つでチラープラントが故障し、複数の冷却装置に影響が及んだ。これをきっかけに障害が発生。株式、外国為替、債券、商品などの市場で数時間にわたる混乱が生じ、数兆ドル規模の取引に影響が及んだ。冷却システムの不具合を原因とする今回の混乱は、こうしたインフラの障害リスクを改めて示した。

  障害発生後、サイラスワンは常設システムの補完として臨時の冷却設備を投入し、冷却能力の完全復旧に向けた対応を進めた。同社によれば、キャンパスには「高度な冷却技術」が備わっており、外気温がマイナス1度未満の際には空冷チラーに加え、外気や水の自然の冷気も利用しているという。データセンター運営会社が不具合への対応を続けていた現地時間28日午前10時40分のオーロラの気温は約マイナス2度だった。

  サイラスワンのウェブサイトには、オーロラ施設には空冷チラープラントの故障に備えて追加の冷却装置が設置されていると記載されている。ただし、今回の障害でそうしたバックアップが機能したかどうかは明らかでない。

原題:CME Outage Shows Challenge of Cooling Data Centers: QuickTake(抜粋)

関連記事: