PEZY/ExaScaler の Gyoukou(Green500 5位)が ABCI(Green500 8位)の2倍の電力を消費する省電力性能の逆転

2019年2月3日追加

2018年11月の Green500 で,冷媒を循環する電力を演算電力に加えたレベル3で Shoubu system B は測定されました.冷媒を冷却する電力は除外されていることなど,省電力性能に関する記事「Green500 レベル3の電力だけでは PEZY Shoubu system B は熱で壊れてしまう」で説明しました.

追加ここまで

ツイッターでアンケートできる,短文のクイズです.

Q. スーパーコンピュータの省電力性能を示すGreen500で5位のPEZYのGyoukouと8位の産総研のABCIのうち,片方の最大消費電力はもう片方の2倍です.計算性能がほぼ同じ2つのうち最大消費電力が大きいのはどちらでしょうか?

ヒント: 密行列計算 (High Performance Linpack, HPL) の計算性能について,
PEZY/ExaScaler の Gyoukou は 19.14 PFlops(2017年11月),産業技術総合研究所の ABCI は 19.88 PFlops(2018年6月)とほぼ同じ値を示しているので,省電力性能が優れている方が総消費電力の値は小さくなります.

A. 最大消費電力が大きい(省電力性能が劣る)のは PEZY の Gyoukou (5MW) です.ABCI はその半分以下の 2.3MW です.

理由: Green500 のランキングでは冷却電力が考慮されていないので,Green500 上位が下位よりも多くの電力を消費する(省電力性能が劣る)ことがあります.PEZY Computing, ExaScaler の Gyoukou は Green500 上位なのに多くの電力を消費する具体例です.

実際は多くの電力を消費するコンピュータを,1つの基準 (Green500) だけに特化してつくり,省電力性能が高いと主張することは,冷却電力を含めた全体で省電力性能の高いスーパーコンピュータを開発している誠実な開発者の努力をないがしろにするだけでなく,今後つくられるスーパーコンピュータの省電力性能が軽視されることにつながる,深刻な事態です.

冷却方法の違いからわかる省電力性能

産総研、人工知能処理向け専用スパコン「ABCI」を公開 から引用.強調は引用者によります.

計算ノードと冷却システムの双方が世界トップクラスの省電力性能を持つ点も特徴の1つ。およそ80℃から90℃程度の高温になるCPUやGPUなど基幹部品をAIデータセンター棟が供給する外気に近い温度(32℃)の温水を使って冷却。残った熱も、同じ冷却水を使った空冷システム(ファンコイルユニット)で取り除くシステムを採用した。水は、年間を通して冷却塔で基本的にパッシブに冷却する。2018年夏のような猛暑環境でも実際に大丈夫だったという。毎分5,000Lの水を作り出すことができる。
ハイブリッドな空冷システムとパッシブな冷却の組み合わせの工夫によって1Wあたり12.054GFLOPSの省電力・高性能を実現し、省エネ性能ランキング(Green500)で世界8位を記録した。使用電力は最大2.3MW。年間平均PUE(IT機器に使用する電力と冷却に使用する電力の和を、IT機器に使用する電力で割った値。1に近いほど高効率)は1.1以下。なお通常のデータセンターのPUEは1.5くらいだという。

ABCI は,外気に近い温度の温水(電気的に冷却していない常温の水)で80℃以上のCPUやGPUを冷ましています.この常温水冷却では水を冷やしていないので,冷却消費電力を抑えることができます.さらに,32℃の温かさで CPU, GPU を正しく動作させるために,高い技術が求められます.

一方 PEZY Computing, ExaScaler 社役員らによる招待論文 [鳥居17] によれば,Gyoukou に限らない彼らのコンピュータにおいて ExaScaler の液浸冷却は冷媒であるフロリナートを通常は 20℃に冷却し,CPU のリーク電力を削減しています. つまり,Green500 で除外される冷却電力を多く使うことで,Green500 で計測される電力を削減するという, Green500 に過剰に適合したシステムになっています.

Gyoukou と同一の冷却方式を取る Shoubu system B, Suiren2 なども, 同様にGreen500 に過剰に適合したシステムなので,冷却電力を含めた総消費電力では省電力性能が劣る可能性が十分あります.冷却電力を含めた総消費電力の値が公式に示されなければ,ExaScaler が省電力に関する実際の数字を隠しているのではないか,という合理的な疑いが残ります.

ExaScaler の否定には証拠が何もない

科学技術振興機構 (JST) による Gyoukou の開発中止について取材を断り続けている ExaScaler が,先月7月末に取材に応じた記事があります.助成金詐欺で社長逮捕のスパコン、連続世界一にも疑惑の目 から引用

一部報道などが疑義を呈しているのは、サーバーを特殊な液に浸して冷やす液浸冷却の省エネ性能で、ペジーの“強み”そのもの。実はGreen500は冷却用の消費電力量を評価対象外にしている。そのため、ペジーのスパコンを、現在、非公開になっている冷却を含む消費電力量で評価すると、省エネ性能に劣ることが明らかになるのではと疑われているのだ。
 ペジー関連会社で冷却システムを開発するエクサスケーラーは本誌の取材に対し、この疑惑をきっぱりと否定した。
 白いものまで黒と疑われても無理からぬ事情はあるが、ペジーの技術の価値は冷静に評価するべきだろう。

この記事にあるように「ペジーの技術の価値は冷静に評価する」なら,
総消費電力の値から PEZY Computing, ExaScaler のコンピュータは省電力性能について劣っていると,冷静に数字が評価しています.(ABCI の)2.3MW と(Gyoukou の)5.0MW の差は歴然としています.これに対して,何も情報を示さず「疑惑」としてきっぱりと否定したと記事にしても,否定になっていません.

冷却電力を含めた総消費電力で ExaScaler のコンピュータが省電力性能に優れるのならば,総消費電力,PUE の値を Gyoukou, Shoubu system B, Suiren2 などすべてについて会社として公表することが不可欠です.Oakforest-PACS, TSUBAME3.0, ABCI は総消費電力,PUE といった値を公式に発表しているので,公表することに技術的に全く問題ありません.証拠を何も示さない ExaScaler の否定は否定になっていませんし,証拠を記事に示すことなく,「疑惑」は否定されたとする記事を公表した週刊ダイヤモンド編集部千本木啓文氏は,なぜ否定されたと納得したのかについての説明が不足しています.

週刊ダイヤモンド編集部千本木啓文氏の記事について

引用した記事を書いた千本木啓文氏は「JAのコメ」に産地偽装の疑い、魚沼産に中国産混入という記事を書いています.以下はそこからの引用です.

JAグループは農家が組織した農業団体だ。「農家がつくった組織なら産地偽装はしないはずだ」と信じてコメを買ってきた消費者もいるだろう。しかし、京山のコメを調べると、そうした消費者の信頼を裏切る疑惑が次々と飛び出して来た。

この記事にならえば,「技術者がつくったコンピュータなら省電力性能に偽りはないはずだ」と信じてPEZY を応援したひともいるだろう.しかし,Gyoukou の総消費電力から冷却電力,PUE などを推定すると,そうした応援者の信頼を裏切る疑惑が高まっている.」のが現在の状態です.証拠をまったく示さない ExaScaler の主張をそのまま記事にした千本木氏の記事は,冷静な評価と対極にあり,自身の過去の記事と正反対の内容になっています.

ExaScaler が示そうとしない情報(総消費電力,冷却電力,PUE)を取材し,それらの数字やお互いの関係を理解したうえで,説得力のある理由とともに「PEZY のコンピュータの省電力性能は劣っていない」という記事を書いていただくことを願っています.

ヤフーのデータ部門技術トップの角田直行氏による省エネ性能の評価は基準が不明確

同記事からの引用.

ペジー関連のスパコンを自社で運用するヤフーのデータ部門技術トップの角田直行氏は「一般的な空冷式のスパコンに比べ、消費電力量を約3割減らせている」と語り、省エネ性能を評価した。

Green500 上位のスーパーコンピュータで一般的な空冷式を採用しているものはあまり見当たりません.例えば,Oakforest-PACS, TSUBAME3.0,
ABCI は常温に近い水で冷却することで,電力量を抑えています.世界トップレベルの省電力性能を実現するために,電力を使わず外気温に近い水で冷却するなど,細やかな工夫がされています.それらとの比較を避けて,一般的な空冷と比較しているのでは,「空冷よりは電力消費が抑えられるが,より省電力性能の良い方法がある」可能性を否定できていません.ヤフーのデータ部門が kukai の 冷却電力消費量,PUE の値を公式に発表していただくのが,省電力性能の理解には必要でしょう.

ヤフーが2017年(kukai 導入後)に着工したデータセンターでは,

また、5号棟では白河の冷涼な気候を生かし、サーバーから出る排熱を処理するために、建屋への直接外気導入と水冷および空冷のハイブリッド空調を組み合わせたシステムを採用しています。空気の循環が1層で完結するシンプルな設計と建築一体型の空調システムとすることで、年間のPUE(*2)は設計値で約1.2となる高い冷却効率を見込んでいます。
なお、本データセンターを保有するヤフー株式会社は、引き続き自社用途としてYahoo! JAPAN各サービス運用のために利用いたします。

と,水冷と空冷を組み合わせています.ExaScaler の液浸冷却が優れているのならば,水冷と空冷の組み合わせに切り替えた合理的な理由が不明です.

NVIDIA V100 GPU を使う PEZY/ExaScaler のシステムの省電力性能も不明

スパコンのエネルギー効率を競うGreen500 - 理研のシステムが連覇 から引用

現在、PEZY/ExaScalerでは、NVIDIAのV100 GPUをアクセラレータとして使うZettaScaler-2.4の開発を行っている。次の図を見ると、細長いボードにCPUと3個のV100 GPUが搭載され、このボードが12枚でブリックになるようである。
NVIDIAのV100 GPUの方が性能が良いという訳ではないが、V100 GPUを搭載したシステムが欲しいというユーザの要求に応える製品開発である。次回のGreen500には、このシステムで参加できる予定であるという。

この NVIDIA V100 GPU を使う PEZY/ExaScaler のシステムは,Gyoukou と同様に,工夫された水冷のスーパーコンピュータと比べて消費電力が2倍必要になる可能性があります.冷却電力が含まれない Green500 では上位に入るでしょうが,省電力性能を保証するものではありません.

まとめ

省電力性能ランキング Green500 上位にもかかわらず,PEZY Computing, ExaScaler の Gyoukou はランキングで下に位置する ABCI の2倍の最大消費電力があり,省電力性能は優れていないことを根拠を示して説明しました.

ExaScaler が省電力性能が劣ることを「疑惑」として扱い,何も根拠となる値を示さず否定することは,客観性の欠けた評価です.省電力性能について主張する前に,まず Green500 では測れない 冷却電力量,PUE の値を示すことが必要です.少なくとも Gyoukou の省電力性能には,総消費電力の値で裏付けられた合理的な疑いがあります.

PEZY のコンピュータが Green500 で上位独占を続けているのは,Green500 のルールを研究し,実用性を損なっても順位を上げる手段を追求した結果であり,実際のスーパーコンピュータの省電力性能には無関係です.

参考文献

[鳥居17]  鳥居 淳, 石川 仁, 木村 耕行, 齊藤 元章 (2017) グリーンスーパーコンピュータZettaScalerの技術と今後の展望.  電子情報通信学会論文誌 C, vol.J100-C, no.11, pp.537-544. PDF

この記事が気に入ったらサポートをしてみませんか?