SC18 NVIDIA NEWS

日本の GPU 搭載システムとしては、4,352 基の Tesla V100 を備え、全体でも 7 位
に入った産総研の ABCI、 GPU スパコンの草分けである東工大の TSUBAME 2.5 お
よび 3.0、ResNet-50 の ImageNet データセット学習を 15 分で完了させた
Preferred Networks の MN-1、 NVIDIA DGX-1 のクラスタである理研の RAIDEN な
ど、7 システムがランク入りしています。
TOP500 リスト発表 – Tesla V100 搭載システムが 1、2 位を獲得
SC18 NVIDIA 関連情報のまとめ
ダラスで開催中のスーパーコンピューティングに関する学会・展示会 SC18 で、スーパーコンピューターの世
界ランキングである TOP500 リストの 2018 年 11 月版が発表されました。
米国エネルギー省オークリッジ国立研究所 (ORNL) の Summit が 143.5 PFLOPS を記録して首位を
維持。2 位にはローレンスリバモア国立研究所の Sierra が入り、POWER9 と Tesla V100 を搭載する
システムが 1 位と 2 位を占めた他、5 位にスイス国立スーパーコンピューティングセンター(CSCS)の Piz
Daint、7 位に産総研の ABCI、9 位に ORNL の Titan と、トップ 10 の半数が GPU 搭載システムで、
全体では 500 中 127 システムが GPU 搭載スーパーコンピューターとなりました。
NEWS
# システム名称組織
Rmax
[TFlop/s]
GPU
7 ABCI 産業技術総合研究所 19,880 Tesla V100
22 TSUBAME 3.0 東京工業大学 8,125 Tesla P100
69 TSUBAME 2.5 東京工業大学 2,785 Tesla K20x
227 MN-1 NTT Com (PFN) 1,391 Tesla P100
279 RAIDEN GPU subsystem 理研 AIP 1,213 Tesla V100
408 QUARTETTO 九州大学 1,018 Tesla K20x
444 AIST AI Cloud 産業技術総合研究所 961 Tesla P100
v1.3
日本版
Tesla P100
Tesla V100
Tesla K20x
Tesla K40
Tesla K80
Tesla 2050
Tesla P40
Tesla 2070
日本の GPU スパコンは 7 システムがランクインPascal と Volta 世代が全体の 8 割以上
127 ある GPU 搭載システムの内訳を見ると、首位の
Summit や日本の ABCI が搭載する Volta 世代の
Tesla V100 が 46 システム、ヨーロッパ最速の Piz Daint
や日本の TSUBAME 3.0 が搭載する Pascal 世代の
Tesla P100 が 63 システムで利用され、GPU 搭載シス
テム全体の 86% を占めています。
Green 500 リストの上位に GPU システムが多数ランクイン
TOP500 にランクインしたシステムの電力性能比を競うのが Green500 です。今回も理研の Shoubu （菖蒲）system B が
首位となり、日本のスーパーコンピューターが 3 連覇を成し遂げました。2 位以降は GPU スパコンのパレードで、エヌビディアの
DGX SATURNV、TOP500 首位の Summit、産総研の ABCI、東工大の TSUBAME 3.0 等がずらりと並んでいます。上位 25
システムの内、実に 22 システムが GPU で加速したスーパーコンピューターで、Tesla P100 および Tesla V100 のいずれかを
搭載するシステムです。これは GPU が効率の高いアクセラレーターであることを端的に示しています。
Green500 リスト: https://www.top500.org/green500/lists/2018/11/
エヌビディアの創業者兼 CEO であるジェンスンフアンは 12 日、SC18 参加者を招待した特別講演の中で、データセンター
向け GPU である Tesla T4 の採用が記録的な速度で進んでいると発表しました。
Turing 世代 GPU の Tesla T4 は、2,560 個の CUDA コアと、320 個の Tensor コアを備え、 70W という低消費電力で、
単精度で 8.1 TFLOPS、新たに導入された INT4 演算では 260 TOPS という高い性能を発揮します。
Tesla T4 はすでに 57 機種のサーバーに採用されただけでなく、Google Cloud Platform でも利用可能となりました。
ニュースリリース: NVIDIA Announces Record Adoption of New Turing T4 Cloud GPU
Google Cloud の発表: Google Cloud first to offer NVIDIA Tesla T4 GPUs
Turing 世代のデータセンター向け GPU Tesla T4 の採用が急拡大
これは 1 年前の 86 システムから大幅に増加しており、新たにランクインしたシステムには、Tesla V100 をノードあたり 16 基搭載
する最新型サーバー、NVIDIA DGX-2H の 36 ノードクラスタ「Circe」も含まれています。
TOP500 リスト: https://www.top500.org/lists/2018/11/
NGC が Singularity をサポートするなど HPC 対応を加速
SC18 に合わせて、エヌビディアのコンテナイメージレジストリである NGC の HPC 対応をさらに強化する発表が行われました。
一つは、 Singularity のサポートです。Singularity は Docker のイメージを利用可能なコンテナランタイムですが、多数の
ユーザーが共同利用する計算機センターなどで利用しやすく設計されており、HPC 領域で広く使われています。今回、
Docker に加えて Singularity をサポートしたことで、 NGC の GPU 対応コンテナイメージをスーパーコンピューティングセン
ターなどでも活用しやすくなります。
また、新しいマルチノード対応イメージが追加され、 MPI を使ったマルチノードジョブを簡単に実行できるようにもなりました。
エヌビディアブログ: NGC Containers Now Available for More Users, More Apps, More Platforms

Facebook: https://www.facebook.com/NVIDIAAI.JP
Twitter: @NVIDIAAIJP / @NVIDIAJapan この資料: bit.ly/sc18nvnews
ゴードンベル賞はコンピュータサイエンス分野の国際学会である ACM から、科学、工学、大
規模データ分析分野の課題に HPC を適用する優れた業績に対して贈られる賞です。
今年はオークリッジ国立研究所の “Attacking the Opioid Epidemic: Determining the
Epistatic and Pleiotropic Genetic Architectures for Chronic Pain and Opioid
Addiction” とローレンスバークレー国立研究所の “Exascale Deep Learning for
Climate Analytics” を発表した研究チームが、この栄えある賞を受け取りました。
最終選考に残った 6 チームのうち 5 チームが NVIDIA の Tesla V100 GPU を活用しており、
そのうち 3 チームの論文に NVIDIA の社員が共著者として関わっています。
GPU スーパーコンピューターを活用した研究がゴードンベル賞を受賞
ACM による発表: Two Teams Honored for Work in Combating Opioid Addiction, Understanding Climate Change
エヌビディアブログ: Twice as Nice: NVIDIA Powers Not One, But Two, Gordon Bell Prizes
以下、2 件の研究の概要を簡単に紹介します。
Attacking the Opioid Epidemic: Determining the Epistatic and Pleiotropic Genetic Architectures
for Chronic Pain and Opioid Addiction
オピオイド鎮痛剤 (医療用麻薬) は、がんなどの手術後の痛みを抑えるために有効ですが、同時にその過剰摂取が大き
な問題になっています。処方された患者の約 30% がこれを乱用し 10% がオピオイド使用障害を発症しているとの研究も
あります。また退役軍人の 50% 以上が慢性疼痛 (Chronic Pain) を患っており、22.7% がオピオイドを持続的に使用し
ています。CDC (アメリカ疾病管理予防センター) は米国内におけるオピオイド依存症による経済的損失を年間 785 億
ドルと推定しています。
鎮痛剤に対する感受性には大きな個人差があり、同じ薬物を同量摂取しても、依存症に陥る人とそうでない人がいます。
オークリッジ国立研究所 (ORNL) のチームは、この個人差に影響する遺伝的情報を解析するために、大規模な GAWS
– ゲノムワイド関連解析を実行する CoMet というアプリケーションを開発しました。これはゲノムデータにおける関連を見つ
ける網羅的な探索を行う、極めて計算負荷の高い処理です。その環境は、ORNL の二つのスーパーコンピューター、
Titan と Summit です。Titan は、2012 年 11 月の TOP500 ランキングで首位を獲得したシステムで、18,688 ノード
のそれぞれに Tesla K20x GPU を 1 基ずつ搭載しています。そして、Summit は最新の TOP500 リストの首位に輝いた
システムで、ノード毎に 6 基、4608 ノード全体では 27,648 基の Tesla V100 Tensor コア GPU を備えます。
本研究では、CoMet の GPU に最適化されたベクトル比較処理が、Titan および Summit の全系での実行までスケー
ルし、また Summit においては Tesla V100 の Tensor コアを活用することで毎秒 3 ペタ要素の比較を処理し、2.3
ExaOps の計算スループットを達成しました。この性能は、これまでの最先端手法の 1 万倍以上に相当します。
詳細はこちら: Attacking the Opioid Epidemic: Determining the Epistatic and Pleiotropic Genetic Architectures for Chronic Pain and Opioid Addiction
Titan
Summit
Exascale Deep Learning for Climate Analytics
ローレンス・バークレー国立研究所、オークリッジ国立研究所とエヌビディアの研究者は、台風やハリケーンなどの熱帯性
低気圧 (TC) や、豪雨の元になる大気河川 (AR) といった、我々の生活や経済に大きな影響を与える気象状況を検
出するために、GPU スーパーコンピューターの計算能力と、ディープラーニングを活用しました。
使用された環境は、ORNL の Summit と、CSCS の Piz Daint (ノード毎に 1 基の Tesla P100、全体で 5704 ノード)
です。Tiramisu と DeepLabv3+ という二つのセマンティックセグメンテーションネットワークの改良版を、TensorFlow と
Horovod で実装し、CAM5 シミュレーションデータセットで分散トレーニングしました。結果的に、 Piz Daint での改良
版 Tiramisu ネットワークの学習は、5,300 GPU までスケーラブルで、並列化効率は 79.0%、演算スループットは 21.0
PFLOPS となりました。また、 Summit での DeepLabv3+ は 27,368 GPU までスケールし、並列化効率は単精度で
90.8%、スループットは 325.8 PFLOPS を達成しました。さらに、Tesla V100 の Tensor コアを使うように改良した
DeepLabv3 では、1.13 ExaFLOPS のピークスループットを記録しました。
このレベルの性能とスケーラビリティを得るために、GPFS からの高速ファイルステージング、Horovod での階層型 All-
Reduce、重み付き損失計算や LARC (Layer-wise Adaptive Rate Control) 等、様々な工夫が行われています。
詳細はこちら: Exascale Deep Learning for Climate Analytics Piz Daint
東京大学地震研究所、ORNL、CSCS、エヌビディアによる研究もファイナリストに
惜しくも受賞は逃しましたが、東京大学地震研究所、ORNL、CSCS のチームによる研究も、
ゴードンベル賞の最終選考にノミネートされました。本研究は、都市部における地震の影響
をシミュレートするための陰解法・非構造格子有限要素法ソルバーを、AI と変動精度演算
を活用して高速化したものです。AI によって演算回数を 1/5.56 に削減し、FP16-FP21-
FP32-FP64 の変動精度演算を適用した疎行列ベクトル積カーネルは Summit の FP64
性能の 71.4 % を発揮しました。これは、標準的なソルバーの 25.3 倍、また SC14 のゴード
ンベル賞ファイナリストの GAMERA と比較しても 4 倍弱高速です。
また、本研究には NVIDIA Japan のシニアデベロッパーテクノロジエンジニアである成瀬彰
も参加しているほか、SC18 のエヌビディアブースでは本研究によるシミュレーション結果の可
視化デモンストレーションを行いました。
詳細はこちら: A Fast Scalable Implicit Solver for Nonlinear Time-Evolution Earthquake City Problem on Low-Ordered
Unstructured Finite Elements with Artificial Intelligence and Transprecision Computing
市村先生はじめ関係者の皆様

Facebook: https://www.facebook.com/NVIDIAAI.JP
Twitter: @NVIDIAAIJP / @NVIDIAJapan この資料: bit.ly/sc18nvnews
Student Cluster Competition では全チームが Tesla V100 GPU を活用
世界の学生がスーパーコンピューティングの技能を競う Student Cluster Competition が SC18 でも開催されました。こ
れは学生達がチームを組み、スポンサーを募って機材を集め、自分たちの手で SC18 の会場にクラスタを構築して性能測
定に挑むものです。対象となるのは、Linpack と HPCG という 2 種類の定番ベンチマークに加えて、Horovod を使った
分散ディープラーニング、OpenMC によるモンテカルロ粒子輸送計算、SeisSol 地震シミュレーションコードをつかった論文
の再現、そして SC18 初日に発表される「謎のアプリケーション」です。これは事前に対策を練ることができないため、現地
での即応力が試されます。
各チームは様々な制約条件の中でベストを尽くします。まず、利用できる電力が 3KW に制限されているため、大きなクラ
スターを使って力任せに問題を解くという手段はとれません。電力性能比の高いクラスターを構築し、ハードウェアの性能を
最大限に引き出すチューニングを施す必要があります。この点において、全てのチームが Tesla V100 GPU を採用したこ
とは賢明な判断と言えるでしょう！
また、実際の計算機クラスター運用における障害を想定し、競技期間中に「停電」が発生するようにもなっています。停
電による計算の中断に対処し、電源復旧後に正しく再開できる仕組みも構築しなければなりません。さらに、「スケジュー
ラーを導入してジョブ実行を自動化し、SC18 の他のイベントも楽しむこと」が推奨されています。48 時間あまりの短い競
技ですが、間に合わせのシステムに人を貼り付けてジョブを手投げするような運用は避けなければなりません。
各ベンチマークとアプリケーションのスコアや面接を含めた審査の結果、中国の精華大学のチームが見事総合優勝を勝ち
取りました。精華大学は、HPCG ベンチマーク性能でも 1,985.97 GFlops で優勝しています。また、Linpack 性能では
シンガポールの南洋理工大学が 56.51 TFlops で SC17 に続き 2 連覇を達成しました。おめでとうございます！
エヌビディアブログ: Dazzling in Dallas: Tsinghua University Wins Student Cluster Competition at SC18
精華大学のポスター: Tsinghua University Team in SC18 Student Cluster Competition
南洋理工大学のポスター: TEAMSUPERNOVA Nanyang Technological University, Singapore
ソニーが ABCI を使い ResNet-50 の ImageNet 学習で新記録を樹立
スーパーコンピューターのベンチマークとして長年の定番といえば Linpack ですが、ディープラーニング界隈では「ImagNet-1K
データセットで ResNet-50 ネットワークを訓練し、90 エポックで Accuracy 75% を達成する時間を競う」という競技(?)が盛ん
です。Preferred Networks のチームが 1024 基の Tesla P100 で 15 分という記録を打ち立てたのは 1 年前のことですが、
今年の 7 月には Tencent の研究者が Tesla P40 を 2048 基使って 6.6 分という驚異的な記録を作りました。
そして今回、ソニーのチームが産総研のスーパーコンピューター ABCI で 2176 基の Tesla V100 により 224 秒で学習を完了
させ、見事記録を更新しました。使用されたソフトウェアはソニー自製の Neural Network Libraries (NNL) と、その CUDA
拡張。ノード間通信のオーバヘッドを削減するために、エヌビディアの集合通信ライブラリ NCCL も活用されたとのことです。
エヌビディアブログ: ソニー、NVIDIA V100 Tensor コア GPU を使い、ResNet-50 でのトレーニングの新記録を樹立
ソニーの発表: ディープラーニングの分散学習で世界最高速を達成
産総研の発表: AI向けクラウド型計算システム「ABCI」が深層学習の学習速度で世界最速に
Tesla V100 の展示にご協力頂いたブースのご紹介
東工大 (427) NAIST (439) JAMSTEC (505) AIST (2409) 東京大学 (939)
富士通 (1226) 東北大学 (1416) 大阪大学 (1825) 九州大学 (805) HPC SYSTEMS
(4241)
今年も多くの皆様に GPU 展示のご協力をいただきました。厚く御礼申し上げます。カッコ内の数字はブースの番号です。どのブー
スも特色のある展示が目白押しです。

SC18 NVIDIA NEWS

Recommended

Recommended

More Related Content

Similar to SC18 NVIDIA NEWS

Similar to SC18 NVIDIA NEWS (20)

More from Kuninobu SaSaki

More from Kuninobu SaSaki (17)

Recently uploaded

Recently uploaded (10)

SC18 NVIDIA NEWS