SlideShare a Scribd company logo
1 of 3
Download to read offline
日本の GPU 搭載システムとしては、4,352 基の Tesla V100 を備え、全体でも 7 位
に入った産総研の ABCI、 GPU スパコンの草分けである東工大の TSUBAME 2.5 お
よび 3.0、ResNet-50 の ImageNet データセット学習を 15 分で完了させた
Preferred Networks の MN-1、 NVIDIA DGX-1 のクラスタである理研の RAIDEN な
ど、7 システムがランク入りしています。
TOP500 リスト発表 – Tesla V100 搭載システムが 1、2 位を獲得
SC18 NVIDIA 関連情報のまとめ
ダラスで開催中のスーパーコンピューティングに関する学会・展示会 SC18 で、スーパーコンピューターの世
界ランキングである TOP500 リストの 2018 年 11 月版が発表されました。
米国エネルギー省 オークリッジ国立研究所 (ORNL) の Summit が 143.5 PFLOPS を記録して首位を
維持。2 位にはローレンス リバモア国立研究所の Sierra が入り、POWER9 と Tesla V100 を搭載する
システムが 1 位と 2 位を占めた他、5 位にスイス国立スーパーコンピューティング センター(CSCS)の Piz
Daint、7 位に産総研の ABCI、9 位に ORNL の Titan と、トップ 10 の半数が GPU 搭載システムで、
全体では 500 中 127 システムが GPU 搭載スーパーコンピューターとなりました。
NEWS
# システム名称 組織
Rmax
[TFlop/s]
GPU
7 ABCI 産業技術総合研究所 19,880 Tesla V100
22 TSUBAME 3.0 東京工業大学 8,125 Tesla P100
69 TSUBAME 2.5 東京工業大学 2,785 Tesla K20x
227 MN-1 NTT Com (PFN) 1,391 Tesla P100
279 RAIDEN GPU subsystem 理研 AIP 1,213 Tesla V100
408 QUARTETTO 九州大学 1,018 Tesla K20x
444 AIST AI Cloud 産業技術総合研究所 961 Tesla P100
v1.3
日本版
Tesla P100
Tesla V100
Tesla K20x
Tesla K40
Tesla K80
Tesla 2050
Tesla P40
Tesla 2070
日本の GPU スパコンは 7 システムがランクインPascal と Volta 世代が全体の 8 割以上
127 ある GPU 搭載システムの内訳を見ると、 首位の
Summit や日本の ABCI が搭載する Volta 世代の
Tesla V100 が 46 システム、ヨーロッパ最速の Piz Daint
や日本の TSUBAME 3.0 が搭載する Pascal 世代の
Tesla P100 が 63 システムで利用され、GPU 搭載シス
テム全体の 86% を占めています。
Green 500 リストの上位に GPU システムが多数ランクイン
TOP500 にランクインしたシステムの電力性能比を競うのが Green500 です。今回も理研の Shoubu (菖蒲)system B が
首位となり、日本のスーパーコンピューターが 3 連覇を成し遂げました。2 位以降は GPU スパコンのパレードで、エヌビディアの
DGX SATURNV、TOP500 首位の Summit、産総研の ABCI、東工大の TSUBAME 3.0 等がずらりと並んでいます。上位 25
システムの内、実に 22 システムが GPU で加速したスーパーコンピューターで、Tesla P100 および Tesla V100 のいずれかを
搭載するシステムです。これは GPU が効率の高いアクセラレーターであることを端的に示しています。
Green500 リスト: https://www.top500.org/green500/lists/2018/11/
エヌビディアの創業者兼 CEO であるジェンスン フアンは 12 日、SC18 参加者を招待した特別講演の中で、データセンター
向け GPU である Tesla T4 の採用が記録的な速度で進んでいると発表しました。
Turing 世代 GPU の Tesla T4 は、2,560 個の CUDA コアと、320 個の Tensor コアを備え、 70W という低消費電力で、
単精度で 8.1 TFLOPS、新たに導入された INT4 演算では 260 TOPS という高い性能を発揮します。
Tesla T4 はすでに 57 機種のサーバーに採用されただけでなく、Google Cloud Platform でも利用可能となりました。
ニュースリリース: NVIDIA Announces Record Adoption of New Turing T4 Cloud GPU
Google Cloud の発表: Google Cloud first to offer NVIDIA Tesla T4 GPUs
Turing 世代のデータセンター向け GPU Tesla T4 の採用が急拡大
これは 1 年前の 86 システムから大幅に増加しており、新たにランクインしたシステムには、Tesla V100 をノードあたり 16 基搭載
する最新型サーバー、NVIDIA DGX-2H の 36 ノードクラスタ「Circe」も含まれています。
TOP500 リスト: https://www.top500.org/lists/2018/11/
NGC が Singularity をサポートするなど HPC 対応を加速
SC18 に合わせて、エヌビディアのコンテナイメージレジストリである NGC の HPC 対応をさらに強化する発表が行われました。
一つは、 Singularity のサポートです。Singularity は Docker のイメージを利用可能なコンテナ ランタイムですが、多数の
ユーザーが共同利用する計算機センターなどで利用しやすく設計されており、HPC 領域で広く使われています。今回、
Docker に加えて Singularity をサポートしたことで、 NGC の GPU 対応コンテナイメージをスーパーコンピューティングセン
ターなどでも活用しやすくなります。
また、新しいマルチノード対応イメージが追加され、 MPI を使ったマルチノード ジョブを簡単に実行できるようにもなりました。
エヌビディア ブログ: NGC Containers Now Available for More Users, More Apps, More Platforms
Facebook: https://www.facebook.com/NVIDIAAI.JP
Twitter: @NVIDIAAIJP / @NVIDIAJapan この資料: bit.ly/sc18nvnews
ゴードン ベル賞はコンピュータ サイエンス分野の国際学会である ACM から、科学、工学、大
規模データ分析分野の課題に HPC を適用する優れた業績に対して贈られる賞です。
今年はオークリッジ国立研究所の “Attacking the Opioid Epidemic: Determining the
Epistatic and Pleiotropic Genetic Architectures for Chronic Pain and Opioid
Addiction” とローレンス バークレー国立研究所の “Exascale Deep Learning for
Climate Analytics” を発表した研究チームが、この栄えある賞を受け取りました。
最終選考に残った 6 チームのうち 5 チームが NVIDIA の Tesla V100 GPU を活用しており、
そのうち 3 チームの論文に NVIDIA の社員が共著者として関わっています。
GPU スーパーコンピューターを活用した研究がゴードン ベル賞を受賞
ACM による発表: Two Teams Honored for Work in Combating Opioid Addiction, Understanding Climate Change
エヌビディア ブログ: Twice as Nice: NVIDIA Powers Not One, But Two, Gordon Bell Prizes
以下、2 件の研究の概要を簡単に紹介します。
Attacking the Opioid Epidemic: Determining the Epistatic and Pleiotropic Genetic Architectures
for Chronic Pain and Opioid Addiction
オピオイド鎮痛剤 (医療用麻薬) は、がんなどの手術後の痛みを抑えるために有効ですが、同時にその過剰摂取が大き
な問題になっています。処方された患者の約 30% がこれを乱用し 10% がオピオイド使用障害を発症しているとの研究も
あります。また退役軍人の 50% 以上が慢性疼痛 (Chronic Pain) を患っており、22.7% がオピオイドを持続的に使用し
ています。CDC (アメリカ疾病管理予防センター) は米国内におけるオピオイド依存症による経済的損失を年間 785 億
ドルと推定しています。
鎮痛剤に対する感受性には大きな個人差があり、同じ薬物を同量摂取しても、依存症に陥る人とそうでない人がいます。
オークリッジ国立研究所 (ORNL) のチームは、この個人差に影響する遺伝的情報を解析するために、大規模な GAWS
– ゲノムワイド関連解析を実行する CoMet というアプリケーションを開発しました。これはゲノムデータにおける関連を見つ
ける網羅的な探索を行う、極めて計算負荷の高い処理です。その環境は、ORNL の二つのスーパーコンピューター、
Titan と Summit です。Titan は、2012 年 11 月の TOP500 ランキングで首位を獲得したシステムで、18,688 ノード
のそれぞれに Tesla K20x GPU を 1 基ずつ搭載しています。そして、Summit は最新の TOP500 リストの首位に輝いた
システムで、ノード毎に 6 基、4608 ノード全体では 27,648 基の Tesla V100 Tensor コア GPU を備えます。
本研究では、CoMet の GPU に最適化されたベクトル比較処理が、Titan および Summit の全系での実行までスケー
ルし、また Summit においては Tesla V100 の Tensor コアを活用することで毎秒 3 ペタ要素の比較を処理し、2.3
ExaOps の計算スループットを達成しました。この性能は、これまでの最先端手法の 1 万倍以上に相当します。
詳細はこちら: Attacking the Opioid Epidemic: Determining the Epistatic and Pleiotropic Genetic Architectures for Chronic Pain and Opioid Addiction
Titan
Summit
Exascale Deep Learning for Climate Analytics
ローレンス・バークレー国立研究所、オークリッジ国立研究所とエヌビディアの研究者は、台風やハリケーンなどの熱帯性
低気圧 (TC) や、豪雨の元になる大気河川 (AR) といった、我々の生活や経済に大きな影響を与える気象状況を検
出するために、GPU スーパーコンピューターの計算能力と、ディープラーニングを活用しました。
使用された環境は、ORNL の Summit と、CSCS の Piz Daint (ノード毎に 1 基の Tesla P100、全体で 5704 ノード)
です。Tiramisu と DeepLabv3+ という二つのセマンティック セグメンテーション ネットワークの改良版を、TensorFlow と
Horovod で実装し、CAM5 シミュレーション データセットで分散トレーニングしました。結果的に、 Piz Daint での改良
版 Tiramisu ネットワークの学習は、5,300 GPU までスケーラブルで、並列化効率は 79.0%、演算スループットは 21.0
PFLOPS となりました。また、 Summit での DeepLabv3+ は 27,368 GPU までスケールし、並列化効率は単精度で
90.8%、スループットは 325.8 PFLOPS を達成しました。さらに、Tesla V100 の Tensor コアを使うように改良した
DeepLabv3 では、1.13 ExaFLOPS のピーク スループットを記録しました。
このレベルの性能とスケーラビリティを得るために、GPFS からの高速ファイルステージング、Horovod での階層型 All-
Reduce、重み付き損失計算や LARC (Layer-wise Adaptive Rate Control) 等、様々な工夫が行われています。
詳細はこちら: Exascale Deep Learning for Climate Analytics Piz Daint
東京大学地震研究所、ORNL、CSCS、エヌビディアによる研究もファイナリストに
惜しくも受賞は逃しましたが、東京大学地震研究所、ORNL、CSCS のチームによる研究も、
ゴードン ベル賞の最終選考にノミネートされました。本研究は、都市部における地震の影響
をシミュレートするための陰解法・非構造格子有限要素法ソルバーを、AI と変動精度演算
を活用して高速化したものです。AI によって演算回数を 1/5.56 に削減し、FP16-FP21-
FP32-FP64 の変動精度演算を適用した疎行列ベクトル積カーネルは Summit の FP64
性能の 71.4 % を発揮しました。これは、標準的なソルバーの 25.3 倍、また SC14 のゴード
ン ベル賞ファイナリストの GAMERA と比較しても 4 倍弱高速です。
また、本研究には NVIDIA Japan のシニア デベロッパー テクノロジ エンジニアである成瀬 彰
も参加しているほか、SC18 のエヌビディアブースでは本研究によるシミュレーション結果の可
視化デモンストレーションを行いました。
詳細はこちら: A Fast Scalable Implicit Solver for Nonlinear Time-Evolution Earthquake City Problem on Low-Ordered
Unstructured Finite Elements with Artificial Intelligence and Transprecision Computing
市村先生はじめ関係者の皆様
Facebook: https://www.facebook.com/NVIDIAAI.JP
Twitter: @NVIDIAAIJP / @NVIDIAJapan この資料: bit.ly/sc18nvnews
Student Cluster Competition では全チームが Tesla V100 GPU を活用
世界の学生がスーパーコンピューティングの技能を競う Student Cluster Competition が SC18 でも開催されました。こ
れは学生達がチームを組み、スポンサーを募って機材を集め、自分たちの手で SC18 の会場にクラスタを構築して性能測
定に挑むものです。対象となるのは、Linpack と HPCG という 2 種類の定番ベンチマークに加えて、Horovod を使った
分散ディープラーニング、OpenMC によるモンテカルロ粒子輸送計算、SeisSol 地震シミュレーション コードをつかった論文
の再現、そして SC18 初日に発表される「謎のアプリケーション」です。これは事前に対策を練ることができないため、現地
での即応力が試されます。
各チームは様々な制約条件の中でベストを尽くします。まず、利用できる電力が 3KW に制限されているため、大きなクラ
スターを使って力任せに問題を解くという手段はとれません。電力性能比の高いクラスターを構築し、ハードウェアの性能を
最大限に引き出すチューニングを施す必要があります。この点において、全てのチームが Tesla V100 GPU を採用したこ
とは賢明な判断と言えるでしょう!
また、実際の計算機クラスター運用における障害を想定し、競技期間中に「停電」が発生するようにもなっています。停
電による計算の中断に対処し、電源復旧後に正しく再開できる仕組みも構築しなければなりません。さらに、「スケジュー
ラーを導入してジョブ実行を自動化し、SC18 の他のイベントも楽しむこと」が推奨されています。48 時間あまりの短い競
技ですが、間に合わせのシステムに人を貼り付けてジョブを手投げするような運用は避けなければなりません。
各ベンチマークとアプリケーションのスコアや面接を含めた審査の結果、中国の精華大学のチームが見事総合優勝を勝ち
取りました。精華大学は、HPCG ベンチマーク性能でも 1,985.97 GFlops で優勝しています。また、Linpack 性能では
シンガポールの南洋理工大学が 56.51 TFlops で SC17 に続き 2 連覇を達成しました。おめでとうございます!
エヌビディア ブログ: Dazzling in Dallas: Tsinghua University Wins Student Cluster Competition at SC18
精華大学のポスター: Tsinghua University Team in SC18 Student Cluster Competition
南洋理工大学のポスター: TEAMSUPERNOVA Nanyang Technological University, Singapore
ソニーが ABCI を使い ResNet-50 の ImageNet 学習で新記録を樹立
スーパーコンピューターのベンチマークとして長年の定番といえば Linpack ですが、ディープラーニング界隈では「ImagNet-1K
データセットで ResNet-50 ネットワークを訓練し、90 エポックで Accuracy 75% を達成する時間を競う」という競技(?)が盛ん
です。Preferred Networks のチームが 1024 基の Tesla P100 で 15 分という記録を打ち立てたのは 1 年前のことですが、
今年の 7 月には Tencent の研究者が Tesla P40 を 2048 基使って 6.6 分という驚異的な記録を作りました。
そして今回、ソニーのチームが産総研のスーパーコンピューター ABCI で 2176 基の Tesla V100 により 224 秒で学習を完了
させ、見事記録を更新しました。使用されたソフトウェアはソニー自製の Neural Network Libraries (NNL) と、その CUDA
拡張。ノード間通信のオーバヘッドを削減するために、エヌビディアの集合通信ライブラリ NCCL も活用されたとのことです。
エヌビディア ブログ: ソニー、NVIDIA V100 Tensor コア GPU を使い、ResNet-50 でのトレーニングの新記録を樹立
ソニーの発表: ディープラーニングの分散学習で世界最高速を達成
産総研の発表: AI向けクラウド型計算システム「ABCI」が深層学習の学習速度で世界最速に
Tesla V100 の展示にご協力頂いたブースのご紹介
東工大 (427) NAIST (439) JAMSTEC (505) AIST (2409) 東京大学 (939)
富士通 (1226) 東北大学 (1416) 大阪大学 (1825) 九州大学 (805) HPC SYSTEMS
(4241)
今年も多くの皆様に GPU 展示のご協力をいただきました。厚く御礼申し上げます。カッコ内の数字はブースの番号です。どのブー
スも特色のある展示が目白押しです。

More Related Content

Similar to SC18 NVIDIA NEWS

NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄Tak Izaki
 
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢Insight Technology, Inc.
 
GPU スパコン最新情報
GPU スパコン最新情報GPU スパコン最新情報
GPU スパコン最新情報NVIDIA Japan
 
PCCC22:東京大学情報基盤センター 「Society5.0の実現を目指す「計算・データ・学習」の融合による革新的スーパーコンピューティング」
PCCC22:東京大学情報基盤センター 「Society5.0の実現を目指す「計算・データ・学習」の融合による革新的スーパーコンピューティング」PCCC22:東京大学情報基盤センター 「Society5.0の実現を目指す「計算・データ・学習」の融合による革新的スーパーコンピューティング」
PCCC22:東京大学情報基盤センター 「Society5.0の実現を目指す「計算・データ・学習」の融合による革新的スーパーコンピューティング」PC Cluster Consortium
 
45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄Yukio Saito
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今Developers Summit
 
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)Yaboo Oyabu
 
MII conference177 nvidia
MII conference177 nvidiaMII conference177 nvidia
MII conference177 nvidiaTak Izaki
 
GPU on OpenStack 〜GPUインターナルクラウドのベストプラクティス
GPU on OpenStack 〜GPUインターナルクラウドのベストプラクティスGPU on OpenStack 〜GPUインターナルクラウドのベストプラクティス
GPU on OpenStack 〜GPUインターナルクラウドのベストプラクティスVirtualTech Japan Inc.
 
Gpu deep learning community設立について0913
Gpu deep learning community設立について0913Gpu deep learning community設立について0913
Gpu deep learning community設立について0913Tomokazu Kanazawa
 
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境智啓 出川
 
GTC 2018 の基調講演から
GTC 2018 の基調講演からGTC 2018 の基調講演から
GTC 2018 の基調講演からNVIDIA Japan
 
気候モデル放射カーネルのGPUへの移植と高速化
気候モデル放射カーネルのGPUへの移植と高速化気候モデル放射カーネルのGPUへの移植と高速化
気候モデル放射カーネルのGPUへの移植と高速化Takateru Yamagishi
 
IEEE ITSS Nagoya Chapter NVIDIA
IEEE ITSS Nagoya Chapter NVIDIAIEEE ITSS Nagoya Chapter NVIDIA
IEEE ITSS Nagoya Chapter NVIDIATak Izaki
 
GTC Japan 2018 NVIDIA NEWS
GTC Japan 2018 NVIDIA NEWSGTC Japan 2018 NVIDIA NEWS
GTC Japan 2018 NVIDIA NEWSKuninobu SaSaki
 
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~NVIDIA Japan
 
200625material naruse
200625material naruse200625material naruse
200625material naruseRCCSRENKEI
 
産総研AIクラウドでChainerMN
産総研AIクラウドでChainerMN産総研AIクラウドでChainerMN
産総研AIクラウドでChainerMNHitoshi Sato
 
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活Kuninobu SaSaki
 
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」ManaMurakami1
 

Similar to SC18 NVIDIA NEWS (20)

NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄
 
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
 
GPU スパコン最新情報
GPU スパコン最新情報GPU スパコン最新情報
GPU スパコン最新情報
 
PCCC22:東京大学情報基盤センター 「Society5.0の実現を目指す「計算・データ・学習」の融合による革新的スーパーコンピューティング」
PCCC22:東京大学情報基盤センター 「Society5.0の実現を目指す「計算・データ・学習」の融合による革新的スーパーコンピューティング」PCCC22:東京大学情報基盤センター 「Society5.0の実現を目指す「計算・データ・学習」の融合による革新的スーパーコンピューティング」
PCCC22:東京大学情報基盤センター 「Society5.0の実現を目指す「計算・データ・学習」の融合による革新的スーパーコンピューティング」
 
45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
 
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
 
MII conference177 nvidia
MII conference177 nvidiaMII conference177 nvidia
MII conference177 nvidia
 
GPU on OpenStack 〜GPUインターナルクラウドのベストプラクティス
GPU on OpenStack 〜GPUインターナルクラウドのベストプラクティスGPU on OpenStack 〜GPUインターナルクラウドのベストプラクティス
GPU on OpenStack 〜GPUインターナルクラウドのベストプラクティス
 
Gpu deep learning community設立について0913
Gpu deep learning community設立について0913Gpu deep learning community設立について0913
Gpu deep learning community設立について0913
 
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
 
GTC 2018 の基調講演から
GTC 2018 の基調講演からGTC 2018 の基調講演から
GTC 2018 の基調講演から
 
気候モデル放射カーネルのGPUへの移植と高速化
気候モデル放射カーネルのGPUへの移植と高速化気候モデル放射カーネルのGPUへの移植と高速化
気候モデル放射カーネルのGPUへの移植と高速化
 
IEEE ITSS Nagoya Chapter NVIDIA
IEEE ITSS Nagoya Chapter NVIDIAIEEE ITSS Nagoya Chapter NVIDIA
IEEE ITSS Nagoya Chapter NVIDIA
 
GTC Japan 2018 NVIDIA NEWS
GTC Japan 2018 NVIDIA NEWSGTC Japan 2018 NVIDIA NEWS
GTC Japan 2018 NVIDIA NEWS
 
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
 
200625material naruse
200625material naruse200625material naruse
200625material naruse
 
産総研AIクラウドでChainerMN
産総研AIクラウドでChainerMN産総研AIクラウドでChainerMN
産総研AIクラウドでChainerMN
 
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活
 
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
 

More from Kuninobu SaSaki

A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツKuninobu SaSaki
 
Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Kuninobu SaSaki
 
20150821 Azure 仮想マシンと仮想ネットワーク
20150821 Azure 仮想マシンと仮想ネットワーク20150821 Azure 仮想マシンと仮想ネットワーク
20150821 Azure 仮想マシンと仮想ネットワークKuninobu SaSaki
 
Azure仮想マシンと仮想ネットワーク
Azure仮想マシンと仮想ネットワークAzure仮想マシンと仮想ネットワーク
Azure仮想マシンと仮想ネットワークKuninobu SaSaki
 
もっとわかる Microsoft Azure 最新技術アップデート編 - 20150123
もっとわかる Microsoft Azure最新技術アップデート編 - 20150123もっとわかる Microsoft Azure最新技術アップデート編 - 20150123
もっとわかる Microsoft Azure 最新技術アップデート編 - 20150123Kuninobu SaSaki
 
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」Kuninobu SaSaki
 
20140818 オープン白熱塾 ksasakims
20140818 オープン白熱塾 ksasakims20140818 オープン白熱塾 ksasakims
20140818 オープン白熱塾 ksasakimsKuninobu SaSaki
 
YAPC::Asia Tokyo 2013 ランチセッション
YAPC::Asia Tokyo 2013 ランチセッションYAPC::Asia Tokyo 2013 ランチセッション
YAPC::Asia Tokyo 2013 ランチセッションKuninobu SaSaki
 
Windows Azure HDInsight サービスの紹介
Windows Azure HDInsight サービスの紹介Windows Azure HDInsight サービスの紹介
Windows Azure HDInsight サービスの紹介Kuninobu SaSaki
 
Effective Hyper-V - 久しぶりエディション
Effective Hyper-V - 久しぶりエディションEffective Hyper-V - 久しぶりエディション
Effective Hyper-V - 久しぶりエディションKuninobu SaSaki
 
HPC Azure TOP500 2012-11
HPC Azure TOP500 2012-11HPC Azure TOP500 2012-11
HPC Azure TOP500 2012-11Kuninobu SaSaki
 
TechEd2010_T2-401_EffectiveHyper-V
TechEd2010_T2-401_EffectiveHyper-VTechEd2010_T2-401_EffectiveHyper-V
TechEd2010_T2-401_EffectiveHyper-VKuninobu SaSaki
 
TechEd2009_T1-402_EffectiveHyper-V
TechEd2009_T1-402_EffectiveHyper-VTechEd2009_T1-402_EffectiveHyper-V
TechEd2009_T1-402_EffectiveHyper-VKuninobu SaSaki
 
TechEd2008_T1-407_EffectiveHyper-V
TechEd2008_T1-407_EffectiveHyper-VTechEd2008_T1-407_EffectiveHyper-V
TechEd2008_T1-407_EffectiveHyper-VKuninobu SaSaki
 

More from Kuninobu SaSaki (17)

A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
 
Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介
 
GTC 2019 NVIDIA NEWS
GTC 2019 NVIDIA NEWSGTC 2019 NVIDIA NEWS
GTC 2019 NVIDIA NEWS
 
GTC17 NVIDIA News
GTC17 NVIDIA NewsGTC17 NVIDIA News
GTC17 NVIDIA News
 
20150821 Azure 仮想マシンと仮想ネットワーク
20150821 Azure 仮想マシンと仮想ネットワーク20150821 Azure 仮想マシンと仮想ネットワーク
20150821 Azure 仮想マシンと仮想ネットワーク
 
Azure仮想マシンと仮想ネットワーク
Azure仮想マシンと仮想ネットワークAzure仮想マシンと仮想ネットワーク
Azure仮想マシンと仮想ネットワーク
 
もっとわかる Microsoft Azure 最新技術アップデート編 - 20150123
もっとわかる Microsoft Azure最新技術アップデート編 - 20150123もっとわかる Microsoft Azure最新技術アップデート編 - 20150123
もっとわかる Microsoft Azure 最新技術アップデート編 - 20150123
 
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
 
20140818 オープン白熱塾 ksasakims
20140818 オープン白熱塾 ksasakims20140818 オープン白熱塾 ksasakims
20140818 オープン白熱塾 ksasakims
 
YAPC::Asia Tokyo 2013 ランチセッション
YAPC::Asia Tokyo 2013 ランチセッションYAPC::Asia Tokyo 2013 ランチセッション
YAPC::Asia Tokyo 2013 ランチセッション
 
Windows Azure HDInsight サービスの紹介
Windows Azure HDInsight サービスの紹介Windows Azure HDInsight サービスの紹介
Windows Azure HDInsight サービスの紹介
 
Effective Hyper-V - 久しぶりエディション
Effective Hyper-V - 久しぶりエディションEffective Hyper-V - 久しぶりエディション
Effective Hyper-V - 久しぶりエディション
 
HPC Azure TOP500 2012-11
HPC Azure TOP500 2012-11HPC Azure TOP500 2012-11
HPC Azure TOP500 2012-11
 
WDD2012_SC-004
WDD2012_SC-004WDD2012_SC-004
WDD2012_SC-004
 
TechEd2010_T2-401_EffectiveHyper-V
TechEd2010_T2-401_EffectiveHyper-VTechEd2010_T2-401_EffectiveHyper-V
TechEd2010_T2-401_EffectiveHyper-V
 
TechEd2009_T1-402_EffectiveHyper-V
TechEd2009_T1-402_EffectiveHyper-VTechEd2009_T1-402_EffectiveHyper-V
TechEd2009_T1-402_EffectiveHyper-V
 
TechEd2008_T1-407_EffectiveHyper-V
TechEd2008_T1-407_EffectiveHyper-VTechEd2008_T1-407_EffectiveHyper-V
TechEd2008_T1-407_EffectiveHyper-V
 

Recently uploaded

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Recently uploaded (12)

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

SC18 NVIDIA NEWS

  • 1. 日本の GPU 搭載システムとしては、4,352 基の Tesla V100 を備え、全体でも 7 位 に入った産総研の ABCI、 GPU スパコンの草分けである東工大の TSUBAME 2.5 お よび 3.0、ResNet-50 の ImageNet データセット学習を 15 分で完了させた Preferred Networks の MN-1、 NVIDIA DGX-1 のクラスタである理研の RAIDEN な ど、7 システムがランク入りしています。 TOP500 リスト発表 – Tesla V100 搭載システムが 1、2 位を獲得 SC18 NVIDIA 関連情報のまとめ ダラスで開催中のスーパーコンピューティングに関する学会・展示会 SC18 で、スーパーコンピューターの世 界ランキングである TOP500 リストの 2018 年 11 月版が発表されました。 米国エネルギー省 オークリッジ国立研究所 (ORNL) の Summit が 143.5 PFLOPS を記録して首位を 維持。2 位にはローレンス リバモア国立研究所の Sierra が入り、POWER9 と Tesla V100 を搭載する システムが 1 位と 2 位を占めた他、5 位にスイス国立スーパーコンピューティング センター(CSCS)の Piz Daint、7 位に産総研の ABCI、9 位に ORNL の Titan と、トップ 10 の半数が GPU 搭載システムで、 全体では 500 中 127 システムが GPU 搭載スーパーコンピューターとなりました。 NEWS # システム名称 組織 Rmax [TFlop/s] GPU 7 ABCI 産業技術総合研究所 19,880 Tesla V100 22 TSUBAME 3.0 東京工業大学 8,125 Tesla P100 69 TSUBAME 2.5 東京工業大学 2,785 Tesla K20x 227 MN-1 NTT Com (PFN) 1,391 Tesla P100 279 RAIDEN GPU subsystem 理研 AIP 1,213 Tesla V100 408 QUARTETTO 九州大学 1,018 Tesla K20x 444 AIST AI Cloud 産業技術総合研究所 961 Tesla P100 v1.3 日本版 Tesla P100 Tesla V100 Tesla K20x Tesla K40 Tesla K80 Tesla 2050 Tesla P40 Tesla 2070 日本の GPU スパコンは 7 システムがランクインPascal と Volta 世代が全体の 8 割以上 127 ある GPU 搭載システムの内訳を見ると、 首位の Summit や日本の ABCI が搭載する Volta 世代の Tesla V100 が 46 システム、ヨーロッパ最速の Piz Daint や日本の TSUBAME 3.0 が搭載する Pascal 世代の Tesla P100 が 63 システムで利用され、GPU 搭載シス テム全体の 86% を占めています。 Green 500 リストの上位に GPU システムが多数ランクイン TOP500 にランクインしたシステムの電力性能比を競うのが Green500 です。今回も理研の Shoubu (菖蒲)system B が 首位となり、日本のスーパーコンピューターが 3 連覇を成し遂げました。2 位以降は GPU スパコンのパレードで、エヌビディアの DGX SATURNV、TOP500 首位の Summit、産総研の ABCI、東工大の TSUBAME 3.0 等がずらりと並んでいます。上位 25 システムの内、実に 22 システムが GPU で加速したスーパーコンピューターで、Tesla P100 および Tesla V100 のいずれかを 搭載するシステムです。これは GPU が効率の高いアクセラレーターであることを端的に示しています。 Green500 リスト: https://www.top500.org/green500/lists/2018/11/ エヌビディアの創業者兼 CEO であるジェンスン フアンは 12 日、SC18 参加者を招待した特別講演の中で、データセンター 向け GPU である Tesla T4 の採用が記録的な速度で進んでいると発表しました。 Turing 世代 GPU の Tesla T4 は、2,560 個の CUDA コアと、320 個の Tensor コアを備え、 70W という低消費電力で、 単精度で 8.1 TFLOPS、新たに導入された INT4 演算では 260 TOPS という高い性能を発揮します。 Tesla T4 はすでに 57 機種のサーバーに採用されただけでなく、Google Cloud Platform でも利用可能となりました。 ニュースリリース: NVIDIA Announces Record Adoption of New Turing T4 Cloud GPU Google Cloud の発表: Google Cloud first to offer NVIDIA Tesla T4 GPUs Turing 世代のデータセンター向け GPU Tesla T4 の採用が急拡大 これは 1 年前の 86 システムから大幅に増加しており、新たにランクインしたシステムには、Tesla V100 をノードあたり 16 基搭載 する最新型サーバー、NVIDIA DGX-2H の 36 ノードクラスタ「Circe」も含まれています。 TOP500 リスト: https://www.top500.org/lists/2018/11/ NGC が Singularity をサポートするなど HPC 対応を加速 SC18 に合わせて、エヌビディアのコンテナイメージレジストリである NGC の HPC 対応をさらに強化する発表が行われました。 一つは、 Singularity のサポートです。Singularity は Docker のイメージを利用可能なコンテナ ランタイムですが、多数の ユーザーが共同利用する計算機センターなどで利用しやすく設計されており、HPC 領域で広く使われています。今回、 Docker に加えて Singularity をサポートしたことで、 NGC の GPU 対応コンテナイメージをスーパーコンピューティングセン ターなどでも活用しやすくなります。 また、新しいマルチノード対応イメージが追加され、 MPI を使ったマルチノード ジョブを簡単に実行できるようにもなりました。 エヌビディア ブログ: NGC Containers Now Available for More Users, More Apps, More Platforms
  • 2. Facebook: https://www.facebook.com/NVIDIAAI.JP Twitter: @NVIDIAAIJP / @NVIDIAJapan この資料: bit.ly/sc18nvnews ゴードン ベル賞はコンピュータ サイエンス分野の国際学会である ACM から、科学、工学、大 規模データ分析分野の課題に HPC を適用する優れた業績に対して贈られる賞です。 今年はオークリッジ国立研究所の “Attacking the Opioid Epidemic: Determining the Epistatic and Pleiotropic Genetic Architectures for Chronic Pain and Opioid Addiction” とローレンス バークレー国立研究所の “Exascale Deep Learning for Climate Analytics” を発表した研究チームが、この栄えある賞を受け取りました。 最終選考に残った 6 チームのうち 5 チームが NVIDIA の Tesla V100 GPU を活用しており、 そのうち 3 チームの論文に NVIDIA の社員が共著者として関わっています。 GPU スーパーコンピューターを活用した研究がゴードン ベル賞を受賞 ACM による発表: Two Teams Honored for Work in Combating Opioid Addiction, Understanding Climate Change エヌビディア ブログ: Twice as Nice: NVIDIA Powers Not One, But Two, Gordon Bell Prizes 以下、2 件の研究の概要を簡単に紹介します。 Attacking the Opioid Epidemic: Determining the Epistatic and Pleiotropic Genetic Architectures for Chronic Pain and Opioid Addiction オピオイド鎮痛剤 (医療用麻薬) は、がんなどの手術後の痛みを抑えるために有効ですが、同時にその過剰摂取が大き な問題になっています。処方された患者の約 30% がこれを乱用し 10% がオピオイド使用障害を発症しているとの研究も あります。また退役軍人の 50% 以上が慢性疼痛 (Chronic Pain) を患っており、22.7% がオピオイドを持続的に使用し ています。CDC (アメリカ疾病管理予防センター) は米国内におけるオピオイド依存症による経済的損失を年間 785 億 ドルと推定しています。 鎮痛剤に対する感受性には大きな個人差があり、同じ薬物を同量摂取しても、依存症に陥る人とそうでない人がいます。 オークリッジ国立研究所 (ORNL) のチームは、この個人差に影響する遺伝的情報を解析するために、大規模な GAWS – ゲノムワイド関連解析を実行する CoMet というアプリケーションを開発しました。これはゲノムデータにおける関連を見つ ける網羅的な探索を行う、極めて計算負荷の高い処理です。その環境は、ORNL の二つのスーパーコンピューター、 Titan と Summit です。Titan は、2012 年 11 月の TOP500 ランキングで首位を獲得したシステムで、18,688 ノード のそれぞれに Tesla K20x GPU を 1 基ずつ搭載しています。そして、Summit は最新の TOP500 リストの首位に輝いた システムで、ノード毎に 6 基、4608 ノード全体では 27,648 基の Tesla V100 Tensor コア GPU を備えます。 本研究では、CoMet の GPU に最適化されたベクトル比較処理が、Titan および Summit の全系での実行までスケー ルし、また Summit においては Tesla V100 の Tensor コアを活用することで毎秒 3 ペタ要素の比較を処理し、2.3 ExaOps の計算スループットを達成しました。この性能は、これまでの最先端手法の 1 万倍以上に相当します。 詳細はこちら: Attacking the Opioid Epidemic: Determining the Epistatic and Pleiotropic Genetic Architectures for Chronic Pain and Opioid Addiction Titan Summit Exascale Deep Learning for Climate Analytics ローレンス・バークレー国立研究所、オークリッジ国立研究所とエヌビディアの研究者は、台風やハリケーンなどの熱帯性 低気圧 (TC) や、豪雨の元になる大気河川 (AR) といった、我々の生活や経済に大きな影響を与える気象状況を検 出するために、GPU スーパーコンピューターの計算能力と、ディープラーニングを活用しました。 使用された環境は、ORNL の Summit と、CSCS の Piz Daint (ノード毎に 1 基の Tesla P100、全体で 5704 ノード) です。Tiramisu と DeepLabv3+ という二つのセマンティック セグメンテーション ネットワークの改良版を、TensorFlow と Horovod で実装し、CAM5 シミュレーション データセットで分散トレーニングしました。結果的に、 Piz Daint での改良 版 Tiramisu ネットワークの学習は、5,300 GPU までスケーラブルで、並列化効率は 79.0%、演算スループットは 21.0 PFLOPS となりました。また、 Summit での DeepLabv3+ は 27,368 GPU までスケールし、並列化効率は単精度で 90.8%、スループットは 325.8 PFLOPS を達成しました。さらに、Tesla V100 の Tensor コアを使うように改良した DeepLabv3 では、1.13 ExaFLOPS のピーク スループットを記録しました。 このレベルの性能とスケーラビリティを得るために、GPFS からの高速ファイルステージング、Horovod での階層型 All- Reduce、重み付き損失計算や LARC (Layer-wise Adaptive Rate Control) 等、様々な工夫が行われています。 詳細はこちら: Exascale Deep Learning for Climate Analytics Piz Daint 東京大学地震研究所、ORNL、CSCS、エヌビディアによる研究もファイナリストに 惜しくも受賞は逃しましたが、東京大学地震研究所、ORNL、CSCS のチームによる研究も、 ゴードン ベル賞の最終選考にノミネートされました。本研究は、都市部における地震の影響 をシミュレートするための陰解法・非構造格子有限要素法ソルバーを、AI と変動精度演算 を活用して高速化したものです。AI によって演算回数を 1/5.56 に削減し、FP16-FP21- FP32-FP64 の変動精度演算を適用した疎行列ベクトル積カーネルは Summit の FP64 性能の 71.4 % を発揮しました。これは、標準的なソルバーの 25.3 倍、また SC14 のゴード ン ベル賞ファイナリストの GAMERA と比較しても 4 倍弱高速です。 また、本研究には NVIDIA Japan のシニア デベロッパー テクノロジ エンジニアである成瀬 彰 も参加しているほか、SC18 のエヌビディアブースでは本研究によるシミュレーション結果の可 視化デモンストレーションを行いました。 詳細はこちら: A Fast Scalable Implicit Solver for Nonlinear Time-Evolution Earthquake City Problem on Low-Ordered Unstructured Finite Elements with Artificial Intelligence and Transprecision Computing 市村先生はじめ関係者の皆様
  • 3. Facebook: https://www.facebook.com/NVIDIAAI.JP Twitter: @NVIDIAAIJP / @NVIDIAJapan この資料: bit.ly/sc18nvnews Student Cluster Competition では全チームが Tesla V100 GPU を活用 世界の学生がスーパーコンピューティングの技能を競う Student Cluster Competition が SC18 でも開催されました。こ れは学生達がチームを組み、スポンサーを募って機材を集め、自分たちの手で SC18 の会場にクラスタを構築して性能測 定に挑むものです。対象となるのは、Linpack と HPCG という 2 種類の定番ベンチマークに加えて、Horovod を使った 分散ディープラーニング、OpenMC によるモンテカルロ粒子輸送計算、SeisSol 地震シミュレーション コードをつかった論文 の再現、そして SC18 初日に発表される「謎のアプリケーション」です。これは事前に対策を練ることができないため、現地 での即応力が試されます。 各チームは様々な制約条件の中でベストを尽くします。まず、利用できる電力が 3KW に制限されているため、大きなクラ スターを使って力任せに問題を解くという手段はとれません。電力性能比の高いクラスターを構築し、ハードウェアの性能を 最大限に引き出すチューニングを施す必要があります。この点において、全てのチームが Tesla V100 GPU を採用したこ とは賢明な判断と言えるでしょう! また、実際の計算機クラスター運用における障害を想定し、競技期間中に「停電」が発生するようにもなっています。停 電による計算の中断に対処し、電源復旧後に正しく再開できる仕組みも構築しなければなりません。さらに、「スケジュー ラーを導入してジョブ実行を自動化し、SC18 の他のイベントも楽しむこと」が推奨されています。48 時間あまりの短い競 技ですが、間に合わせのシステムに人を貼り付けてジョブを手投げするような運用は避けなければなりません。 各ベンチマークとアプリケーションのスコアや面接を含めた審査の結果、中国の精華大学のチームが見事総合優勝を勝ち 取りました。精華大学は、HPCG ベンチマーク性能でも 1,985.97 GFlops で優勝しています。また、Linpack 性能では シンガポールの南洋理工大学が 56.51 TFlops で SC17 に続き 2 連覇を達成しました。おめでとうございます! エヌビディア ブログ: Dazzling in Dallas: Tsinghua University Wins Student Cluster Competition at SC18 精華大学のポスター: Tsinghua University Team in SC18 Student Cluster Competition 南洋理工大学のポスター: TEAMSUPERNOVA Nanyang Technological University, Singapore ソニーが ABCI を使い ResNet-50 の ImageNet 学習で新記録を樹立 スーパーコンピューターのベンチマークとして長年の定番といえば Linpack ですが、ディープラーニング界隈では「ImagNet-1K データセットで ResNet-50 ネットワークを訓練し、90 エポックで Accuracy 75% を達成する時間を競う」という競技(?)が盛ん です。Preferred Networks のチームが 1024 基の Tesla P100 で 15 分という記録を打ち立てたのは 1 年前のことですが、 今年の 7 月には Tencent の研究者が Tesla P40 を 2048 基使って 6.6 分という驚異的な記録を作りました。 そして今回、ソニーのチームが産総研のスーパーコンピューター ABCI で 2176 基の Tesla V100 により 224 秒で学習を完了 させ、見事記録を更新しました。使用されたソフトウェアはソニー自製の Neural Network Libraries (NNL) と、その CUDA 拡張。ノード間通信のオーバヘッドを削減するために、エヌビディアの集合通信ライブラリ NCCL も活用されたとのことです。 エヌビディア ブログ: ソニー、NVIDIA V100 Tensor コア GPU を使い、ResNet-50 でのトレーニングの新記録を樹立 ソニーの発表: ディープラーニングの分散学習で世界最高速を達成 産総研の発表: AI向けクラウド型計算システム「ABCI」が深層学習の学習速度で世界最速に Tesla V100 の展示にご協力頂いたブースのご紹介 東工大 (427) NAIST (439) JAMSTEC (505) AIST (2409) 東京大学 (939) 富士通 (1226) 東北大学 (1416) 大阪大学 (1825) 九州大学 (805) HPC SYSTEMS (4241) 今年も多くの皆様に GPU 展示のご協力をいただきました。厚く御礼申し上げます。カッコ内の数字はブースの番号です。どのブー スも特色のある展示が目白押しです。