More Related Content Similar to JAWS-UG HPC #17 - HPC on AWS @ 2019 (20) JAWS-UG HPC #17 - HPC on AWS @ 20191. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
2019年12月20日
Daisuke Miyamoto
HPC Solutions Architect
JAWS HPC支部 20191220
HPC on AWS @ 2019
30分でわかるクラウドHPCの現在
2. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
自己紹介
❏ 名前
宮本 大輔 (みやもと だいすけ)
❏ 所属
アマゾン ウェブ サービス ジャパン 株式会社
技術統括本部
HPC ソリューション アーキテクト
❏ 好きな AWS サービス
❖ AWS ParallelCluster
❖ Amazon FSx for Lustre
❖ AWS Snowball シリーズ
3. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
本日の概要
• HPC関連アップデート
• SC19
• re:Invent 2019
4. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
HPC関連アップデート
5. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS におけるHPC関連サービス
コンピュート
Amazon EC2
Enhanced Networking
Placement Group
ネットワーク
Elastic Fabric Adapter
可視化
Amazon AppStream 2.0
NICE-DCV
スポットインスタンスの活
用で大幅なコスト減も可能
NVIDIA Tesla V100
搭載
EC2インスタンスの基盤上の
配置を制御してネットワーク
を高速化
フルマネージドのアプ
リケーションストリー
ミングサービス
管理自動化
AWS ParallelCluster
AWS Batch
AWS上に HPC クラスタを構築
AWS BatchやSGEに対応
スケーラブルなバッチコ
ンピューティングジョブ
をフルマネージドで管理
用途に応じて多様なイ
ンスタンスを利用可能
な仮想サーバサービス
SR-IOVによるCPU負荷が低く
パフォーマンスの高いネット
ワーク仮想化
libfabric 対応のアダプタにより
MPI 利用のアプリケーション等
を高速化
Xilinx Virtex
UltraScale+ 搭載
100 Gbps の
ネットワーク帯域
GPUアクセラレーションに対
応し、インタラクティブなア
プリケーションに適したデス
クトップ仮想化
ストレージ
FSx for Lustre
S3連携可能な高速な分散
ストレージをフルマネー
ジドで提供
6. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
コンピュート
• NVIDIA T4 搭載 G4 インスタンス ローンチ
• AMD EPYC Roma 搭載 C5a/C5ad/C5an/C5adn 発表
• 推論専用チップ AWS Inferentia 搭載 Inf1 インスタンス
ローンチ
• AWS Graviton 2 プロセッサ 発表、C6g インスタンスプ
レビュー開始
• Amazon Braket プレビュー開始
• 新しいEC2購入オプション Savings Plans
7. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
NVIDIA T4 GPU 搭載 EC2 G4インスタンス ローンチ
NVIDIA T4 GPU を搭載したインスタンスで、T4 は次世代の320 Turing Tensor Coreと
2,560 CUDA Coreおよび16GBのGPUメモリを搭載したGPU
機械学習のトレーニングと推論、ビデオトランスコーディング、ゲームストリーミング、
3Dなどの高度なリモートグラフィックス処理といったアプリケーションを高速化
東京リージョンを含む8つのAWSリージョンで利用可能
https://aws.amazon.com/jp/about-aws/whats-new/2019/09/introducing-amazon-ec2-g4-instances-the-most-cost-effective-gpu-platform/
https://aws.amazon.com/jp/blogs/news/now-available-ec2-instances-g4-with-nvidia-t4-tensor-core-gpus/
インスタンス名 T4 GPU vCPU RAM ローカルスト
レージ
EBS帯域幅 ネットワーク帯域
幅
シングル
GPU
g4dn.xlarge 1 4 16 GiB 1 x 125 GB 最大 3.5 Gbps 最大 25 Gbps
g4dn.2xlarge 1 8 32 GiB 1 x 225 GB 最大 3.5 Gbps 最大 25 Gbps
g4dn.4xlarge 1 16 64 GiB 1 x 225 GB 最大 3.5 Gbps 最大 25 Gbps
g4dn.8xlarge 1 32 128 GiB 1 x 900 GB 7 Gbps 50 Gbps
g4dn.16xlarge 1 64 256 GiB 1 x 900 GB 7 Gbps 50 Gbps
マルチGPU
g4dn.12xlarge 4 48 192 GiB 1 x 900 GB 7 Gbps 50 Gbps
g4dn.metal
(今後リリース予定)
8 96 384 GiB 2 x 900 GB 14 Gbps 100 Gbps
8. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AMD EPYC Rome 搭載 C5a/C5adインスタンス発表
第2世代のAMD EPYC “Rome”を搭載したインスタンス
ファミリC5aとC5adが近日登場予定
8つのサイズのインスタンスタイプが提供され、
最大 192 vCPU / 384GiBのメモリを利用可能
c5adでは最大で7.6TiBのローカルNVMeストレージを搭
載し、動画エンコーディングをはじめとするメディア処
理などに最適
ベアメタルインスタンス(c5an.metal, c5adn.metal)も用
意され、類似タイプの倍のvCPU/メモリを利用できる
c5an.metal/c5adn.metal は EFAにも対応予定
https://aws.amazon.com/blogs/aws/in-the-works-new-amd-powered-compute-optimized-ec2-instances-c5a-c5ad/
9. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
機械学習推論用の独自プロセッサ:AWS Inferentia
AWSによる独自設計推論プロセッサ
• EC2 Inf1 インスタンスとして利用可能
• Inf1.24xlarge では16 チップ搭載
• 4 Nuronコア / チップ
• チップ当たり最大128 TOPS
• 2ステージ メモリハイアラーキー
• 大容量オンチップ キャッシュとDRAMメモリ
• FP16, BF16, INT8 データタイプをサポート
• FP32で構築された学習モデルをBF16で実行可能
• 高速チップ間通信をサポート
• SDKはTensorFlow, MXNet, PyTorchをサポート
• https://github.com/aws/aws-neuron-sdk
https://aws.amazon.com/jp/machine-learning/inferentia/
10. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
64bit ARM ベースのプロセッサ:AWS Graviton2
• AWSが独自に設計したARM ベースのプロセッサ
• 64 コア (ARM Neoverse N1コア)、Arm v8.2準拠
• No SMT、No NUMA
• 64KB L1 D/I、1MB L2キャッシュ / vCPU、32MB LLC
• 64コア間は ~2TB/s メッシュ型インタコネクトで接続
• 8 x DDR-3200チャネル (> 200GB/s)
• インスタンス上のDRAMメモリの内容はAES-256で暗号化
• 暗号鍵はインスタンス起動時に生成、起動インスタンス以外か
らメモリを読み取ることは不可
• 64レーン PCIe Gen4
• Amazon EC2 A1インスタンスに搭載された初代Gravitonプロセッサ
と比較し、4倍のコア数、7倍の性能、5倍のメモリ帯域、~2倍の
vCPU当たりの性能
7nmプロセスによる
AWS独自設計プロセッ
サ
https://aws.amazon.com/jp/ec2/graviton/
11. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Graviton 2搭載インスタンス提供をプレアナウンス
AWS Graviton2を搭載した汎用、コンピュート最適化、メ
モリ最適化インスタンスを発表
• 汎用(M6g, M6gd) : 1-64vCPU, Max 256GiB RAM
• コンピュート最適化(C6g, C6gd) : 1-64vCPU, Max 128GiB RAM
• メモリ最適化(R6g, R6gd) : 1-64vCPU, Max 512GiB RAM
• 各インスタンスは最大25Gbpsのネットワーク帯域と、最大18Gbps
のEBS帯域を持つ
• ローカルNVMe SSDをサポートするオプションを用意 (M6gd, C6gd,
R6gd)
Amazon Linux 2, Ubuntu, Red Hat, SUSE, Fedora, Debian, FreeBSDといった
複数のLinux/Unixディストリビューションを選択可能
Docker, Amazon ECS, Amazon Elastic Kubernetes Serviceといったコンテナ
サービスを選択可能
12. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Graviton 2搭載 M6gインスタンス
既存のインスタンスと比較しコストパフォーマン
スが最大40%向上
プレビューアクセスのリクエストを受付中
• https://aws.amazon.com/jp/ec2/instance-types/m6/
インスタンスタ
イプ
vCPU数 メモリ
(GiB)
NW帯域
(Gbps)
EBS帯域
(Gbps)
m6g.medium 1 4 Max 10 Max 4.75
m6g.large 2 8 Max 10 Max 4.75
m6g.xlarge 4 16 Max 10 Max 4.75
m6g.2xlarge 8 32 Max 10 Max 4.75
m6g.4xlarge 16 64 Max 10 4.75
m6g.8xlarge 32 128 12 9
m6g.12xlarge 48 192 20 13.5
m6g.16xlarge 64 256 25 18
•SPECjvm® 2008: +43% (推定)
•SPEC CPU® 2017 integer: +44% (推定)
•SPEC CPU 2017 floating point: +24% (推定)
•NginxでのHTTPSロードバランシング: +24%
•Memcached: +43% かつレイテンシの短縮
•X.264ビデオエンコーディング: +26%
•Cadence XcelliumによるEDAシミュレーション: +54%
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Deep_dive_on_Arm-
based_EC2_instances_powered_by_AWS_Graviton_CMP322-R1.pdf
13. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
https://aws.amazon.com/braket/hardware-providers/
量子コンピューティング環境をマネージドで提供
• 量子ビットと量子回路を体験する Amazon Braket SDK を提供
• Notebook インターフェースで、簡単に Braket にアクセス
• 量子回路のシミュレーション環境下で回路設計を行い、実際の量子デ
バイスの上で別途量子計算を実行する
複数種の量子コンピューターへのアクセスを提供
• ゲートベース量子コンピュータ
• Rigetti : 超伝導量子ビット (The Rigetti 16Q Aspen-4)
• IonQ : イオントラップ量子ビット (IonQ linear trap)
• 量子アニーリング
• D-Wave : 超伝導量子ビット(D-Wave 2000Q)
Amazon Braket プレビュー開始
14. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
https://aws.amazon.com/quantum-solutions-lab/
AWS量子コンピューティングセンター
• カリフォルニア工科大学(Caltech)に隣接する量子研究センター
• 世界をリードする量子コンピューティングの研究者とエンジニアを集めて、量子コンピュー
ティングハードウェアとソフトウェアの開発を加速します
Amazon Quantum Solutions Lab
• AWSの顧客をAmazonの量子コンピューティングエキスパートと非常に厳選されたコンサル
ティングパートナーと結びつける新しいプログラム
• 計算化学、機械学習、最適化など、さまざまな専門分野を持つ企業と提携
• 量子コンピューティングの専門家が、顧客のビジネスにとって最も有望な近い将来の量子コン
ピューティングソリューションを調査し、発見します
AWSの量子コンピューティングへの取り組み
15. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
EC2 購入オプション
オンデマンドインスタンス
長期コミット無し、使用分への支払い(秒
単位/時間単位)。Amazon EC2の定価
スパイクするようなワークロー
ド
リザーブドインスタンス
1年/3年の長期コミットをする代わり
に大幅なディスカウント価格
一定の負荷の見通しがある
ワークロード
スポットインスタンス
Amazon EC2の空きキャパシティを活
用し、最大90%値引き。中断が発生す
ることがある
中断に強く、かつ様々なイ
ンスタンスタイプを活用で
きるワークロード
HPC等では特にスポットインスタンスを活用することで
コストパフォーマンスの良い計算が可能
16. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Savings Plans 提供開始
インスタンスタイプ・台数を事前に決めるのではなく
一時間あたりの利用金額をコミットしていただくことでリザーブドイ
ンスタンスよりも高い柔軟性を提供
• Compute Savings Plans: 最大の柔軟性を提供し、コンバーティブ
ル RI と同様に最大 66% の値引き
• インスタンスファミリー: 例 C5 から M5 に移行
• リージョン: 例 欧州 (アイルランド) から欧州 (ロンドン) への変更
• OS: 例 Windows から Linux への変更
• コンピューティングオプション: 例 EC2 から Fargate に移行
• EC2 Savings Plans: 選択されたリージョン・インスタンスファミ
リー で最大 72% (スタンダード RI と同じ) の最も深い割引
• サイズ: 例 m5.xl から m5.4xl に移行
• OS: 例 m5.xl Windows から m5.xl Linux に変更
https://www.slideshare.net/AmazonWebServicesJapan/20191212-savings-plans
17. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ネットワーク
• Elastic Fabric Adapter 利用事例の増加
18. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon EC2インスタンス ネットワーク
EC2ネットワーク帯域は次々拡張され、現在は最大 100 Gbps
19. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
EC2の高性能ネットワーク技術
• 拡張ネットワーキング
• SR-IOVに対応し、仮想化オーバーヘッドを低減することで低レイテ
ンシでの通信が可能
• Cluster Placement Group
• インスタンス間の通信を最適化することで広帯域、低レイテンシ、高
PPS (packets per seconds) での通信を実現
• Elastic Fabric Adapter
• HPC向けに、MPI (Message Passing Interface) やNCCL (NVIDIA
Collective Communications Library) などの libfabric 対応のアプリ
ケーションでの通信をより低レイテンシ化
http://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/enhanced-networking.html
20. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Elastic Fabric Adapter
Userspace
Kernel
Without EFA With EFA
MPIを使用するアプリケーションで低レイテンシでのノード間通信を実現
21. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
SRD: Scalable Reliable Datagram
• AWS のデータセンターネットワーク
に適したプロトコル
• Out-of-order delivery
• Packet spraying over multiple path
• Congestion control designed for large
scale cloud
https://www.openfabrics.org/wp-content/uploads/2019-workshop-presentations/205_RRaja.pdf
https://en.wikipedia.org/wiki/Equal-cost_multi-path_routing
22. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ANSYS Fluent での EFA Benchmark
• External flow over a Formula-1 Race Car
(140M cell mesh)
• ~3,000 cores (~83 nodes) において
C5n+EFA 使用時に~89% のスケール性
能
https://aws.amazon.com/jp/blogs/compute/running-ansys-fluent-on-amazon-ec2-c5n-with-elastic-fabric-adapter-efa/
23. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
U.S. Navy Research Lab. による気象予測
https://www.slideshare.net/insideHPC/navgem-on-the-cloud-computational-evaluation-of-cloud-hpc-with-a-global-atmospheric-model
• NAVGEMによる高解像
度気象予測シミュレー
ション
• C5n + EFA により1000+
コア規模までスケール
• 試験的なI/O testではFSx
for Lustreにより高い性
能が得られた (右グラ
フはI/O無し)
24. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
P3dnによる分散機械学習
• 機械学習のトレーニング時に重要となるAll-reduceのベンチマーク
及び、FAIRSEQ(Facebookの開発したseq-to-seqリファレンス実
装)のトレーニングについても256 GPU規模までスケール
https://aws.amazon.com/jp/blogs/compute/optimizing-deep-learning-on-p3-and-p3dn-with-efa/
25. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ストレージ
• EBS optimized インスタンスの最大帯域の増加
• FSx for Lustre 新機能のアナウンス
26. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
EBS optimized インスタンスの最大帯域の増加
• Nitro ベースのインスタンスでEBS専用帯域が36%拡大
し、最大19Gbpsに
• 新しい、C5/C5d/C5n, M5/M5d/M5n/M5dn, R5/R5d/R5n/R5dn,
P3dn インスタンスおよび、6, 9, and 12 TB Amazon EC2
High Memory instancesで対応
https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/ebs-optimized.html
27. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon FSx for Lustre
コンピュートインテンシブワークロードのための
フルマネージドな並列ファイルシステム
既存のアプリケーション
との互換性
シンプル
フルマネージド
データレポジトリとの
シームレスな統合
パフォーマンス
コスト最適化 セキュリティ
コンプライアンス
https://www.slideshare.net/AmazonWebServicesJapan/20190319-aws-black-belt-online-seminar-amazon-fsx-for-lustre
28. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
FSx for Lustre Performance
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Amazon_S3_&_FSx_for_Lustre_Deep_dive_on_high-performance_file_storage_STG307-R1.pdf
29. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
FSx for Lustre Updates
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Amazon_S3_&_FSx_for_Lustre_Deep_dive_on_high-performance_file_storage_STG307-R1.pdf
30. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
管理自動化(オーケストレーション)
• AWS ParallelCluster 2.5.0 リリース
• AWS Solutions: Scale-out Computing on AWS (SOCA)リ
リース
31. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ジョブキューを監視して計算ノードを自動でスケールさせる
クラスターを簡単に構成
オープンソースソースのプロジェクト
で下記より誰でも入手可能:
https://github.com/aws/aws-
parallelcluster
選択できるOS環境:
-Amazon Linux
-CentOS 6 or 7
-Ubuntu 14.04 or 16.04
選択できるジョブスケジューラ:
-SGE
-Torque
-Slurm
-awsbatch
AWS ParallelCluster
32. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ParallelCluster 設定例
[aws]
aws_region_name = ap-northeast-1
[cluster slurm1]
master_instance_type = c5.large
compute_instance_type = c5.4xlarge
max_queue_size = 10
initial_queue_size = 0
scheduler = slurm
cluster_type = spot
33
configファイル例
https://docs.aws.amazon.com/ja_jp/parallelcluster/latest/ug/configuration.html
pcluster create コマンド実行
33. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS ParallelCluster 2.5.0 公開
• リモートデスクトップソリューションであるNICE-DCV
を統合(CentOSのみ)
• Ubuntu 18.04 に対応
• Slurm でのGPUリソース要求設定がより柔軟に
• Intel MPI/Parallel Studio との連携を強化
• HyperThreading 設定が簡素化
https://github.com/aws/aws-parallelcluster/releases/tag/v2.5.0
https://aws.amazon.com/jp/blogs/opensource/deploy-hpc-cluster-remote-visualization-single-step-parallelcluster/
34. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
NICE-DCV 利用イメージ
35. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Solutions: Scale-out Computing on AWS
ユーザー管理やコスト管理など複数人でクラスタを使用する際のリファレンス
デザインとして、AWS Solutions: Scale-out Computing on AWS が公開
https://aws.amazon.com/jp/solutions/scale-out-computing-on-aws/
36. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Scale-out Computing on AWS に含まれる内容
• Web フロントエンド
• NICE-DCV 用ジョブ作成による可視化、Pre/Post 処理
• LDAPによるユーザー管理
• ジョブスケジューラからAWSのリソースを指定する方法
• AWS Budget とジョブスケジューラを組み合わせた予算管理
• Elasticsearch Service を使ったコスト可視化
• SES連携によるジョブのメール通知
37. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
HPC関連アップデートまとめ
• コンピュート
• NVIDIA T4、AMD EPYC Roma や AWS Graviton 2 などの選択肢
• 推論専用チップ AWS Inferentia ローンチ
• 量子コンピュータサービスのプレビュー開始
• 課金や台数制限などの使い勝手も改善
• ネットワーク
• EFA 関連事例が増加
• ストレージ
• FSx for Lustre のユーザビリティ関連アップデートアナウンス
• 管理自動化
• 使い始めに最適なParallelClusterの頻繁なアップデートに加え、本番
環境での参考になるリファレンスデザインも公開
38. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS@SC19
39. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS ブースの様子
https://aws.amazon.com/jp/hpc/sc19/
40. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS@SC19 HPC Wire Awards
Best HPC Cloud Platform
• Readers’ Choice: Amazon Web Services
Best Use of HPC in the Cloud
• Readers’ Choice: Using AWS, the Ocean Conservancy performed over 75 50-year
ocean simulations to understand stressors on the ocean and the intricate and
potentially catastrophic effects climate change is having on our underwater
ecosystems.
• Editors’ Choice: Astera Labs used Six Nines and a 100% AWS cloud-based EDA
workflow to design the industry’s first PCIe 5.0 retimer.
Best Use of HPC in Manufacturing
• Editors’ Choice: Western Digital created a million-vCPU AWS cluster using Univa
software to simulate crucial elements of upcoming head designs for its next-
generation hard disk drives.
Best Use of HPC in Financial Services
• Editors’ Choice: W.R. Hambrecht developed and refined a machine learning-based
investment assessment system, running on AWS infrastructure, that the company
says has improved its rate of picking successful start-ups by 3X.
Top 5 New Products or Technologies to Watch
• Elastic Fabric Adapter from AWS
https://www.hpcwire.com/off-the-wire/hpcwire-reveals-winners-of-the-2019-readers-and-editors-
choice-awards-at-sc19-conference-in-denver-co/
41. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
TOP500 on AWS
• 179 位 Descartes Labs
• 41,472 Cores / 1.9 PFLOPS
• 前回(June 2019)ランキングで 136 位
• 482 位 Fastonetech
• 中国のマルチクラウド・オンプレミスプラットフォーマー
• 初ランクイン
• 41,472 Cores / 1.2 PFLOPS
• 合計 $5,530 と本番 4 時間の実行で完了
• https://medium.com/descarteslabs-team/thunder-from-the-cloud-40-000-cores-running-in-concert-on-aws-bf1610679978
• http://blog.fastonetech.com/top500/
• https://www.top500.org/system/179804
• https://www.top500.org/system/179693
42. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
WekaIO on AWS がIO500で1位を獲得
ストレージソリューションベンダーであるWEKA.IOが
AWS上でEC2 i3enを使用した分散ストレージによりIO500の1位を獲得
https://www.vi4io.org/io500/start
https://www.weka.io/blog/weka-wins-the-io500-again-but-thats-only-part-of-the-story/
43. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
マルチクラウドによる大規模GPU計算の実現
• ニュートリノ検出のための国際連携プ
ロジェクトIceCubeのグループによる
観測データ解析
• AWS, Azure, GCPを合わせ、
51,500 GPU (V100, P100, P40, P4,
T4, M60, K80, K520)を使用
• 3つの大陸に渡る28のリージョン
• ジョブマネージャーはHTCondor
• 計算リソースの理論性能 (単精度) は
最大時で380 PFLOPSに到達
https://aws.amazon.com/jp/blogs/publicsector/aws-helps-researchers-study-messages-from-the-universe/
https://www.hpcwire.com/2019/11/22/51000-cloud-gpus-converge-to-power-neutrino-discovery-at-the-south-pole/
44. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
re:Invent 2019
45. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Overview • AWS世界最大の「学習型」カンファ
レンス
• 2019年12月1日〜12月6日
• ラスベガスのホテル各所にて
• 65,000+の参加者
• 日本からも1,700+の方がご参加
• 複数回の基調講演や3,000+のセッ
ションをはじめ、パートナー展示
ブースや各種ハンズオン、認定試験
会場などをご提供
• そのほかにもネットワーキングパー
ティーなど各種のイベントも
46. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
re:Invent前に発表されたCompute関連サービス
• 11/5 :C5dインスタンスにCascade Lakeを搭載した新しいインスタンスサイズが追加 [LINK]
• 11/6 :コンピューティング使用料を確約することで割引を提供するSavings Plansを発表 [LINK]
• 11/8 :Amazon EC2がMicrosoft SQL Server 2019をサポート [LINK]
• 11/8 :AWS BatchがM60ならびにT4 GPUを搭載するG3、G3s、G4インスタンスをサポート [LINK]
• 11/15:Elastic Fabric AdapterがIntel MPI 2019 (Update 6) ライブラリをサポート [LINK]
• 11/18:AMD EPYC “Rome” 搭載 c5a/c5adインスタンス [LINK]
• 11/18:ParallelCluster 2.5.0リリース [LINK]
• 11/19:EC2インスタンスメタデータに関するアップデート [LINK]
• 11/22:Amazon EC2のインスタンスタイプ検索機能 [LINK]
• 11/25:バースト可能なEC2インスタンスの一括設定 [LINK]
• 11/26:Elastic Inferenceがリソースタグに対応 [LINK]
47. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
最近のスポットインスタンス・起動サービス関連アップデート一
覧• 08/26:Managed Spot training in Amazon SageMaker [LINK]
• 09/27:ECS - Automated Draining for Spot Instances [LINK]
• 10/24:AWS Batch – 新しい配分戦略 [LINK]
• 11/07:Automated Draining for Spot Instance Nodes on Kubernetes [LINK]
• 11/20:EC2 Auto Scaling - Maximum Instance Lifetime [LINK]
• 11/20:EC2 Auto Scaling – Instance Weighting [LINK]
• 11/25:Auto Scaling - Private Linkをサポート [LINK]
• 11/25:Supporting Spot Instances in Elastic Beanstalk [LINK]
• 12/03:ECS - Capacity Providers [LINK]
• 12/03:Fargate Spot [LINK]
48. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
re:Invent期間中に発表されたCompute関連サービス
• 12/1
• Amazon EC2 Image
Builderを発表
• 12/2
• Amazon Braketを発表
• 12/3
• Graviton 2搭載インスタンス提供をプレアナウンス
• Amazon EC2のInf1インスタンスを発表
• AWS Compute Optimizerを発表
• AWS Nitro Enclavesを発表
• AWS Local Zonesを発表
• AWS Outpostsが一般利用可能に
• AWSWavelengthを発表
• NitroベースのEC2インスタンスでEBS帯域が向上
• AWS Deep LearningAMIをアップデート
49. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Black Belt Online Seminar re:Invent 2019 速報
re:Invent 2019 中のアップデート全般についてはBlack Belt
をご参照ください
https://aws.amazon.com/jp/blogs/news/webinar-bb-aws-reinvent-2019update-2019/
50. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
オンライン re:Cap イベント
領域ごとのre:Capイベントも実施予定
https://aws.amazon.com/jp/about-aws/events/2019/reinvent-2019-recap/
51. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
アップデードだけではない re:Invent の魅力
サービス自体だけでなく、アーキテクチャやユースケース
についても学ぶことができる
• セッションガイド(動画へのリンクあり)
• https://www.portal.reinvent.awsevents.com/connect/search.w
w
• スライド一覧
• https://aws.amazon.com/jp/events/events-content/
• HPC ユーザー向け Meet-up イベントも開催
52. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Key Note: Monday Night Live
https://www.youtube.com/watch?v=GPUWATKe15E
Peter DeSantis, VP of AWS Global Infrastructure and Customer Support
53. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
HPC 関連セッション Compute 200-300
CMP220 Remote desktop and application streaming with NICE DCV
CMP204 HPC on AWS: Innovating without infrastructure constraints
CMP213 Introducing Quantum Computing with AWS
CMP303 Powering next-gen Amazon EC2: Deep dive into the Nitro system
CMP304 AWS infrastructure for large-scale distributed training at Facebook AI
CMP306 Getting started with Arm-based Amazon EC2 instances
CMP307 Optimize ML training and inferencing using Amazon EC2
CMP311 How NextRoll leverages AWS Batch for daily business operations
CMP314 Accelerate applications using Amazon EC2 F1 FPGA instances
CMP315 Multi-node deep learning training in AWS
CMP316 How GE Aviation accelerates CFD simulations on AWS
CMP319 Deploy graphics desktops for content production on AWS
CMP322 Deep dive on Arm-based EC2 instances powered by AWS Graviton
CMP324 Deliver high performance ML inference with AWS Inferentia
CMP328 How Uber builds efficient & scalable autonomous vehicle simulations on AWS Batch
CMP333 Amazon Linux 2: Stability, security, and high performance
CMP334 Deep-Dive Into 100G networking & Elastic Fabric Adapter on Amazon EC2
CMP336 Save on big data workloads like Apache Spark and Hadoop
CMP343 Turbocharge your data center infrastructure with AMD
54. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
HPC 関連セッション Compute 400
CMP401 Running EC2 workloads at scale
CMP402 Setting up and optimizing your HPC cluster on AWS
CMP408 Using Elastic Fabric Adapter to scale HPC workloads on AWS
CMP409 Selecting the right instance for your HPC workloads
CMP411 Accelerate your C/C++ applications with Amazon EC2 F1 instances
CMP412 Orchestrating complex genomics pipelines with AWS Batch
CMP418 Using AWS ParallelCluster to simplify cluster management
CMP423 Hands-on deep learning inference with Amazon EC2 Inf1 instances
55. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
HPC 関連セッション Storage AI
STG237 Learn how GMI achieves high performance for its databases
STG349 Optimize video processing using Amazon FSx for Lustre
STG348 Optimize HPC workload storage using Amazon FSx for Lustre
AIM227 Powering global-scale predictive intelligence using HPC on AWS
56. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
HPC 関連セッション 業界ごと
• 製造
MFG203 Modernizing pharmaceutical manufacturing with IoT and AI/ML
MFG206 Leadership session: AWS for the semiconductor industry
MFG304 Electronic design automation: Scaling EDA workflows
MFG403 Telemetry as the workflow analytics foundation in a hybrid environment
MFG404 Using Amazon SageMaker to improve semiconductor yields
MFG405 Launch a turnkey scale-out compute environment in minutes on AWS
• 自動車
AUT307 Navigating the winding road toward driverless mobility
• 金融
FSI403 How to build a Financial Services HPC cluster on AWS
• ライフサイエンス・ヘルスケア
HLL12 Genomics workflow automation on AWS
LFS301 Genomics workflow management
57. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
CMP402 Setting up and optimizing your HPC
cluster on AWS
ParallelCluster のハンズオン、Western Digital での利用例
もご紹介
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Setting_up_and_optimizing_your_HPC_cluster_on_AWS_CMP402-R1.pdf
58. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
CMP408 Using Elastic Fabric Adapter to scale
HPC workloads on AWS
EFA 概要に加え、様々なソフトウェアでのベンチマーク
(Metacomp CFD++、LSTC LS-DYNA、ANSYS Fluent、
Siemens Star-CCM+、OpenFOAM)
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_2_Using_Elastic_Fabric_Adapter_to_scale_HPC_workloads_on_AWS_CMP408-R2.pdf
59. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
CMP304 AWS infrastructure for large-scale
distributed training at Facebook AI
Facebook における AI分野でのAWS活用
PyTorch でのEFA使用時のベンチマーク結果等
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_AWS_infrastructure_for_large-scale_distributed_training_at_Facebook_AI_CMP304-R1.pdf
60. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
CMP324 Deliver high performance ML inference
with AWS Inferentia
AWS Inferentia 概要に加え、AlexaでのAWS Inferentia 活用
Text-to-Speech 処理での良好な結果
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Deliver_high_performance_ML_inference_with_AWS_Inferentia_CMP324-R1.pdf
61. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
MFG206 Leadership session: AWS for the
semiconductor industry
半導体設計分野でのAWS活用 arm、MediaTek がゲスト登壇
MediaTek では5G向けSoC向けに 12 Million core-hour 使用
https://d1.awsstatic.com/events/reinvent/2019/Leadership_session_AWS_for_the_Semiconductor_industry_MFG206-L.pdf
62. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AIM227 Powering global-scale predictive
intelligence using HPC on AWS
Maxar による気象シミュレーションのスパコンとの比較、
Descartes Labs でのリモートセンシング画像解析高速化
https://d1.awsstatic.com/events/reinvent/2019/Powering_global-scale_predictive_intelligence_using_HPC_on_AWS_AIM227-S.pdf
63. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AUT307 Navigating the winding road toward
driverless mobility
Mobileye での自動運転シミュレーションのための
AWS Batch 活用事例(最大同時 500,000 cores)
https://d1.awsstatic.com/events/reinvent/2019/Navigating_the_winding_road_toward_driverless_mobility_AUT307.pdf
64. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
まとめ
• 様々なCPU/アクセラレータに加え、EFAやFSx for Lustreな
どHPC向けの環境が整いつつある
• ワークロードによっては既存環境では困難であった規模の計
算も可能に
• re:Invent 2019 では様々なお客様のHPC利用実例が発表!
Let’s try HPC on AWS!
Editor's Notes AWS provides a wide breadth of services supporting compute-intensive workloads
[Quickly walk through them]
EFA network interface for compute instances
AWSでは、クラウド上でこのようなコンピュートインテンシブワークロードを実現するために、様々なサービスを提供しています。
こちらに一例を示していますが、EC2を主軸に、
最近では Custom design based on high performance Systolic Array, Vector Engine and Stream processor to orchestrate traffic.
Two stage memory hierarchy with large on-chip cache and commodity DRAM.
Flexible to use with support for multiple data types: int8, FP16 and BF16 MIXED precision. Including FP32 auto-casting.
When we designed Inferentia, we wanted it to be powerful, low latency, easy to use, to give our customers choices in how they run Inference workloads in AWS.Powerful: We pushed more than 100 Tera Ops/sec in each one of these chips, at low power, which allowed us to pack up to 16 of them in a single instance to have more than 2 Peta Ops/sec. That’s 2X more than our biggest P3 machineseasy to use: Inferentia natively integrate with TF, PT and MXNet, and most, if not all customers don’t need to change their neural network or change the framework they use if it one of the 3 most popular ones. Training wherever you want, ideally on an Ec2 P3/P3dn and bring the models. 2-4 lines of code change and you can use inferentiaeasy to use 2: another thing our customers told us that they like to keep training in 32-bit floating point - that gives best accuracy. but 32-bit is expensive and high power, and its really hard to move to lower 16-bit floating point or Integers. So Inferentia is the first ML accelerator in AWS cloud that can take a 32-bit trained model and run them at speed of 16-bit using BFloat16 modelLatency: many of our customers also challenged us to push latency as low as possible, to allow use of ML with user-facing and interactive applications like voice assistant, or search. And as ML gets more sophisticated, models get bigger, and bigger models end up taking more time load and process adding to latency.Allows to build servers that cascade multiple chips together, and split these big ML inference models across multiple chips. When we spread it across chips, we could cache the models inside our large on-chip memory, and then we dont need to reload the model. For Natural Language Understanding Models like BERT, this would cut the latency by two thirds, while achieving same throughput
As models get more advanced and more accurate, their memory footprint increases, for example, BERT memory footprint is 680MByte. that can't fit into single chip, and almost every chip, inferentia or other will need to load the model from DRAM all the time. With Inferentia-CascadeMode, we are able to build distributed caching of the model across multiple chips so we won't need to access DRAM.
非公開情報?:48MBオンチップキャッシュ、256Gbps chip-to-chip interconnect
他に…
~30 Billionトランジスタ
Dual SIMD units
ML向け命令セット(int8, fp16) *BF16はまだ
No NUMA concerns
1Tbit/s伸張圧縮アクセラレータ内蔵
圧縮15GB/s, 伸張11GB/s
スポットインスタンスのご説明に入る前に、まずEC2の購入オプションについて整理したいと思います。EC2の購入には3通りの方法があり、オンデマンドインスタンス、リザーブドインスタンス、スポットインスタンスがあります。
オンデマンドインスタンスは長期コミットなし、使ったぶんだけ秒単位にお支払いいただくタイプの購入方法です。こちらが定価の価格とお考えください。負荷が読めず、スパイクするようなワークロードに特に向いています。
リザーブドインスタンスは1年、あるいは3年の稼働時間を長期コミットしていただく代わりに、最大75%の割引でご提供するものです。一定の負荷が見込めるようなワークロードがある場合にお勧めです。
スポットインスタンスはAmazon EC2サービスの空きキャパシティ、つまり未使用のインスタンスを活用しており、空きキャパシティがある限り最大90%の割引でご提供するものです。ただし後ほどご説明しますが、Amazon EC2は稼働中のスポットインスタンスを中断する場合があります。このような特徴があることから、割引率が最大限である一方、柔軟かつステートレスなワークロードに適した購入オプションであると言うことができます。
ここで強調しておきたいのは、どの購入オプションを選択した場合も、EC2インスタンスとしての性能には何ら違いがないという点です。言い換えれば、AWSでは購入オプションによってEC2在庫の機材を使い分ける、ということはしておりません。 Parallel tightly-coupled computing applications are typically based on MPI. Here is a notional diagram of how mpi applications work today on AWS. This is the “before” chart, without EFA. MPI is a standardized message passing interface. There are a variety of versions of MPI, such as Open MPI and Intel MPI. These two we will be talking about later in the webinar.
MPI is the networking library used by the application to provide point to point communication between the different cores on which an application is running. MPI is the bottom of the user portion of the stack and it talks to the kernel tcp/ip stack. Which is at the top of the kernel stack. The kernel stack then talks to the ENA network driver which communicates with the hardware.
With Amazon FSx for Lustre, you get a fully managed Lustre parallel file system.
Because it’s a Lustre file system, it’s performance is ideal for compute-intensive workloads with high-throughput and low-latency needs, like high performance computing, machine learning workloads, and media processing/rendering workflows.
[Read through icons]
Data repositories: S3 + on-prem data stores
I’ll now talk about each of these in turn.