SlideShare a Scribd company logo
1 of 64
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
2019年12月20日
Daisuke Miyamoto
HPC Solutions Architect
JAWS HPC支部 20191220
HPC on AWS @ 2019
30分でわかるクラウドHPCの現在
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
自己紹介
❏ 名前
宮本 大輔 (みやもと だいすけ)
❏ 所属
アマゾン ウェブ サービス ジャパン 株式会社
技術統括本部
HPC ソリューション アーキテクト
❏ 好きな AWS サービス
❖ AWS ParallelCluster
❖ Amazon FSx for Lustre
❖ AWS Snowball シリーズ
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
本日の概要
• HPC関連アップデート
• SC19
• re:Invent 2019
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
HPC関連アップデート
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS におけるHPC関連サービス
コンピュート
Amazon EC2
Enhanced Networking
Placement Group
ネットワーク
Elastic Fabric Adapter
可視化
Amazon AppStream 2.0
NICE-DCV
スポットインスタンスの活
用で大幅なコスト減も可能
NVIDIA Tesla V100
搭載
EC2インスタンスの基盤上の
配置を制御してネットワーク
を高速化
フルマネージドのアプ
リケーションストリー
ミングサービス
管理自動化
AWS ParallelCluster
AWS Batch
AWS上に HPC クラスタを構築
AWS BatchやSGEに対応
スケーラブルなバッチコ
ンピューティングジョブ
をフルマネージドで管理
用途に応じて多様なイ
ンスタンスを利用可能
な仮想サーバサービス
SR-IOVによるCPU負荷が低く
パフォーマンスの高いネット
ワーク仮想化
libfabric 対応のアダプタにより
MPI 利用のアプリケーション等
を高速化
Xilinx Virtex
UltraScale+ 搭載
100 Gbps の
ネットワーク帯域
GPUアクセラレーションに対
応し、インタラクティブなア
プリケーションに適したデス
クトップ仮想化
ストレージ
FSx for Lustre
S3連携可能な高速な分散
ストレージをフルマネー
ジドで提供
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
コンピュート
• NVIDIA T4 搭載 G4 インスタンス ローンチ
• AMD EPYC Roma 搭載 C5a/C5ad/C5an/C5adn 発表
• 推論専用チップ AWS Inferentia 搭載 Inf1 インスタンス
ローンチ
• AWS Graviton 2 プロセッサ 発表、C6g インスタンスプ
レビュー開始
• Amazon Braket プレビュー開始
• 新しいEC2購入オプション Savings Plans
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
NVIDIA T4 GPU 搭載 EC2 G4インスタンス ローンチ
NVIDIA T4 GPU を搭載したインスタンスで、T4 は次世代の320 Turing Tensor Coreと
2,560 CUDA Coreおよび16GBのGPUメモリを搭載したGPU
機械学習のトレーニングと推論、ビデオトランスコーディング、ゲームストリーミング、
3Dなどの高度なリモートグラフィックス処理といったアプリケーションを高速化
東京リージョンを含む8つのAWSリージョンで利用可能
https://aws.amazon.com/jp/about-aws/whats-new/2019/09/introducing-amazon-ec2-g4-instances-the-most-cost-effective-gpu-platform/
https://aws.amazon.com/jp/blogs/news/now-available-ec2-instances-g4-with-nvidia-t4-tensor-core-gpus/
インスタンス名 T4 GPU vCPU RAM ローカルスト
レージ
EBS帯域幅 ネットワーク帯域
幅
シングル
GPU
g4dn.xlarge 1 4 16 GiB 1 x 125 GB 最大 3.5 Gbps 最大 25 Gbps
g4dn.2xlarge 1 8 32 GiB 1 x 225 GB 最大 3.5 Gbps 最大 25 Gbps
g4dn.4xlarge 1 16 64 GiB 1 x 225 GB 最大 3.5 Gbps 最大 25 Gbps
g4dn.8xlarge 1 32 128 GiB 1 x 900 GB 7 Gbps 50 Gbps
g4dn.16xlarge 1 64 256 GiB 1 x 900 GB 7 Gbps 50 Gbps
マルチGPU
g4dn.12xlarge 4 48 192 GiB 1 x 900 GB 7 Gbps 50 Gbps
g4dn.metal
(今後リリース予定)
8 96 384 GiB 2 x 900 GB 14 Gbps 100 Gbps
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AMD EPYC Rome 搭載 C5a/C5adインスタンス発表
第2世代のAMD EPYC “Rome”を搭載したインスタンス
ファミリC5aとC5adが近日登場予定
8つのサイズのインスタンスタイプが提供され、
最大 192 vCPU / 384GiBのメモリを利用可能
c5adでは最大で7.6TiBのローカルNVMeストレージを搭
載し、動画エンコーディングをはじめとするメディア処
理などに最適
ベアメタルインスタンス(c5an.metal, c5adn.metal)も用
意され、類似タイプの倍のvCPU/メモリを利用できる
c5an.metal/c5adn.metal は EFAにも対応予定
https://aws.amazon.com/blogs/aws/in-the-works-new-amd-powered-compute-optimized-ec2-instances-c5a-c5ad/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
機械学習推論用の独自プロセッサ:AWS Inferentia
AWSによる独自設計推論プロセッサ
• EC2 Inf1 インスタンスとして利用可能
• Inf1.24xlarge では16 チップ搭載
• 4 Nuronコア / チップ
• チップ当たり最大128 TOPS
• 2ステージ メモリハイアラーキー
• 大容量オンチップ キャッシュとDRAMメモリ
• FP16, BF16, INT8 データタイプをサポート
• FP32で構築された学習モデルをBF16で実行可能
• 高速チップ間通信をサポート
• SDKはTensorFlow, MXNet, PyTorchをサポート
• https://github.com/aws/aws-neuron-sdk
https://aws.amazon.com/jp/machine-learning/inferentia/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
64bit ARM ベースのプロセッサ:AWS Graviton2
• AWSが独自に設計したARM ベースのプロセッサ
• 64 コア (ARM Neoverse N1コア)、Arm v8.2準拠
• No SMT、No NUMA
• 64KB L1 D/I、1MB L2キャッシュ / vCPU、32MB LLC
• 64コア間は ~2TB/s メッシュ型インタコネクトで接続
• 8 x DDR-3200チャネル (> 200GB/s)
• インスタンス上のDRAMメモリの内容はAES-256で暗号化
• 暗号鍵はインスタンス起動時に生成、起動インスタンス以外か
らメモリを読み取ることは不可
• 64レーン PCIe Gen4
• Amazon EC2 A1インスタンスに搭載された初代Gravitonプロセッサ
と比較し、4倍のコア数、7倍の性能、5倍のメモリ帯域、~2倍の
vCPU当たりの性能
7nmプロセスによる
AWS独自設計プロセッ
サ
https://aws.amazon.com/jp/ec2/graviton/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Graviton 2搭載インスタンス提供をプレアナウンス
AWS Graviton2を搭載した汎用、コンピュート最適化、メ
モリ最適化インスタンスを発表
• 汎用(M6g, M6gd) : 1-64vCPU, Max 256GiB RAM
• コンピュート最適化(C6g, C6gd) : 1-64vCPU, Max 128GiB RAM
• メモリ最適化(R6g, R6gd) : 1-64vCPU, Max 512GiB RAM
• 各インスタンスは最大25Gbpsのネットワーク帯域と、最大18Gbps
のEBS帯域を持つ
• ローカルNVMe SSDをサポートするオプションを用意 (M6gd, C6gd,
R6gd)
Amazon Linux 2, Ubuntu, Red Hat, SUSE, Fedora, Debian, FreeBSDといった
複数のLinux/Unixディストリビューションを選択可能
Docker, Amazon ECS, Amazon Elastic Kubernetes Serviceといったコンテナ
サービスを選択可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Graviton 2搭載 M6gインスタンス
既存のインスタンスと比較しコストパフォーマン
スが最大40%向上
プレビューアクセスのリクエストを受付中
• https://aws.amazon.com/jp/ec2/instance-types/m6/
インスタンスタ
イプ
vCPU数 メモリ
(GiB)
NW帯域
(Gbps)
EBS帯域
(Gbps)
m6g.medium 1 4 Max 10 Max 4.75
m6g.large 2 8 Max 10 Max 4.75
m6g.xlarge 4 16 Max 10 Max 4.75
m6g.2xlarge 8 32 Max 10 Max 4.75
m6g.4xlarge 16 64 Max 10 4.75
m6g.8xlarge 32 128 12 9
m6g.12xlarge 48 192 20 13.5
m6g.16xlarge 64 256 25 18
•SPECjvm® 2008: +43% (推定)
•SPEC CPU® 2017 integer: +44% (推定)
•SPEC CPU 2017 floating point: +24% (推定)
•NginxでのHTTPSロードバランシング: +24%
•Memcached: +43% かつレイテンシの短縮
•X.264ビデオエンコーディング: +26%
•Cadence XcelliumによるEDAシミュレーション: +54%
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Deep_dive_on_Arm-
based_EC2_instances_powered_by_AWS_Graviton_CMP322-R1.pdf
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
https://aws.amazon.com/braket/hardware-providers/
量子コンピューティング環境をマネージドで提供
• 量子ビットと量子回路を体験する Amazon Braket SDK を提供
• Notebook インターフェースで、簡単に Braket にアクセス
• 量子回路のシミュレーション環境下で回路設計を行い、実際の量子デ
バイスの上で別途量子計算を実行する
複数種の量子コンピューターへのアクセスを提供
• ゲートベース量子コンピュータ
• Rigetti : 超伝導量子ビット (The Rigetti 16Q Aspen-4)
• IonQ : イオントラップ量子ビット (IonQ linear trap)
• 量子アニーリング
• D-Wave : 超伝導量子ビット(D-Wave 2000Q)
Amazon Braket プレビュー開始
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
https://aws.amazon.com/quantum-solutions-lab/
AWS量子コンピューティングセンター
• カリフォルニア工科大学(Caltech)に隣接する量子研究センター
• 世界をリードする量子コンピューティングの研究者とエンジニアを集めて、量子コンピュー
ティングハードウェアとソフトウェアの開発を加速します
Amazon Quantum Solutions Lab
• AWSの顧客をAmazonの量子コンピューティングエキスパートと非常に厳選されたコンサル
ティングパートナーと結びつける新しいプログラム
• 計算化学、機械学習、最適化など、さまざまな専門分野を持つ企業と提携
• 量子コンピューティングの専門家が、顧客のビジネスにとって最も有望な近い将来の量子コン
ピューティングソリューションを調査し、発見します
AWSの量子コンピューティングへの取り組み
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
EC2 購入オプション
オンデマンドインスタンス
長期コミット無し、使用分への支払い(秒
単位/時間単位)。Amazon EC2の定価
スパイクするようなワークロー
ド
リザーブドインスタンス
1年/3年の長期コミットをする代わり
に大幅なディスカウント価格
一定の負荷の見通しがある
ワークロード
スポットインスタンス
Amazon EC2の空きキャパシティを活
用し、最大90%値引き。中断が発生す
ることがある
中断に強く、かつ様々なイ
ンスタンスタイプを活用で
きるワークロード
HPC等では特にスポットインスタンスを活用することで
コストパフォーマンスの良い計算が可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Savings Plans 提供開始
インスタンスタイプ・台数を事前に決めるのではなく
一時間あたりの利用金額をコミットしていただくことでリザーブドイ
ンスタンスよりも高い柔軟性を提供
• Compute Savings Plans: 最大の柔軟性を提供し、コンバーティブ
ル RI と同様に最大 66% の値引き
• インスタンスファミリー: 例 C5 から M5 に移行
• リージョン: 例 欧州 (アイルランド) から欧州 (ロンドン) への変更
• OS: 例 Windows から Linux への変更
• コンピューティングオプション: 例 EC2 から Fargate に移行
• EC2 Savings Plans: 選択されたリージョン・インスタンスファミ
リー で最大 72% (スタンダード RI と同じ) の最も深い割引
• サイズ: 例 m5.xl から m5.4xl に移行
• OS: 例 m5.xl Windows から m5.xl Linux に変更
https://www.slideshare.net/AmazonWebServicesJapan/20191212-savings-plans
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ネットワーク
• Elastic Fabric Adapter 利用事例の増加
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon EC2インスタンス ネットワーク
EC2ネットワーク帯域は次々拡張され、現在は最大 100 Gbps
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
EC2の高性能ネットワーク技術
• 拡張ネットワーキング
• SR-IOVに対応し、仮想化オーバーヘッドを低減することで低レイテ
ンシでの通信が可能
• Cluster Placement Group
• インスタンス間の通信を最適化することで広帯域、低レイテンシ、高
PPS (packets per seconds) での通信を実現
• Elastic Fabric Adapter
• HPC向けに、MPI (Message Passing Interface) やNCCL (NVIDIA
Collective Communications Library) などの libfabric 対応のアプリ
ケーションでの通信をより低レイテンシ化
http://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/enhanced-networking.html
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Elastic Fabric Adapter
Userspace
Kernel
Without EFA With EFA
MPIを使用するアプリケーションで低レイテンシでのノード間通信を実現
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
SRD: Scalable Reliable Datagram
• AWS のデータセンターネットワーク
に適したプロトコル
• Out-of-order delivery
• Packet spraying over multiple path
• Congestion control designed for large
scale cloud
https://www.openfabrics.org/wp-content/uploads/2019-workshop-presentations/205_RRaja.pdf
https://en.wikipedia.org/wiki/Equal-cost_multi-path_routing
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ANSYS Fluent での EFA Benchmark
• External flow over a Formula-1 Race Car
(140M cell mesh)
• ~3,000 cores (~83 nodes) において
C5n+EFA 使用時に~89% のスケール性
能
https://aws.amazon.com/jp/blogs/compute/running-ansys-fluent-on-amazon-ec2-c5n-with-elastic-fabric-adapter-efa/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
U.S. Navy Research Lab. による気象予測
https://www.slideshare.net/insideHPC/navgem-on-the-cloud-computational-evaluation-of-cloud-hpc-with-a-global-atmospheric-model
• NAVGEMによる高解像
度気象予測シミュレー
ション
• C5n + EFA により1000+
コア規模までスケール
• 試験的なI/O testではFSx
for Lustreにより高い性
能が得られた (右グラ
フはI/O無し)
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
P3dnによる分散機械学習
• 機械学習のトレーニング時に重要となるAll-reduceのベンチマーク
及び、FAIRSEQ(Facebookの開発したseq-to-seqリファレンス実
装)のトレーニングについても256 GPU規模までスケール
https://aws.amazon.com/jp/blogs/compute/optimizing-deep-learning-on-p3-and-p3dn-with-efa/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ストレージ
• EBS optimized インスタンスの最大帯域の増加
• FSx for Lustre 新機能のアナウンス
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
EBS optimized インスタンスの最大帯域の増加
• Nitro ベースのインスタンスでEBS専用帯域が36%拡大
し、最大19Gbpsに
• 新しい、C5/C5d/C5n, M5/M5d/M5n/M5dn, R5/R5d/R5n/R5dn,
P3dn インスタンスおよび、6, 9, and 12 TB Amazon EC2
High Memory instancesで対応
https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/ebs-optimized.html
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon FSx for Lustre
コンピュートインテンシブワークロードのための
フルマネージドな並列ファイルシステム
既存のアプリケーション
との互換性
シンプル
フルマネージド
データレポジトリとの
シームレスな統合
パフォーマンス
コスト最適化 セキュリティ
コンプライアンス
https://www.slideshare.net/AmazonWebServicesJapan/20190319-aws-black-belt-online-seminar-amazon-fsx-for-lustre
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
FSx for Lustre Performance
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Amazon_S3_&_FSx_for_Lustre_Deep_dive_on_high-performance_file_storage_STG307-R1.pdf
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
FSx for Lustre Updates
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Amazon_S3_&_FSx_for_Lustre_Deep_dive_on_high-performance_file_storage_STG307-R1.pdf
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
管理自動化(オーケストレーション)
• AWS ParallelCluster 2.5.0 リリース
• AWS Solutions: Scale-out Computing on AWS (SOCA)リ
リース
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ジョブキューを監視して計算ノードを自動でスケールさせる
クラスターを簡単に構成
オープンソースソースのプロジェクト
で下記より誰でも入手可能:
https://github.com/aws/aws-
parallelcluster
選択できるOS環境:
-Amazon Linux
-CentOS 6 or 7
-Ubuntu 14.04 or 16.04
選択できるジョブスケジューラ:
-SGE
-Torque
-Slurm
-awsbatch
AWS ParallelCluster
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ParallelCluster 設定例
[aws]
aws_region_name = ap-northeast-1
[cluster slurm1]
master_instance_type = c5.large
compute_instance_type = c5.4xlarge
max_queue_size = 10
initial_queue_size = 0
scheduler = slurm
cluster_type = spot
33
configファイル例
https://docs.aws.amazon.com/ja_jp/parallelcluster/latest/ug/configuration.html
pcluster create コマンド実行
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS ParallelCluster 2.5.0 公開
• リモートデスクトップソリューションであるNICE-DCV
を統合(CentOSのみ)
• Ubuntu 18.04 に対応
• Slurm でのGPUリソース要求設定がより柔軟に
• Intel MPI/Parallel Studio との連携を強化
• HyperThreading 設定が簡素化
https://github.com/aws/aws-parallelcluster/releases/tag/v2.5.0
https://aws.amazon.com/jp/blogs/opensource/deploy-hpc-cluster-remote-visualization-single-step-parallelcluster/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
NICE-DCV 利用イメージ
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Solutions: Scale-out Computing on AWS
ユーザー管理やコスト管理など複数人でクラスタを使用する際のリファレンス
デザインとして、AWS Solutions: Scale-out Computing on AWS が公開
https://aws.amazon.com/jp/solutions/scale-out-computing-on-aws/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Scale-out Computing on AWS に含まれる内容
• Web フロントエンド
• NICE-DCV 用ジョブ作成による可視化、Pre/Post 処理
• LDAPによるユーザー管理
• ジョブスケジューラからAWSのリソースを指定する方法
• AWS Budget とジョブスケジューラを組み合わせた予算管理
• Elasticsearch Service を使ったコスト可視化
• SES連携によるジョブのメール通知
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
HPC関連アップデートまとめ
• コンピュート
• NVIDIA T4、AMD EPYC Roma や AWS Graviton 2 などの選択肢
• 推論専用チップ AWS Inferentia ローンチ
• 量子コンピュータサービスのプレビュー開始
• 課金や台数制限などの使い勝手も改善
• ネットワーク
• EFA 関連事例が増加
• ストレージ
• FSx for Lustre のユーザビリティ関連アップデートアナウンス
• 管理自動化
• 使い始めに最適なParallelClusterの頻繁なアップデートに加え、本番
環境での参考になるリファレンスデザインも公開
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS@SC19
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS ブースの様子
https://aws.amazon.com/jp/hpc/sc19/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS@SC19 HPC Wire Awards
Best HPC Cloud Platform
• Readers’ Choice: Amazon Web Services
Best Use of HPC in the Cloud
• Readers’ Choice: Using AWS, the Ocean Conservancy performed over 75 50-year
ocean simulations to understand stressors on the ocean and the intricate and
potentially catastrophic effects climate change is having on our underwater
ecosystems.
• Editors’ Choice: Astera Labs used Six Nines and a 100% AWS cloud-based EDA
workflow to design the industry’s first PCIe 5.0 retimer.
Best Use of HPC in Manufacturing
• Editors’ Choice: Western Digital created a million-vCPU AWS cluster using Univa
software to simulate crucial elements of upcoming head designs for its next-
generation hard disk drives.
Best Use of HPC in Financial Services
• Editors’ Choice: W.R. Hambrecht developed and refined a machine learning-based
investment assessment system, running on AWS infrastructure, that the company
says has improved its rate of picking successful start-ups by 3X.
Top 5 New Products or Technologies to Watch
• Elastic Fabric Adapter from AWS
https://www.hpcwire.com/off-the-wire/hpcwire-reveals-winners-of-the-2019-readers-and-editors-
choice-awards-at-sc19-conference-in-denver-co/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
TOP500 on AWS
• 179 位 Descartes Labs
• 41,472 Cores / 1.9 PFLOPS
• 前回(June 2019)ランキングで 136 位
• 482 位 Fastonetech
• 中国のマルチクラウド・オンプレミスプラットフォーマー
• 初ランクイン
• 41,472 Cores / 1.2 PFLOPS
• 合計 $5,530 と本番 4 時間の実行で完了
• https://medium.com/descarteslabs-team/thunder-from-the-cloud-40-000-cores-running-in-concert-on-aws-bf1610679978
• http://blog.fastonetech.com/top500/
• https://www.top500.org/system/179804
• https://www.top500.org/system/179693
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
WekaIO on AWS がIO500で1位を獲得
ストレージソリューションベンダーであるWEKA.IOが
AWS上でEC2 i3enを使用した分散ストレージによりIO500の1位を獲得
https://www.vi4io.org/io500/start
https://www.weka.io/blog/weka-wins-the-io500-again-but-thats-only-part-of-the-story/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
マルチクラウドによる大規模GPU計算の実現
• ニュートリノ検出のための国際連携プ
ロジェクトIceCubeのグループによる
観測データ解析
• AWS, Azure, GCPを合わせ、
51,500 GPU (V100, P100, P40, P4,
T4, M60, K80, K520)を使用
• 3つの大陸に渡る28のリージョン
• ジョブマネージャーはHTCondor
• 計算リソースの理論性能 (単精度) は
最大時で380 PFLOPSに到達
https://aws.amazon.com/jp/blogs/publicsector/aws-helps-researchers-study-messages-from-the-universe/
https://www.hpcwire.com/2019/11/22/51000-cloud-gpus-converge-to-power-neutrino-discovery-at-the-south-pole/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
re:Invent 2019
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Overview • AWS世界最大の「学習型」カンファ
レンス
• 2019年12月1日〜12月6日
• ラスベガスのホテル各所にて
• 65,000+の参加者
• 日本からも1,700+の方がご参加
• 複数回の基調講演や3,000+のセッ
ションをはじめ、パートナー展示
ブースや各種ハンズオン、認定試験
会場などをご提供
• そのほかにもネットワーキングパー
ティーなど各種のイベントも
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
re:Invent前に発表されたCompute関連サービス
• 11/5 :C5dインスタンスにCascade Lakeを搭載した新しいインスタンスサイズが追加 [LINK]
• 11/6 :コンピューティング使用料を確約することで割引を提供するSavings Plansを発表 [LINK]
• 11/8 :Amazon EC2がMicrosoft SQL Server 2019をサポート [LINK]
• 11/8 :AWS BatchがM60ならびにT4 GPUを搭載するG3、G3s、G4インスタンスをサポート [LINK]
• 11/15:Elastic Fabric AdapterがIntel MPI 2019 (Update 6) ライブラリをサポート [LINK]
• 11/18:AMD EPYC “Rome” 搭載 c5a/c5adインスタンス [LINK]
• 11/18:ParallelCluster 2.5.0リリース [LINK]
• 11/19:EC2インスタンスメタデータに関するアップデート [LINK]
• 11/22:Amazon EC2のインスタンスタイプ検索機能 [LINK]
• 11/25:バースト可能なEC2インスタンスの一括設定 [LINK]
• 11/26:Elastic Inferenceがリソースタグに対応 [LINK]
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
最近のスポットインスタンス・起動サービス関連アップデート一
覧• 08/26:Managed Spot training in Amazon SageMaker [LINK]
• 09/27:ECS - Automated Draining for Spot Instances [LINK]
• 10/24:AWS Batch – 新しい配分戦略 [LINK]
• 11/07:Automated Draining for Spot Instance Nodes on Kubernetes [LINK]
• 11/20:EC2 Auto Scaling - Maximum Instance Lifetime [LINK]
• 11/20:EC2 Auto Scaling – Instance Weighting [LINK]
• 11/25:Auto Scaling - Private Linkをサポート [LINK]
• 11/25:Supporting Spot Instances in Elastic Beanstalk [LINK]
• 12/03:ECS - Capacity Providers [LINK]
• 12/03:Fargate Spot [LINK]
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
re:Invent期間中に発表されたCompute関連サービス
• 12/1
• Amazon EC2 Image
Builderを発表
• 12/2
• Amazon Braketを発表
• 12/3
• Graviton 2搭載インスタンス提供をプレアナウンス
• Amazon EC2のInf1インスタンスを発表
• AWS Compute Optimizerを発表
• AWS Nitro Enclavesを発表
• AWS Local Zonesを発表
• AWS Outpostsが一般利用可能に
• AWSWavelengthを発表
• NitroベースのEC2インスタンスでEBS帯域が向上
• AWS Deep LearningAMIをアップデート
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Black Belt Online Seminar re:Invent 2019 速報
re:Invent 2019 中のアップデート全般についてはBlack Belt
をご参照ください
https://aws.amazon.com/jp/blogs/news/webinar-bb-aws-reinvent-2019update-2019/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
オンライン re:Cap イベント
領域ごとのre:Capイベントも実施予定
https://aws.amazon.com/jp/about-aws/events/2019/reinvent-2019-recap/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
アップデードだけではない re:Invent の魅力
サービス自体だけでなく、アーキテクチャやユースケース
についても学ぶことができる
• セッションガイド(動画へのリンクあり)
• https://www.portal.reinvent.awsevents.com/connect/search.w
w
• スライド一覧
• https://aws.amazon.com/jp/events/events-content/
• HPC ユーザー向け Meet-up イベントも開催
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Key Note: Monday Night Live
https://www.youtube.com/watch?v=GPUWATKe15E
Peter DeSantis, VP of AWS Global Infrastructure and Customer Support
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
HPC 関連セッション Compute 200-300
CMP220 Remote desktop and application streaming with NICE DCV
CMP204 HPC on AWS: Innovating without infrastructure constraints
CMP213 Introducing Quantum Computing with AWS
CMP303 Powering next-gen Amazon EC2: Deep dive into the Nitro system
CMP304 AWS infrastructure for large-scale distributed training at Facebook AI
CMP306 Getting started with Arm-based Amazon EC2 instances
CMP307 Optimize ML training and inferencing using Amazon EC2
CMP311 How NextRoll leverages AWS Batch for daily business operations
CMP314 Accelerate applications using Amazon EC2 F1 FPGA instances
CMP315 Multi-node deep learning training in AWS
CMP316 How GE Aviation accelerates CFD simulations on AWS
CMP319 Deploy graphics desktops for content production on AWS
CMP322 Deep dive on Arm-based EC2 instances powered by AWS Graviton
CMP324 Deliver high performance ML inference with AWS Inferentia
CMP328 How Uber builds efficient & scalable autonomous vehicle simulations on AWS Batch
CMP333 Amazon Linux 2: Stability, security, and high performance
CMP334 Deep-Dive Into 100G networking & Elastic Fabric Adapter on Amazon EC2
CMP336 Save on big data workloads like Apache Spark and Hadoop
CMP343 Turbocharge your data center infrastructure with AMD
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
HPC 関連セッション Compute 400
CMP401 Running EC2 workloads at scale
CMP402 Setting up and optimizing your HPC cluster on AWS
CMP408 Using Elastic Fabric Adapter to scale HPC workloads on AWS
CMP409 Selecting the right instance for your HPC workloads
CMP411 Accelerate your C/C++ applications with Amazon EC2 F1 instances
CMP412 Orchestrating complex genomics pipelines with AWS Batch
CMP418 Using AWS ParallelCluster to simplify cluster management
CMP423 Hands-on deep learning inference with Amazon EC2 Inf1 instances
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
HPC 関連セッション Storage AI
STG237 Learn how GMI achieves high performance for its databases
STG349 Optimize video processing using Amazon FSx for Lustre
STG348 Optimize HPC workload storage using Amazon FSx for Lustre
AIM227 Powering global-scale predictive intelligence using HPC on AWS
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
HPC 関連セッション 業界ごと
• 製造
MFG203 Modernizing pharmaceutical manufacturing with IoT and AI/ML
MFG206 Leadership session: AWS for the semiconductor industry
MFG304 Electronic design automation: Scaling EDA workflows
MFG403 Telemetry as the workflow analytics foundation in a hybrid environment
MFG404 Using Amazon SageMaker to improve semiconductor yields
MFG405 Launch a turnkey scale-out compute environment in minutes on AWS
• 自動車
AUT307 Navigating the winding road toward driverless mobility
• 金融
FSI403 How to build a Financial Services HPC cluster on AWS
• ライフサイエンス・ヘルスケア
HLL12 Genomics workflow automation on AWS
LFS301 Genomics workflow management
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
CMP402 Setting up and optimizing your HPC
cluster on AWS
ParallelCluster のハンズオン、Western Digital での利用例
もご紹介
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Setting_up_and_optimizing_your_HPC_cluster_on_AWS_CMP402-R1.pdf
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
CMP408 Using Elastic Fabric Adapter to scale
HPC workloads on AWS
EFA 概要に加え、様々なソフトウェアでのベンチマーク
(Metacomp CFD++、LSTC LS-DYNA、ANSYS Fluent、
Siemens Star-CCM+、OpenFOAM)
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_2_Using_Elastic_Fabric_Adapter_to_scale_HPC_workloads_on_AWS_CMP408-R2.pdf
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
CMP304 AWS infrastructure for large-scale
distributed training at Facebook AI
Facebook における AI分野でのAWS活用
PyTorch でのEFA使用時のベンチマーク結果等
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_AWS_infrastructure_for_large-scale_distributed_training_at_Facebook_AI_CMP304-R1.pdf
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
CMP324 Deliver high performance ML inference
with AWS Inferentia
AWS Inferentia 概要に加え、AlexaでのAWS Inferentia 活用
Text-to-Speech 処理での良好な結果
https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Deliver_high_performance_ML_inference_with_AWS_Inferentia_CMP324-R1.pdf
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
MFG206 Leadership session: AWS for the
semiconductor industry
半導体設計分野でのAWS活用 arm、MediaTek がゲスト登壇
MediaTek では5G向けSoC向けに 12 Million core-hour 使用
https://d1.awsstatic.com/events/reinvent/2019/Leadership_session_AWS_for_the_Semiconductor_industry_MFG206-L.pdf
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AIM227 Powering global-scale predictive
intelligence using HPC on AWS
Maxar による気象シミュレーションのスパコンとの比較、
Descartes Labs でのリモートセンシング画像解析高速化
https://d1.awsstatic.com/events/reinvent/2019/Powering_global-scale_predictive_intelligence_using_HPC_on_AWS_AIM227-S.pdf
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AUT307 Navigating the winding road toward
driverless mobility
Mobileye での自動運転シミュレーションのための
AWS Batch 活用事例(最大同時 500,000 cores)
https://d1.awsstatic.com/events/reinvent/2019/Navigating_the_winding_road_toward_driverless_mobility_AUT307.pdf
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
まとめ
• 様々なCPU/アクセラレータに加え、EFAやFSx for Lustreな
どHPC向けの環境が整いつつある
• ワークロードによっては既存環境では困難であった規模の計
算も可能に
• re:Invent 2019 では様々なお客様のHPC利用実例が発表!
Let’s try HPC on AWS!

More Related Content

What's hot

15分でわかるAWSクラウドで コスト削減できる理由
15分でわかるAWSクラウドで コスト削減できる理由15分でわかるAWSクラウドで コスト削減できる理由
15分でわかるAWSクラウドで コスト削減できる理由
Yasuhiro Horiuchi
 

What's hot (20)

Reinvent2017 recap-overview-pdf
Reinvent2017 recap-overview-pdfReinvent2017 recap-overview-pdf
Reinvent2017 recap-overview-pdf
 
AWS サービスアップデートまとめ re:Invent 2017 直前編
AWS サービスアップデートまとめ re:Invent 2017 直前編AWS サービスアップデートまとめ re:Invent 2017 直前編
AWS サービスアップデートまとめ re:Invent 2017 直前編
 
AWSデータベースアップデート2017
AWSデータベースアップデート2017AWSデータベースアップデート2017
AWSデータベースアップデート2017
 
AWS BlackBelt AWS上でのDDoS対策
AWS BlackBelt AWS上でのDDoS対策AWS BlackBelt AWS上でのDDoS対策
AWS BlackBelt AWS上でのDDoS対策
 
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
 
AWS Black Belt Online Seminar 2016 Amazon EMR
AWS Black Belt Online Seminar 2016 Amazon EMRAWS Black Belt Online Seminar 2016 Amazon EMR
AWS Black Belt Online Seminar 2016 Amazon EMR
 
AWSで実現するバックアップとディザスタリカバリ
AWSで実現するバックアップとディザスタリカバリAWSで実現するバックアップとディザスタリカバリ
AWSで実現するバックアップとディザスタリカバリ
 
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
 
15分でわかるAWSクラウドで コスト削減できる理由
15分でわかるAWSクラウドで コスト削減できる理由15分でわかるAWSクラウドで コスト削減できる理由
15分でわかるAWSクラウドで コスト削減できる理由
 
AWS Black Belt Online Seminar 2018 Amazon WorkSpaces
AWS Black Belt Online Seminar 2018 Amazon WorkSpacesAWS Black Belt Online Seminar 2018 Amazon WorkSpaces
AWS Black Belt Online Seminar 2018 Amazon WorkSpaces
 
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
 
これからのクラウドネイティブアプリケーションの話をしよう
これからのクラウドネイティブアプリケーションの話をしようこれからのクラウドネイティブアプリケーションの話をしよう
これからのクラウドネイティブアプリケーションの話をしよう
 
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
 
AWS Black Belt Online Seminar 2017 AWS for Game Developers
AWS Black Belt Online Seminar 2017 AWS for Game DevelopersAWS Black Belt Online Seminar 2017 AWS for Game Developers
AWS Black Belt Online Seminar 2017 AWS for Game Developers
 
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
 
AWS Wavelengthと大阪リージョンのご紹介20210414
AWS Wavelengthと大阪リージョンのご紹介20210414AWS Wavelengthと大阪リージョンのご紹介20210414
AWS Wavelengthと大阪リージョンのご紹介20210414
 
AWS Black Belt Online Seminar 2017 Amazon EC2
AWS Black Belt Online Seminar 2017 Amazon EC2AWS Black Belt Online Seminar 2017 Amazon EC2
AWS Black Belt Online Seminar 2017 Amazon EC2
 
Aws説明資料
Aws説明資料Aws説明資料
Aws説明資料
 
データレイクを基盤としたAWS上での機械学習サービス構築
データレイクを基盤としたAWS上での機械学習サービス構築データレイクを基盤としたAWS上での機械学習サービス構築
データレイクを基盤としたAWS上での機械学習サービス構築
 
Long hit strategy-gamingtechnight-2
Long hit strategy-gamingtechnight-2Long hit strategy-gamingtechnight-2
Long hit strategy-gamingtechnight-2
 

Similar to JAWS-UG HPC #17 - HPC on AWS @ 2019

20120821 pronet study
20120821 pronet study20120821 pronet study
20120821 pronet study
Six Apart
 
20130817 windows azure最新情報(福井)
20130817 windows azure最新情報(福井)20130817 windows azure最新情報(福井)
20130817 windows azure最新情報(福井)
Hirano Kazunori
 
Amazon EC2 HPCインスタンス - AWSマイスターシリーズ
Amazon EC2 HPCインスタンス - AWSマイスターシリーズAmazon EC2 HPCインスタンス - AWSマイスターシリーズ
Amazon EC2 HPCインスタンス - AWSマイスターシリーズ
Amazon Web Services Japan
 

Similar to JAWS-UG HPC #17 - HPC on AWS @ 2019 (20)

Migration to AWS part2
Migration to AWS part2Migration to AWS part2
Migration to AWS part2
 
20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services
 
20190305_AWS-Blackbelt-EC2.pdf
20190305_AWS-Blackbelt-EC2.pdf20190305_AWS-Blackbelt-EC2.pdf
20190305_AWS-Blackbelt-EC2.pdf
 
EditShare システムの紹介
EditShare システムの紹介EditShare システムの紹介
EditShare システムの紹介
 
IBM Cloud 最新アップデート (2020年10月)
IBM Cloud 最新アップデート (2020年10月)IBM Cloud 最新アップデート (2020年10月)
IBM Cloud 最新アップデート (2020年10月)
 
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCacheAWS Black Belt Online Seminar 2017 Amazon ElastiCache
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
 
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS GlueModernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
 
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
 
Antenna 20180306 AzureのIaaSで構築する、シンプルなWebサーバ環境
Antenna 20180306 AzureのIaaSで構築する、シンプルなWebサーバ環境Antenna 20180306 AzureのIaaSで構築する、シンプルなWebサーバ環境
Antenna 20180306 AzureのIaaSで構築する、シンプルなWebサーバ環境
 
[Cloud OnAir] GCP で誰でも始められる HPC 2019年5月9日 放送
[Cloud OnAir] GCP で誰でも始められる HPC 2019年5月9日 放送[Cloud OnAir] GCP で誰でも始められる HPC 2019年5月9日 放送
[Cloud OnAir] GCP で誰でも始められる HPC 2019年5月9日 放送
 
Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会
 
[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料
[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料
[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料
 
JAWS-UG アーキテクチャ専門支部 re:Invent Management Tools ダイジェスト
JAWS-UG アーキテクチャ専門支部 re:Invent  Management Tools ダイジェストJAWS-UG アーキテクチャ専門支部 re:Invent  Management Tools ダイジェスト
JAWS-UG アーキテクチャ専門支部 re:Invent Management Tools ダイジェスト
 
20120821 pronet study
20120821 pronet study20120821 pronet study
20120821 pronet study
 
20230418_JAWS-AIML-EC2-Trn1-Inf2.pdf
20230418_JAWS-AIML-EC2-Trn1-Inf2.pdf20230418_JAWS-AIML-EC2-Trn1-Inf2.pdf
20230418_JAWS-AIML-EC2-Trn1-Inf2.pdf
 
ゲームインフラと解析基盤 そのものの考え方を変えるAWS
ゲームインフラと解析基盤 そのものの考え方を変えるAWSゲームインフラと解析基盤 そのものの考え方を変えるAWS
ゲームインフラと解析基盤 そのものの考え方を変えるAWS
 
re:Grouth 2020 : AWS Infrastrucuter Serviceの進化 2020
re:Grouth 2020 : AWS Infrastrucuter Serviceの進化 2020re:Grouth 2020 : AWS Infrastrucuter Serviceの進化 2020
re:Grouth 2020 : AWS Infrastrucuter Serviceの進化 2020
 
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
 
20130817 windows azure最新情報(福井)
20130817 windows azure最新情報(福井)20130817 windows azure最新情報(福井)
20130817 windows azure最新情報(福井)
 
Amazon EC2 HPCインスタンス - AWSマイスターシリーズ
Amazon EC2 HPCインスタンス - AWSマイスターシリーズAmazon EC2 HPCインスタンス - AWSマイスターシリーズ
Amazon EC2 HPCインスタンス - AWSマイスターシリーズ
 

JAWS-UG HPC #17 - HPC on AWS @ 2019

  • 1. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 2019年12月20日 Daisuke Miyamoto HPC Solutions Architect JAWS HPC支部 20191220 HPC on AWS @ 2019 30分でわかるクラウドHPCの現在
  • 2. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 自己紹介 ❏ 名前 宮本 大輔 (みやもと だいすけ) ❏ 所属 アマゾン ウェブ サービス ジャパン 株式会社 技術統括本部 HPC ソリューション アーキテクト ❏ 好きな AWS サービス ❖ AWS ParallelCluster ❖ Amazon FSx for Lustre ❖ AWS Snowball シリーズ
  • 3. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 本日の概要 • HPC関連アップデート • SC19 • re:Invent 2019
  • 4. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. HPC関連アップデート
  • 5. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS におけるHPC関連サービス コンピュート Amazon EC2 Enhanced Networking Placement Group ネットワーク Elastic Fabric Adapter 可視化 Amazon AppStream 2.0 NICE-DCV スポットインスタンスの活 用で大幅なコスト減も可能 NVIDIA Tesla V100 搭載 EC2インスタンスの基盤上の 配置を制御してネットワーク を高速化 フルマネージドのアプ リケーションストリー ミングサービス 管理自動化 AWS ParallelCluster AWS Batch AWS上に HPC クラスタを構築 AWS BatchやSGEに対応 スケーラブルなバッチコ ンピューティングジョブ をフルマネージドで管理 用途に応じて多様なイ ンスタンスを利用可能 な仮想サーバサービス SR-IOVによるCPU負荷が低く パフォーマンスの高いネット ワーク仮想化 libfabric 対応のアダプタにより MPI 利用のアプリケーション等 を高速化 Xilinx Virtex UltraScale+ 搭載 100 Gbps の ネットワーク帯域 GPUアクセラレーションに対 応し、インタラクティブなア プリケーションに適したデス クトップ仮想化 ストレージ FSx for Lustre S3連携可能な高速な分散 ストレージをフルマネー ジドで提供
  • 6. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. コンピュート • NVIDIA T4 搭載 G4 インスタンス ローンチ • AMD EPYC Roma 搭載 C5a/C5ad/C5an/C5adn 発表 • 推論専用チップ AWS Inferentia 搭載 Inf1 インスタンス ローンチ • AWS Graviton 2 プロセッサ 発表、C6g インスタンスプ レビュー開始 • Amazon Braket プレビュー開始 • 新しいEC2購入オプション Savings Plans
  • 7. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. NVIDIA T4 GPU 搭載 EC2 G4インスタンス ローンチ NVIDIA T4 GPU を搭載したインスタンスで、T4 は次世代の320 Turing Tensor Coreと 2,560 CUDA Coreおよび16GBのGPUメモリを搭載したGPU 機械学習のトレーニングと推論、ビデオトランスコーディング、ゲームストリーミング、 3Dなどの高度なリモートグラフィックス処理といったアプリケーションを高速化 東京リージョンを含む8つのAWSリージョンで利用可能 https://aws.amazon.com/jp/about-aws/whats-new/2019/09/introducing-amazon-ec2-g4-instances-the-most-cost-effective-gpu-platform/ https://aws.amazon.com/jp/blogs/news/now-available-ec2-instances-g4-with-nvidia-t4-tensor-core-gpus/ インスタンス名 T4 GPU vCPU RAM ローカルスト レージ EBS帯域幅 ネットワーク帯域 幅 シングル GPU g4dn.xlarge 1 4 16 GiB 1 x 125 GB 最大 3.5 Gbps 最大 25 Gbps g4dn.2xlarge 1 8 32 GiB 1 x 225 GB 最大 3.5 Gbps 最大 25 Gbps g4dn.4xlarge 1 16 64 GiB 1 x 225 GB 最大 3.5 Gbps 最大 25 Gbps g4dn.8xlarge 1 32 128 GiB 1 x 900 GB 7 Gbps 50 Gbps g4dn.16xlarge 1 64 256 GiB 1 x 900 GB 7 Gbps 50 Gbps マルチGPU g4dn.12xlarge 4 48 192 GiB 1 x 900 GB 7 Gbps 50 Gbps g4dn.metal (今後リリース予定) 8 96 384 GiB 2 x 900 GB 14 Gbps 100 Gbps
  • 8. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AMD EPYC Rome 搭載 C5a/C5adインスタンス発表 第2世代のAMD EPYC “Rome”を搭載したインスタンス ファミリC5aとC5adが近日登場予定 8つのサイズのインスタンスタイプが提供され、 最大 192 vCPU / 384GiBのメモリを利用可能 c5adでは最大で7.6TiBのローカルNVMeストレージを搭 載し、動画エンコーディングをはじめとするメディア処 理などに最適 ベアメタルインスタンス(c5an.metal, c5adn.metal)も用 意され、類似タイプの倍のvCPU/メモリを利用できる c5an.metal/c5adn.metal は EFAにも対応予定 https://aws.amazon.com/blogs/aws/in-the-works-new-amd-powered-compute-optimized-ec2-instances-c5a-c5ad/
  • 9. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 機械学習推論用の独自プロセッサ:AWS Inferentia AWSによる独自設計推論プロセッサ • EC2 Inf1 インスタンスとして利用可能 • Inf1.24xlarge では16 チップ搭載 • 4 Nuronコア / チップ • チップ当たり最大128 TOPS • 2ステージ メモリハイアラーキー • 大容量オンチップ キャッシュとDRAMメモリ • FP16, BF16, INT8 データタイプをサポート • FP32で構築された学習モデルをBF16で実行可能 • 高速チップ間通信をサポート • SDKはTensorFlow, MXNet, PyTorchをサポート • https://github.com/aws/aws-neuron-sdk https://aws.amazon.com/jp/machine-learning/inferentia/
  • 10. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 64bit ARM ベースのプロセッサ:AWS Graviton2 • AWSが独自に設計したARM ベースのプロセッサ • 64 コア (ARM Neoverse N1コア)、Arm v8.2準拠 • No SMT、No NUMA • 64KB L1 D/I、1MB L2キャッシュ / vCPU、32MB LLC • 64コア間は ~2TB/s メッシュ型インタコネクトで接続 • 8 x DDR-3200チャネル (> 200GB/s) • インスタンス上のDRAMメモリの内容はAES-256で暗号化 • 暗号鍵はインスタンス起動時に生成、起動インスタンス以外か らメモリを読み取ることは不可 • 64レーン PCIe Gen4 • Amazon EC2 A1インスタンスに搭載された初代Gravitonプロセッサ と比較し、4倍のコア数、7倍の性能、5倍のメモリ帯域、~2倍の vCPU当たりの性能 7nmプロセスによる AWS独自設計プロセッ サ https://aws.amazon.com/jp/ec2/graviton/
  • 11. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Graviton 2搭載インスタンス提供をプレアナウンス AWS Graviton2を搭載した汎用、コンピュート最適化、メ モリ最適化インスタンスを発表 • 汎用(M6g, M6gd) : 1-64vCPU, Max 256GiB RAM • コンピュート最適化(C6g, C6gd) : 1-64vCPU, Max 128GiB RAM • メモリ最適化(R6g, R6gd) : 1-64vCPU, Max 512GiB RAM • 各インスタンスは最大25Gbpsのネットワーク帯域と、最大18Gbps のEBS帯域を持つ • ローカルNVMe SSDをサポートするオプションを用意 (M6gd, C6gd, R6gd) Amazon Linux 2, Ubuntu, Red Hat, SUSE, Fedora, Debian, FreeBSDといった 複数のLinux/Unixディストリビューションを選択可能 Docker, Amazon ECS, Amazon Elastic Kubernetes Serviceといったコンテナ サービスを選択可能
  • 12. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Graviton 2搭載 M6gインスタンス 既存のインスタンスと比較しコストパフォーマン スが最大40%向上 プレビューアクセスのリクエストを受付中 • https://aws.amazon.com/jp/ec2/instance-types/m6/ インスタンスタ イプ vCPU数 メモリ (GiB) NW帯域 (Gbps) EBS帯域 (Gbps) m6g.medium 1 4 Max 10 Max 4.75 m6g.large 2 8 Max 10 Max 4.75 m6g.xlarge 4 16 Max 10 Max 4.75 m6g.2xlarge 8 32 Max 10 Max 4.75 m6g.4xlarge 16 64 Max 10 4.75 m6g.8xlarge 32 128 12 9 m6g.12xlarge 48 192 20 13.5 m6g.16xlarge 64 256 25 18 •SPECjvm® 2008: +43% (推定) •SPEC CPU® 2017 integer: +44% (推定) •SPEC CPU 2017 floating point: +24% (推定) •NginxでのHTTPSロードバランシング: +24% •Memcached: +43% かつレイテンシの短縮 •X.264ビデオエンコーディング: +26% •Cadence XcelliumによるEDAシミュレーション: +54% https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Deep_dive_on_Arm- based_EC2_instances_powered_by_AWS_Graviton_CMP322-R1.pdf
  • 13. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. https://aws.amazon.com/braket/hardware-providers/ 量子コンピューティング環境をマネージドで提供 • 量子ビットと量子回路を体験する Amazon Braket SDK を提供 • Notebook インターフェースで、簡単に Braket にアクセス • 量子回路のシミュレーション環境下で回路設計を行い、実際の量子デ バイスの上で別途量子計算を実行する 複数種の量子コンピューターへのアクセスを提供 • ゲートベース量子コンピュータ • Rigetti : 超伝導量子ビット (The Rigetti 16Q Aspen-4) • IonQ : イオントラップ量子ビット (IonQ linear trap) • 量子アニーリング • D-Wave : 超伝導量子ビット(D-Wave 2000Q) Amazon Braket プレビュー開始
  • 14. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. https://aws.amazon.com/quantum-solutions-lab/ AWS量子コンピューティングセンター • カリフォルニア工科大学(Caltech)に隣接する量子研究センター • 世界をリードする量子コンピューティングの研究者とエンジニアを集めて、量子コンピュー ティングハードウェアとソフトウェアの開発を加速します Amazon Quantum Solutions Lab • AWSの顧客をAmazonの量子コンピューティングエキスパートと非常に厳選されたコンサル ティングパートナーと結びつける新しいプログラム • 計算化学、機械学習、最適化など、さまざまな専門分野を持つ企業と提携 • 量子コンピューティングの専門家が、顧客のビジネスにとって最も有望な近い将来の量子コン ピューティングソリューションを調査し、発見します AWSの量子コンピューティングへの取り組み
  • 15. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. EC2 購入オプション オンデマンドインスタンス 長期コミット無し、使用分への支払い(秒 単位/時間単位)。Amazon EC2の定価 スパイクするようなワークロー ド リザーブドインスタンス 1年/3年の長期コミットをする代わり に大幅なディスカウント価格 一定の負荷の見通しがある ワークロード スポットインスタンス Amazon EC2の空きキャパシティを活 用し、最大90%値引き。中断が発生す ることがある 中断に強く、かつ様々なイ ンスタンスタイプを活用で きるワークロード HPC等では特にスポットインスタンスを活用することで コストパフォーマンスの良い計算が可能
  • 16. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Savings Plans 提供開始 インスタンスタイプ・台数を事前に決めるのではなく 一時間あたりの利用金額をコミットしていただくことでリザーブドイ ンスタンスよりも高い柔軟性を提供 • Compute Savings Plans: 最大の柔軟性を提供し、コンバーティブ ル RI と同様に最大 66% の値引き • インスタンスファミリー: 例 C5 から M5 に移行 • リージョン: 例 欧州 (アイルランド) から欧州 (ロンドン) への変更 • OS: 例 Windows から Linux への変更 • コンピューティングオプション: 例 EC2 から Fargate に移行 • EC2 Savings Plans: 選択されたリージョン・インスタンスファミ リー で最大 72% (スタンダード RI と同じ) の最も深い割引 • サイズ: 例 m5.xl から m5.4xl に移行 • OS: 例 m5.xl Windows から m5.xl Linux に変更 https://www.slideshare.net/AmazonWebServicesJapan/20191212-savings-plans
  • 17. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ネットワーク • Elastic Fabric Adapter 利用事例の増加
  • 18. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon EC2インスタンス ネットワーク EC2ネットワーク帯域は次々拡張され、現在は最大 100 Gbps
  • 19. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. EC2の高性能ネットワーク技術 • 拡張ネットワーキング • SR-IOVに対応し、仮想化オーバーヘッドを低減することで低レイテ ンシでの通信が可能 • Cluster Placement Group • インスタンス間の通信を最適化することで広帯域、低レイテンシ、高 PPS (packets per seconds) での通信を実現 • Elastic Fabric Adapter • HPC向けに、MPI (Message Passing Interface) やNCCL (NVIDIA Collective Communications Library) などの libfabric 対応のアプリ ケーションでの通信をより低レイテンシ化 http://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/enhanced-networking.html
  • 20. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Elastic Fabric Adapter Userspace Kernel Without EFA With EFA MPIを使用するアプリケーションで低レイテンシでのノード間通信を実現
  • 21. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. SRD: Scalable Reliable Datagram • AWS のデータセンターネットワーク に適したプロトコル • Out-of-order delivery • Packet spraying over multiple path • Congestion control designed for large scale cloud https://www.openfabrics.org/wp-content/uploads/2019-workshop-presentations/205_RRaja.pdf https://en.wikipedia.org/wiki/Equal-cost_multi-path_routing
  • 22. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ANSYS Fluent での EFA Benchmark • External flow over a Formula-1 Race Car (140M cell mesh) • ~3,000 cores (~83 nodes) において C5n+EFA 使用時に~89% のスケール性 能 https://aws.amazon.com/jp/blogs/compute/running-ansys-fluent-on-amazon-ec2-c5n-with-elastic-fabric-adapter-efa/
  • 23. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. U.S. Navy Research Lab. による気象予測 https://www.slideshare.net/insideHPC/navgem-on-the-cloud-computational-evaluation-of-cloud-hpc-with-a-global-atmospheric-model • NAVGEMによる高解像 度気象予測シミュレー ション • C5n + EFA により1000+ コア規模までスケール • 試験的なI/O testではFSx for Lustreにより高い性 能が得られた (右グラ フはI/O無し)
  • 24. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. P3dnによる分散機械学習 • 機械学習のトレーニング時に重要となるAll-reduceのベンチマーク 及び、FAIRSEQ(Facebookの開発したseq-to-seqリファレンス実 装)のトレーニングについても256 GPU規模までスケール https://aws.amazon.com/jp/blogs/compute/optimizing-deep-learning-on-p3-and-p3dn-with-efa/
  • 25. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ストレージ • EBS optimized インスタンスの最大帯域の増加 • FSx for Lustre 新機能のアナウンス
  • 26. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. EBS optimized インスタンスの最大帯域の増加 • Nitro ベースのインスタンスでEBS専用帯域が36%拡大 し、最大19Gbpsに • 新しい、C5/C5d/C5n, M5/M5d/M5n/M5dn, R5/R5d/R5n/R5dn, P3dn インスタンスおよび、6, 9, and 12 TB Amazon EC2 High Memory instancesで対応 https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/ebs-optimized.html
  • 27. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon FSx for Lustre コンピュートインテンシブワークロードのための フルマネージドな並列ファイルシステム 既存のアプリケーション との互換性 シンプル フルマネージド データレポジトリとの シームレスな統合 パフォーマンス コスト最適化 セキュリティ コンプライアンス https://www.slideshare.net/AmazonWebServicesJapan/20190319-aws-black-belt-online-seminar-amazon-fsx-for-lustre
  • 28. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. FSx for Lustre Performance https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Amazon_S3_&_FSx_for_Lustre_Deep_dive_on_high-performance_file_storage_STG307-R1.pdf
  • 29. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. FSx for Lustre Updates https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Amazon_S3_&_FSx_for_Lustre_Deep_dive_on_high-performance_file_storage_STG307-R1.pdf
  • 30. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 管理自動化(オーケストレーション) • AWS ParallelCluster 2.5.0 リリース • AWS Solutions: Scale-out Computing on AWS (SOCA)リ リース
  • 31. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ジョブキューを監視して計算ノードを自動でスケールさせる クラスターを簡単に構成 オープンソースソースのプロジェクト で下記より誰でも入手可能: https://github.com/aws/aws- parallelcluster 選択できるOS環境: -Amazon Linux -CentOS 6 or 7 -Ubuntu 14.04 or 16.04 選択できるジョブスケジューラ: -SGE -Torque -Slurm -awsbatch AWS ParallelCluster
  • 32. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ParallelCluster 設定例 [aws] aws_region_name = ap-northeast-1 [cluster slurm1] master_instance_type = c5.large compute_instance_type = c5.4xlarge max_queue_size = 10 initial_queue_size = 0 scheduler = slurm cluster_type = spot 33 configファイル例 https://docs.aws.amazon.com/ja_jp/parallelcluster/latest/ug/configuration.html pcluster create コマンド実行
  • 33. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS ParallelCluster 2.5.0 公開 • リモートデスクトップソリューションであるNICE-DCV を統合(CentOSのみ) • Ubuntu 18.04 に対応 • Slurm でのGPUリソース要求設定がより柔軟に • Intel MPI/Parallel Studio との連携を強化 • HyperThreading 設定が簡素化 https://github.com/aws/aws-parallelcluster/releases/tag/v2.5.0 https://aws.amazon.com/jp/blogs/opensource/deploy-hpc-cluster-remote-visualization-single-step-parallelcluster/
  • 34. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. NICE-DCV 利用イメージ
  • 35. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Solutions: Scale-out Computing on AWS ユーザー管理やコスト管理など複数人でクラスタを使用する際のリファレンス デザインとして、AWS Solutions: Scale-out Computing on AWS が公開 https://aws.amazon.com/jp/solutions/scale-out-computing-on-aws/
  • 36. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Scale-out Computing on AWS に含まれる内容 • Web フロントエンド • NICE-DCV 用ジョブ作成による可視化、Pre/Post 処理 • LDAPによるユーザー管理 • ジョブスケジューラからAWSのリソースを指定する方法 • AWS Budget とジョブスケジューラを組み合わせた予算管理 • Elasticsearch Service を使ったコスト可視化 • SES連携によるジョブのメール通知
  • 37. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. HPC関連アップデートまとめ • コンピュート • NVIDIA T4、AMD EPYC Roma や AWS Graviton 2 などの選択肢 • 推論専用チップ AWS Inferentia ローンチ • 量子コンピュータサービスのプレビュー開始 • 課金や台数制限などの使い勝手も改善 • ネットワーク • EFA 関連事例が増加 • ストレージ • FSx for Lustre のユーザビリティ関連アップデートアナウンス • 管理自動化 • 使い始めに最適なParallelClusterの頻繁なアップデートに加え、本番 環境での参考になるリファレンスデザインも公開
  • 38. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS@SC19
  • 39. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS ブースの様子 https://aws.amazon.com/jp/hpc/sc19/
  • 40. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS@SC19 HPC Wire Awards Best HPC Cloud Platform • Readers’ Choice: Amazon Web Services Best Use of HPC in the Cloud • Readers’ Choice: Using AWS, the Ocean Conservancy performed over 75 50-year ocean simulations to understand stressors on the ocean and the intricate and potentially catastrophic effects climate change is having on our underwater ecosystems. • Editors’ Choice: Astera Labs used Six Nines and a 100% AWS cloud-based EDA workflow to design the industry’s first PCIe 5.0 retimer. Best Use of HPC in Manufacturing • Editors’ Choice: Western Digital created a million-vCPU AWS cluster using Univa software to simulate crucial elements of upcoming head designs for its next- generation hard disk drives. Best Use of HPC in Financial Services • Editors’ Choice: W.R. Hambrecht developed and refined a machine learning-based investment assessment system, running on AWS infrastructure, that the company says has improved its rate of picking successful start-ups by 3X. Top 5 New Products or Technologies to Watch • Elastic Fabric Adapter from AWS https://www.hpcwire.com/off-the-wire/hpcwire-reveals-winners-of-the-2019-readers-and-editors- choice-awards-at-sc19-conference-in-denver-co/
  • 41. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. TOP500 on AWS • 179 位 Descartes Labs • 41,472 Cores / 1.9 PFLOPS • 前回(June 2019)ランキングで 136 位 • 482 位 Fastonetech • 中国のマルチクラウド・オンプレミスプラットフォーマー • 初ランクイン • 41,472 Cores / 1.2 PFLOPS • 合計 $5,530 と本番 4 時間の実行で完了 • https://medium.com/descarteslabs-team/thunder-from-the-cloud-40-000-cores-running-in-concert-on-aws-bf1610679978 • http://blog.fastonetech.com/top500/ • https://www.top500.org/system/179804 • https://www.top500.org/system/179693
  • 42. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. WekaIO on AWS がIO500で1位を獲得 ストレージソリューションベンダーであるWEKA.IOが AWS上でEC2 i3enを使用した分散ストレージによりIO500の1位を獲得 https://www.vi4io.org/io500/start https://www.weka.io/blog/weka-wins-the-io500-again-but-thats-only-part-of-the-story/
  • 43. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. マルチクラウドによる大規模GPU計算の実現 • ニュートリノ検出のための国際連携プ ロジェクトIceCubeのグループによる 観測データ解析 • AWS, Azure, GCPを合わせ、 51,500 GPU (V100, P100, P40, P4, T4, M60, K80, K520)を使用 • 3つの大陸に渡る28のリージョン • ジョブマネージャーはHTCondor • 計算リソースの理論性能 (単精度) は 最大時で380 PFLOPSに到達 https://aws.amazon.com/jp/blogs/publicsector/aws-helps-researchers-study-messages-from-the-universe/ https://www.hpcwire.com/2019/11/22/51000-cloud-gpus-converge-to-power-neutrino-discovery-at-the-south-pole/
  • 44. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. re:Invent 2019
  • 45. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Overview • AWS世界最大の「学習型」カンファ レンス • 2019年12月1日〜12月6日 • ラスベガスのホテル各所にて • 65,000+の参加者 • 日本からも1,700+の方がご参加 • 複数回の基調講演や3,000+のセッ ションをはじめ、パートナー展示 ブースや各種ハンズオン、認定試験 会場などをご提供 • そのほかにもネットワーキングパー ティーなど各種のイベントも
  • 46. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. re:Invent前に発表されたCompute関連サービス • 11/5 :C5dインスタンスにCascade Lakeを搭載した新しいインスタンスサイズが追加 [LINK] • 11/6 :コンピューティング使用料を確約することで割引を提供するSavings Plansを発表 [LINK] • 11/8 :Amazon EC2がMicrosoft SQL Server 2019をサポート [LINK] • 11/8 :AWS BatchがM60ならびにT4 GPUを搭載するG3、G3s、G4インスタンスをサポート [LINK] • 11/15:Elastic Fabric AdapterがIntel MPI 2019 (Update 6) ライブラリをサポート [LINK] • 11/18:AMD EPYC “Rome” 搭載 c5a/c5adインスタンス [LINK] • 11/18:ParallelCluster 2.5.0リリース [LINK] • 11/19:EC2インスタンスメタデータに関するアップデート [LINK] • 11/22:Amazon EC2のインスタンスタイプ検索機能 [LINK] • 11/25:バースト可能なEC2インスタンスの一括設定 [LINK] • 11/26:Elastic Inferenceがリソースタグに対応 [LINK]
  • 47. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 最近のスポットインスタンス・起動サービス関連アップデート一 覧• 08/26:Managed Spot training in Amazon SageMaker [LINK] • 09/27:ECS - Automated Draining for Spot Instances [LINK] • 10/24:AWS Batch – 新しい配分戦略 [LINK] • 11/07:Automated Draining for Spot Instance Nodes on Kubernetes [LINK] • 11/20:EC2 Auto Scaling - Maximum Instance Lifetime [LINK] • 11/20:EC2 Auto Scaling – Instance Weighting [LINK] • 11/25:Auto Scaling - Private Linkをサポート [LINK] • 11/25:Supporting Spot Instances in Elastic Beanstalk [LINK] • 12/03:ECS - Capacity Providers [LINK] • 12/03:Fargate Spot [LINK]
  • 48. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. re:Invent期間中に発表されたCompute関連サービス • 12/1 • Amazon EC2 Image Builderを発表 • 12/2 • Amazon Braketを発表 • 12/3 • Graviton 2搭載インスタンス提供をプレアナウンス • Amazon EC2のInf1インスタンスを発表 • AWS Compute Optimizerを発表 • AWS Nitro Enclavesを発表 • AWS Local Zonesを発表 • AWS Outpostsが一般利用可能に • AWSWavelengthを発表 • NitroベースのEC2インスタンスでEBS帯域が向上 • AWS Deep LearningAMIをアップデート
  • 49. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Black Belt Online Seminar re:Invent 2019 速報 re:Invent 2019 中のアップデート全般についてはBlack Belt をご参照ください https://aws.amazon.com/jp/blogs/news/webinar-bb-aws-reinvent-2019update-2019/
  • 50. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. オンライン re:Cap イベント 領域ごとのre:Capイベントも実施予定 https://aws.amazon.com/jp/about-aws/events/2019/reinvent-2019-recap/
  • 51. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. アップデードだけではない re:Invent の魅力 サービス自体だけでなく、アーキテクチャやユースケース についても学ぶことができる • セッションガイド(動画へのリンクあり) • https://www.portal.reinvent.awsevents.com/connect/search.w w • スライド一覧 • https://aws.amazon.com/jp/events/events-content/ • HPC ユーザー向け Meet-up イベントも開催
  • 52. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Key Note: Monday Night Live https://www.youtube.com/watch?v=GPUWATKe15E Peter DeSantis, VP of AWS Global Infrastructure and Customer Support
  • 53. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. HPC 関連セッション Compute 200-300 CMP220 Remote desktop and application streaming with NICE DCV CMP204 HPC on AWS: Innovating without infrastructure constraints CMP213 Introducing Quantum Computing with AWS CMP303 Powering next-gen Amazon EC2: Deep dive into the Nitro system CMP304 AWS infrastructure for large-scale distributed training at Facebook AI CMP306 Getting started with Arm-based Amazon EC2 instances CMP307 Optimize ML training and inferencing using Amazon EC2 CMP311 How NextRoll leverages AWS Batch for daily business operations CMP314 Accelerate applications using Amazon EC2 F1 FPGA instances CMP315 Multi-node deep learning training in AWS CMP316 How GE Aviation accelerates CFD simulations on AWS CMP319 Deploy graphics desktops for content production on AWS CMP322 Deep dive on Arm-based EC2 instances powered by AWS Graviton CMP324 Deliver high performance ML inference with AWS Inferentia CMP328 How Uber builds efficient & scalable autonomous vehicle simulations on AWS Batch CMP333 Amazon Linux 2: Stability, security, and high performance CMP334 Deep-Dive Into 100G networking & Elastic Fabric Adapter on Amazon EC2 CMP336 Save on big data workloads like Apache Spark and Hadoop CMP343 Turbocharge your data center infrastructure with AMD
  • 54. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. HPC 関連セッション Compute 400 CMP401 Running EC2 workloads at scale CMP402 Setting up and optimizing your HPC cluster on AWS CMP408 Using Elastic Fabric Adapter to scale HPC workloads on AWS CMP409 Selecting the right instance for your HPC workloads CMP411 Accelerate your C/C++ applications with Amazon EC2 F1 instances CMP412 Orchestrating complex genomics pipelines with AWS Batch CMP418 Using AWS ParallelCluster to simplify cluster management CMP423 Hands-on deep learning inference with Amazon EC2 Inf1 instances
  • 55. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. HPC 関連セッション Storage AI STG237 Learn how GMI achieves high performance for its databases STG349 Optimize video processing using Amazon FSx for Lustre STG348 Optimize HPC workload storage using Amazon FSx for Lustre AIM227 Powering global-scale predictive intelligence using HPC on AWS
  • 56. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. HPC 関連セッション 業界ごと • 製造 MFG203 Modernizing pharmaceutical manufacturing with IoT and AI/ML MFG206 Leadership session: AWS for the semiconductor industry MFG304 Electronic design automation: Scaling EDA workflows MFG403 Telemetry as the workflow analytics foundation in a hybrid environment MFG404 Using Amazon SageMaker to improve semiconductor yields MFG405 Launch a turnkey scale-out compute environment in minutes on AWS • 自動車 AUT307 Navigating the winding road toward driverless mobility • 金融 FSI403 How to build a Financial Services HPC cluster on AWS • ライフサイエンス・ヘルスケア HLL12 Genomics workflow automation on AWS LFS301 Genomics workflow management
  • 57. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. CMP402 Setting up and optimizing your HPC cluster on AWS ParallelCluster のハンズオン、Western Digital での利用例 もご紹介 https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Setting_up_and_optimizing_your_HPC_cluster_on_AWS_CMP402-R1.pdf
  • 58. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. CMP408 Using Elastic Fabric Adapter to scale HPC workloads on AWS EFA 概要に加え、様々なソフトウェアでのベンチマーク (Metacomp CFD++、LSTC LS-DYNA、ANSYS Fluent、 Siemens Star-CCM+、OpenFOAM) https://d1.awsstatic.com/events/reinvent/2019/REPEAT_2_Using_Elastic_Fabric_Adapter_to_scale_HPC_workloads_on_AWS_CMP408-R2.pdf
  • 59. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. CMP304 AWS infrastructure for large-scale distributed training at Facebook AI Facebook における AI分野でのAWS活用 PyTorch でのEFA使用時のベンチマーク結果等 https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_AWS_infrastructure_for_large-scale_distributed_training_at_Facebook_AI_CMP304-R1.pdf
  • 60. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. CMP324 Deliver high performance ML inference with AWS Inferentia AWS Inferentia 概要に加え、AlexaでのAWS Inferentia 活用 Text-to-Speech 処理での良好な結果 https://d1.awsstatic.com/events/reinvent/2019/REPEAT_1_Deliver_high_performance_ML_inference_with_AWS_Inferentia_CMP324-R1.pdf
  • 61. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. MFG206 Leadership session: AWS for the semiconductor industry 半導体設計分野でのAWS活用 arm、MediaTek がゲスト登壇 MediaTek では5G向けSoC向けに 12 Million core-hour 使用 https://d1.awsstatic.com/events/reinvent/2019/Leadership_session_AWS_for_the_Semiconductor_industry_MFG206-L.pdf
  • 62. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AIM227 Powering global-scale predictive intelligence using HPC on AWS Maxar による気象シミュレーションのスパコンとの比較、 Descartes Labs でのリモートセンシング画像解析高速化 https://d1.awsstatic.com/events/reinvent/2019/Powering_global-scale_predictive_intelligence_using_HPC_on_AWS_AIM227-S.pdf
  • 63. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AUT307 Navigating the winding road toward driverless mobility Mobileye での自動運転シミュレーションのための AWS Batch 活用事例(最大同時 500,000 cores) https://d1.awsstatic.com/events/reinvent/2019/Navigating_the_winding_road_toward_driverless_mobility_AUT307.pdf
  • 64. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. まとめ • 様々なCPU/アクセラレータに加え、EFAやFSx for Lustreな どHPC向けの環境が整いつつある • ワークロードによっては既存環境では困難であった規模の計 算も可能に • re:Invent 2019 では様々なお客様のHPC利用実例が発表! Let’s try HPC on AWS!

Editor's Notes

  1. AWS provides a wide breadth of services supporting compute-intensive workloads [Quickly walk through them] EFA network interface for compute instances AWSでは、クラウド上でこのようなコンピュートインテンシブワークロードを実現するために、様々なサービスを提供しています。 こちらに一例を示していますが、EC2を主軸に、 最近では
  2. Custom design based on high performance Systolic Array, Vector Engine and Stream processor to orchestrate traffic. Two stage memory hierarchy with large on-chip cache and commodity DRAM. Flexible to use with support for multiple data types: int8, FP16 and BF16 MIXED precision. Including FP32 auto-casting. When we designed Inferentia, we wanted it to be powerful, low latency, easy to use, to give our customers choices in how they run Inference workloads in AWS. Powerful: We pushed more than 100 Tera Ops/sec in each one of these chips, at low power, which allowed us to pack up to 16 of them in a single instance to have more than 2 Peta Ops/sec. That’s 2X more than our biggest P3 machines easy to use: Inferentia natively integrate with TF, PT and MXNet, and most, if not all customers don’t need to change their neural network or change the framework they use if it one of the 3 most popular ones. Training wherever you want, ideally on an Ec2 P3/P3dn and bring the models. 2-4 lines of code change and you can use inferentia easy to use 2: another thing our customers told us that they like to keep training in 32-bit floating point - that gives best accuracy. but 32-bit is expensive and high power, and its really hard to move to lower 16-bit floating point or Integers. So Inferentia is the first ML accelerator in AWS cloud that can take a 32-bit trained model and run them at speed of 16-bit using BFloat16 model Latency: many of our customers also challenged us to push latency as low as possible, to allow use of ML with user-facing and interactive applications like voice assistant, or search. And as ML gets more sophisticated, models get bigger, and bigger models end up taking more time load and process adding to latency. Allows to build servers that cascade multiple chips together, and split these big ML inference models across multiple chips. When we spread it across chips, we could cache the models inside our large on-chip memory, and then we dont need to reload the model. For Natural Language Understanding Models like BERT, this would cut the latency by two thirds, while achieving same throughput As models get more advanced and more accurate, their memory footprint increases, for example, BERT memory footprint is 680MByte. that can't fit into single chip, and almost every chip, inferentia or other will need to load the model from DRAM all the time. With Inferentia-CascadeMode, we are able to build distributed caching of the model across multiple chips so we won't need to access DRAM. 非公開情報?:48MBオンチップキャッシュ、256Gbps chip-to-chip interconnect
  3. 他に… ~30 Billionトランジスタ Dual SIMD units ML向け命令セット(int8, fp16) *BF16はまだ No NUMA concerns 1Tbit/s伸張圧縮アクセラレータ内蔵  圧縮15GB/s, 伸張11GB/s
  4. スポットインスタンスのご説明に入る前に、まずEC2の購入オプションについて整理したいと思います。EC2の購入には3通りの方法があり、オンデマンドインスタンス、リザーブドインスタンス、スポットインスタンスがあります。 オンデマンドインスタンスは長期コミットなし、使ったぶんだけ秒単位にお支払いいただくタイプの購入方法です。こちらが定価の価格とお考えください。負荷が読めず、スパイクするようなワークロードに特に向いています。 リザーブドインスタンスは1年、あるいは3年の稼働時間を長期コミットしていただく代わりに、最大75%の割引でご提供するものです。一定の負荷が見込めるようなワークロードがある場合にお勧めです。 スポットインスタンスはAmazon EC2サービスの空きキャパシティ、つまり未使用のインスタンスを活用しており、空きキャパシティがある限り最大90%の割引でご提供するものです。ただし後ほどご説明しますが、Amazon EC2は稼働中のスポットインスタンスを中断する場合があります。このような特徴があることから、割引率が最大限である一方、柔軟かつステートレスなワークロードに適した購入オプションであると言うことができます。 ここで強調しておきたいのは、どの購入オプションを選択した場合も、EC2インスタンスとしての性能には何ら違いがないという点です。言い換えれば、AWSでは購入オプションによってEC2在庫の機材を使い分ける、ということはしておりません。
  5. Parallel tightly-coupled computing applications are typically based on MPI. Here is a notional diagram of how mpi applications work today on AWS. This is the “before” chart, without EFA. MPI is a standardized message passing interface. There are a variety of versions of MPI, such as Open MPI and Intel MPI. These two we will be talking about later in the webinar.   MPI is the networking library used by the application to provide point to point communication between the different cores on which an application is running. MPI is the bottom of the user portion of the stack and it talks to the kernel tcp/ip stack. Which is at the top of the kernel stack. The kernel stack then talks to the ENA network driver which communicates with the hardware.  
  6. With Amazon FSx for Lustre, you get a fully managed Lustre parallel file system. Because it’s a Lustre file system, it’s performance is ideal for compute-intensive workloads with high-throughput and low-latency needs, like high performance computing, machine learning workloads, and media processing/rendering workflows. [Read through icons] Data repositories: S3 + on-prem data stores I’ll now talk about each of these in turn.