【JAWS-UG AI/ML支部第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと専用チップによるコスパ最適化のご紹介 ~

© 2022, Amazon Web Services, Inc. or its affiliates.
Amazon EC2 Trn1 GA !
〜 AWS が提供する ML 向けインスタンスの豊富な品揃えと
専⽤チップによるコスパ最適化のご紹介〜
常世⼤史 (Hiroshi Tokoyo)
アマゾンウェブサービスジャパン合同会社
2022年10⽉18⽇

本日お話しすること
• AWS が提供する ML 向けインスタンスの豊富な品揃え
• AWS 専⽤チップによるコスパ最適化
§ 10⽉10⽇⼀般提供開始 AWS Trainium 搭載 Trn1 インスタンス

⾃⼰紹介
名前︓常世⼤史 (とこよひろし)
所属︓Annapurna labs (アンナプルナラボ)
職務︓アンナプルナラボ発信技術の拡販、技術⽀援
経歴︓外資半導体企業を経て、2013年7⽉アンナプルナラボ
に参加。2015年2⽉の買収に伴い AWS の⼀員に
好きなAWSサービス︓
EC2 Inf1, Trn1, F1インスタンス
2021 AWS Summit Online Japan Keynote
Annapurna labs (アンナプルナラボ) とは...
AWS 内の半導体開発部⾨。 Graviton 64bit ARM
プロセッサや Inferentia, Trainium 深層学習専⽤
チップを開発

AWS が提供する ML 向けインスタンスの
豊富な品揃え

AWS の AI/ML スタック
広範かつ最も充実した機械学習の機能群
AI サービス
Code + DevOps
Amazon CodeGuru
Amazon DevOps Guru
Business processes
Amazon Personalize
Amazon Forecast
Amazon Fraud Detector
Amazon Lookout for Metrics
Search
Amazon Kendra
Industrial
Amazon Monitron
Amazon Lookout for Equipment
Amazon Lookout for Vision
Healthcare
Amazon HealthLake
Amazon Comprehend Medical
Amazon Transcribe Medical
SPECIALIZED
Chatbots
Amazon Lex
Text & Documents
Amazon Translate
Amazon Comprehend
Amazon Textract
Speech
Amazon Polly
Amazon Transcribe
Amazon Transcribe Call Analytics
Vision
Amazon Rekognition
AWS Panorama
CORE
ML サービス Manage
edge devices
Learn
ML
No-code ML
for business
analysts
Prepare
data
Store
features
Detect
bias
Build with
notebooks
Manage
& monitor
Train
models
Deploy in
production
Tune
parameters
Explain
predictions
CI/CD
Label
data
SAGEMAKER
CANVAS
SAGEMAKER
STUDIO LAB
AMAZON SAGEMAKER STUDIO IDE
ML フレームワーク
& インフラストラクチャ
TensorFlow,
PyTorch,
Apache MXNet,
Hugging Face
Amazon EC2 CPUs GPUs AWS Trainium
Elastic
inference
AWS Inferentia FPGA
Habana
Gaudi
Deep Learning
Containers (DLC)

AWS の AI/ML スタック
広範かつ最も充実した機械学習の機能群
AI サービス
Code + DevOps
Amazon CodeGuru
Amazon DevOps Guru
Business processes
Amazon Personalize
Amazon Forecast
Amazon Fraud Detector
Amazon Lookout for Metrics
Search
Amazon Kendra
Industrial
Amazon Monitron
Amazon Lookout for Equipment
Amazon Lookout for Vision
Healthcare
Amazon HealthLake
Amazon Comprehend Medical
Amazon Transcribe Medical
SPECIALIZED
Chatbots
Amazon Lex
Text & Documents
Amazon Translate
Amazon Comprehend
Amazon Textract
Speech
Amazon Polly
Amazon Transcribe
Amazon Transcribe Call Analytics
Vision
Amazon Rekognition
AWS Panorama
CORE
ML サービス Manage
edge devices
Learn
ML
No-code ML
for business
analysts
Prepare
data
Store
features
Detect
bias
Build with
notebooks
Manage
& monitor
Train
models
Deploy in
production
Tune
parameters
Explain
predictions
CI/CD
Label
data
SAGEMAKER
CANVAS
SAGEMAKER
STUDIO LAB
AMAZON SAGEMAKER STUDIO IDE
ML フレームワーク
& インフラストラクチャ
TensorFlow,
PyTorch,
Apache MXNet,
Hugging Face
Amazon EC2 CPUs GPUs AWS Trainium
Elastic
inference
AWS Inferentia FPGA
Habana
Gaudi
Deep Learning
Containers (DLC)
Amazon EC2 インスタンス
• ⽤途に合わた 500種類にも上る選択肢
• AI サービス、ML サービスを⽀える基盤
• 機械学習の環境を⾃在に構築して利⽤

機械学習向け Amazon EC2 インスタンスの選択肢
Ice Lake CPU
Cascade Lake CPU
Habana accelerator
EPYC CPU A100, A10G, T4G
GPUs
Graviton CPU
Inferentia Chip
Trainium Chip
UltraScale+ FPGA
アクセラレーテッドコンピューティング
C7g
C6g
C6i
C6a
M6g
M6i
M6a
R6g
R6i
R6a
F1 Inf1 G5g G5 P4 DL1 Trn1
Elastic Inference
従来の機械学習
推論学習
深層学習
学習 + 推論

GPUインスタンスの変遷
GPGPU
機械学習
グラフィック
機械学習(推論)
2017
2016
2010
NVIDIA Tesla
M2050
2013 2018 2019
NVIDIA Grid
K2
NVIDIA Tesla
M60
NVIDIA Tesla
T4
NVIDIA Tesla
V100 32GB
NVIDIA Tesla
V100 16GB
NVIDIA Tesla
K80
2020 2021
CG1
G2
NVIDIA Tesla
A100
AMD Radeon Pro
V520
G5
NVIDIA Tesla
A10G
G5g
NVIDIA Tesla
T4G (ARM CPU)
2022年6⽉
東京リージョンGA
2022年5⽉
P4de GPU インスタンスのプレビューを発表

Trn1
Inf1
機械学習向け Amazon EC2 インスタンスの選択肢
EPYC CPU A100, A10G, T4G
GPUs
Graviton CPU
Inferentia Chip
Trainium Chip
UltraScale+ FPGA
C7g
C6g
C6i
C6a
M6g
M6i
M6a
R6g
R6i
R6a
F1 G5g G5 P4 DL1
Elastic Inference
従来の機械学習
推論学習
深層学習
学習 + 推論
最新 Graviton3 プロセッサ搭載
bfloat16 と fp16 に対応し機械学習
ワークロードでは最大3倍高速に
AWS Trainium による学習コストの最適化
AWS クラウドで最高の性能、P4dインスタ
ンスと比較し最大50%低価格を実現
AWS Inferentia による推論コストの最
適化
G4インスタンスと比較し最大2.3倍の
スループット向上、推論処理当たり
最大70%低価格を実現
AWS独自開発プロセッサ Graviton2
によるコスト最適化
M/C/R6gインスタンスはx86ベースの
M/C/R5インスタンスと比較し最大
40％優れた価格性能を提供

推論ワークロードの要件
• 軽めのMLモデル、性能要件は低め
• CPUインスタンスでは性能要件を満たせないが、推論リクエストは
散発的に発⽣するためGPUインスタンスでは⾮効率
• 性能要件が⾼めのDLモデル（推論リクエストは常時発⽣ or ⼀度に
まとめてバッチ処理可能）
• NVIDIA CUDA, CuDNN, TensorRT、DALI等、NVIDIA社のライブ
ラリを利⽤したアプリケーションの最適化を想定
• 低遅延が求められ、カスタムでの前処理、後処理のハードウェア化
が必要、IP資産を保持（or 開発リソースあり）
• プロダクション時のコストとパフォーマンスの最適化が重要
• リアルタイム性能、低遅延が重要
Amazon EC2 インスタンスの選択指針（推論ワークロード）
• 全ての機械学習ワークロードに対してベストとなるインスタンスの選択肢は存在しない
• 可⽤性向上を⽬的とした複数種類のインスタンス利⽤も視野に
CPUインスタンス
CPUインスタンス
+Elastic Inference
GPUインスタンス
F1インスタンス
Inf1インスタンス

学習ワークロードの要件
• ⼩規模モデルで性能要件は低め
• NVIDIA社のGPU対応ライブラリ、
エコシステムを活⽤
• 開発容易性が重要
• 中⼤規模モデル
• 複数GPUを利⽤
• ⼩中規模モデル
• 単⼀GPUを利⽤
• コストパフォーマンス最適化が重
要
• GPUインスタンスに選択肢を追加、
プロダクション時の可⽤性を向上
• PyTorch, TensorFlowフレーム
ワークを利⽤
• 中⼤規模モデル
• 複数インスタンスの利⽤も
視野に
• ⼩中規模モデル
Amazon EC2 インスタンスの選択指針（学習ワークロード）
CPU インスタンス
GPU インスタンス
(p3.8/16xlarge, p3dn.24xlarge
p4d.24xlarge
g5.12/24/48xlarge)
GPU インスタンス
(p3.2xlarge,
g5.xlarge ~ 16xlarge)
DL1 インスタンス
(dl1.24xlarge)
Trn1 インスタンス
(trn1.32xlarge)
Trn1 インスタンス
(trn1.2xlarge)
• 全ての機械学習ワークロードに対してベストとなるインスタンスの選択肢は存在しない
• 可⽤性向上を⽬的とした複数種類のインスタンス利⽤も視野に

AWS 専⽤チップによるコスパ最適化

© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark.
AWS におけるシリコンイノベーション
re:Invent 2016 re:Invent 2017
re:Invent 2018 re:Invent 2019

© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark.
AWS におけるシリコンイノベーション
re:Invent 2021
re:Invent 2020

AWS 独⾃設計 ML チップ搭載インスタンス
Amazon EC2 Inf1 Amazon EC2 Trn1
AWS Inferentia によるML推論の最適化
G4インスタンスと比較し最大 2.3倍のスルー
プット向上、推論処理当たり最大 70%低価格
を実現
AWS Trainium によるML学習の最適化
GPUインスタンスと比較し最大 50%低価格
を実現
2022年10⽉10⽇⼀般提供開始

Amazon EC2 Inf1 インスタンス
• 機械学習の推論を⾼性能かつ低価格で実⾏するための
インスタンス
• AWS が独⾃設計した機械学習推論チップ
AWS Inferentia を搭載
• クラウド上で深層学習モデルを実⾏する上で最も低価
格を実現
• GPUインスタンスと⽐較し最⼤2.3倍のスループット
向上、推論処理当たり最⼤70%低価格
• ソフトウェアは主要な機械学習フレームワーク
(TensorFlow, PyTorch, MXNet)とシームレスに統合、
最⼩限のコード変更のみですぐに利⽤開始可能
EC2 Inf1インスタンス
クラウド上で高速かつ低価格な
推論を実現
https://aws.amazon.com/ec2/instance-types/inf1/

Amazon EC2 Inf1 インスタンス
• 4つのインスタンスサイズから選択可能
• インスタンス毎に1~16個の Inferentia 推論チップを搭載
• 6xlarge、24xlargeでは複数の Inferentia チップを⾼速チップ間通信で接続
• 最⼤ 100Gbps のネットワークインタフェース
• 2022年10⽉現在、東京を含む23のリージョンにて利⽤可能
• 他のEC2同様、複数の⽀払いオプションを⽤意
• オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plans
インスタンスサイズ Inferentia vCPU
メモリ
(GiB)
ストレージ
EBS帯域
(Gbps)
NW帯域
(Gbps)
オンデマンド価格
(USD/時間)
inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25 0.228
inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25 0.362
inf1.6xlarge 4 24 48 EBS Only 3.5 25 1.18
inf1.24xlarge 16 96 192 EBS Only 19 100 4.721
*2022年10⽉時点の⽶国東部 (バージニア北部)の価格

AWS Inferentia
• AWS による独⾃設計 ML 推論チップ
• 4 Neuron コア / チップ
• Tensor エンジン︓畳み込み等、⾏列演算に最適化
• Scalar エンジン︓ReLU等の活性化関数に最適化
• Vector エンジン︓Batch Normalization や Pooling 処理に最適化
• チップ当たり最⼤128 TOPS (2,000 TOPS @24xlarge)
• 2ステージメモリハイアラーキー
• ⼤容量オンチップキャッシュと 8GB DRAMメモリ
• FP16, BF16, INT8 データタイプをサポート
• FP32で構築された学習モデルをBF16で実⾏可能
• NeuronLink ⾼速チップ間通信
https://aws.amazon.com/machine-learning/inferentia/

最新G5インスタンスと⽐較し、最⼤68%の低コストを実現
$0.000
$0.150
$0.300
$0.450
G4dn.xl G5.xl Inf1.xl
Bert-Large
$0.000
$0.300
$0.600
$0.900
Yolov5
$0.000
$0.025
$0.050
$0.075
Resnet50
$0.000
$0.100
$0.200
$0.300
Bert-Base
-64% -42%
-49%
-68%
Bert-Large Bert-Base Yolov5 Resnet50
1M
推論当たりのコスト
(USD)
*G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載

0
400
800
1200
inf1.xl G5.xl g4dn.xl
Bert-Base
⾼性能と低コストを両⽴
$0.000
$0.100
$0.200
$0.300
Bert-Base
-68%
Cost
/
Million
Inferences
G4 と⽐較し、2.74倍のスループット
G5 と⽐較し、24% ⾼いスループットを実現
Throughput
(seq/sec)
G4 と⽐較し、84% の低コスト
G5 と⽐較し、68% の低コストを実現
-24%
1M
推論当たりのコスト
(USD)
*G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載
スループット
(seq/sec)

AWS Neuron
• Inferentia上での⾼性能推論を実現するためのSDK
Neuron コンパイラ
Neuron ランタイム
プロファイリングツール
主要なフレームワークを全てサポート
各フレームワーク、Neuron SDKは
DLAMI (AWS Deep Learning AMI)に
プリインストール
https://github.com/aws-neuron/aws-neuron-samples
https://awsdocs-neuron.readthedocs-hosted.com
AWS Neuron SDK
ドキュメント
サンプルコード

AWS Neuron コンパイラ
• わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向け
にコンパイル可能

様々なお客様でコストパフォーマンス最適化を実現
https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials
Hotpot.ai
Amazon
Rekognition

Amazon内での Inf1 活用事例
Amazon Alexa
実際の⼈間の会話のような⾃然な⾳声を⽣成する⾮常に複雑な⾳声合成
モデルを導⼊しており、全世界で1億台以上の Alexa デバイスをサポー
トしています。Inf1インスタンスにより、GPUインスタンスと⽐較して
運⽤コストを約30％削減し、推論レイテンシを25％改善することがで
きました
Amazon Robotics
私たちのシステムは 2022 年に 1,000 台以上の SageMaker ホストを使
⽤する予定です。AWS Inferentia は、私たちの機械学習モデルを再ト
レーニングすることなく、35% 低いコストと 20% ⾼いスループット
で、急速に増加するトラフィックに対応する機会を与えてくれます」
Amazon Prime Video
EC2 Inf1 インスタンスに画像分類機械学習モデルをデプロイしたところ、
パフォーマンスが 4 倍向上し、コストも最⼤ 40% 削減することができ
ました。

⽇本国内のお客様の声 Money Forward, Inc.
「当社の AI チャットボットサービスを Amazon EC2 Inf1 イン
スタンスに移⾏するのは簡単でした。2 か⽉以内に移⾏を完了し、
Amazon Elastic Container Service（ECS）を使⽤して AWS
Inf1 インスタンスで⼤規模なサービスを開始しました。Inf1 イ
ンスタンスあたり複数のモデルを提供することで、 (同等の GPU
ベースのインスタンスに⽐べて) 推論レイテンシを 97% 削減し、
推論コストを 50% 以上削減できました。」
https://aws.amazon.com/jp/builders-flash/202209/create-large-scale-inference-environment/

2022年10⽉10⽇ EC2 Trn1 インスタンス⼀般提供開始

Amazon EC2 Trn1 インスタンス
• AWSによってカスタム設計された⾼性能機械学習トレーニング
チップ AWS Trainium を搭載したインスタンス
• 最も費⽤効果の⾼いMLトレーニング性能を実現
• GPUインスタンスと⽐較し最⼤ 50%低価格を実現
• 最⼤16個の AWS Trainium アクセラレータ、512GB の⾼速
HBM2メモリ、8TB のローカル NVMe SSDを搭載
• 最⼤800Gbps の Elastic Fabric Adapter (EFA) ネットワーク帯域
• Trainium 間は超⾼速 NeuronLink で接続
• Tensorflow、PyTorchなど主要MLフレームワークをサポート
• Trn1上で学習し、デプロイ先は⾃由
インスタンスサイズ Trainium
アクセラレータ
メモリ (GB)
vCPU
メモリ
(GB)
NVMe SSD
(TB)
EBS帯域
(Gbps)
NW帯域
(Gbps)
オンデマンド価格
(USD/時間)
Trn1.2xlarge 1 32 8 32 0.5 最⼤ 20 最⼤ 12.5 1.34
Trn1.32xlarge 16 512 128 512 8 80 800 21.50
https://aws.amazon.com/jp/ec2/instance-types/trn1/ *2022年10⽉時点の⽶国東部 (バージニア北部)の価格

AWS Trainium
• AWS による第２世代独⾃設計 ML トレーニングチップ
• 2 Neuronコア / チップ
• Tensor エンジン︓畳み込み等、⾏列演算に最適化
• Scalar エンジン︓RELU等の活性化関数に最適化
• Vector エンジン︓Batch Normalizationやプーリング処理に最適化
• 組込型汎⽤DSP︓カスタムオペレータに対応
• 専⽤ collective compute エンジン
• 分散学習を⾏う際に、演算と通信をオーバーラップ
• 32GB HBM2E メモリスタック
• FP32, TF32, FP16, BF16, INT8 データタイプをサポート
• Configurable FP8、 Stochastic roundingにハードウェアで
対応
https://aws.amazon.com/machine-learning/trainium/

対応するデータタイプと性能⽐
FP32
P R E C I S I O N
R A N G E
S
TF32
BF16
FP16
cFP8
UINT8
0
1
2
3
4
BF16/FP16 TF32 FP32
Normalized
Performance
P3dn
P4d
Trn1
データタイプごとの性能 ( T F L O P S ) ⽐
NLP/DLRM
Computer
vision
>5x
>2.5x
1.4x
*P3dn: NVIDIA V100 GPU 搭載 P4d: NVIDIA A100 GPU 搭載
性
能
(
T
F
L
O
P
S
)
⽐

Petabits/s
throughput,
billions of
IOPS
Trn1
30K+ Trainium Chips
Trn1 Trn1 Trn1
Trn1
Trn1
Trn1
Trn1
EC2 UltraClusters
Petabit non-
blocking TOR
超⼤型モデルのための UltraCluster スケールアウト
• EC2 UltraClusterごとに3万以上のTrainiumアクセラレータを搭載
6.3 ExaFLOPS の演算性能を持つ世界最⾼⽔準の
スーパーコンピュータへのオンデマンドアクセス

Stochastic rounding (確率的な丸め処理)
• Round nearest even (標準的な丸め処理の⼿法)
• 端数は四捨五⼊
• 例）整数１に対して0.2を何度加えても結果は変わらない
• Stochastic rounding (確率的な丸め処理)
• 例）整数１に0.2を加える場合、80%の確率で１、20%の確率で２として丸め処理
実行例）BERT-Large pre-training
BF16 SRでは FP32
と同様の精度を維持
BF16 SRでは BF16 RNE
と同様のスピードを達成
精度 (Loss) スループット

AWS Neuron
• Trainium 上での⾼性能MLトレーニングを実現するためのSDK
https://github.com/aws-neuron/aws-neuron-samples
https://awsdocs-neuron.readthedocs-hosted.com
AWS Neuron SDK
ドキュメント
サンプルコード
主要なフレームワークを全てサポート
Neuron コンパイラ
Neuron ランタイム
プロファイリングツール

Example: BERT-Large pre-training
• Bring your own model

Example: BERT-Large pre-training
• Bring your own model
• JIT-compile to Trainium

Live Demo !!

参考情報

参考情報
https://aws.amazon.com/jp/ec2/instance-types/inf1/
https://aws.amazon.com/jp/machine-learning/inferentia/
https://aws.amazon.com/jp/ec2/instance-types/trn1/
https://aws.amazon.com/jp/machine-learning/trainium/
https://awsdocs-neuron.readthedocs-hosted.com/

参考情報 – AWS ブログ
https://aws.amazon.com/jp/blogs/news/aws-trainium-amazon-ec2-trn1-ml-training-part1/
https://aws.amazon.com/jp/builders-flash/202209/create-large-scale-inference-environment/
https://aws.amazon.com/jp/solutions/case-studies/amazon-robotics-case-study/
https://aws.amazon.com/jp/blogs/machine-learning/how-amazon-search-reduced-ml-inference-costs-by-85-with-aws-inferentia/
https://aws.amazon.com/jp/solutions/case-studies/finchcomputing-case-study/
https://aws.amazon.com/jp/blogs/news/inference-environment-using-aws-inferentia-and-amazon-ecs-with-aws-cdk-part1/
https://aws.amazon.com/jp/blogs/news/inference-environment-using-aws-inferentia-and-amazon-ecs-with-aws-cdk-part2/
https://medium.com/pytorch/democratizing-gpr-ground-penetrating-radar-with-deep-learning-feddd9d2286d

参考情報 – AWS ブログ
https://aws.amazon.com/jp/blogs/news/how-infojobs-adevinta-improves-nlp-model-prediction-performance-with-aws-inferentia-and-amazon-sagemaker/
https://aws.amazon.com/jp/blogs/startup/event-report-deep-learning-accelerator-instances/
https://aws.amazon.com/jp/blogs/news/ec2-event-nttpc-anymotion-inf1-costperformance-optimization/
https://aws.amazon.com/jp/blogs/news/choose-the-best-ai-accelerator-and-model-compilation-for-computer-vision-inference-with-amazon-sagemaker/
https://aws.amazon.com/jp/blogs/news/serve-3000-deep-learning-models-on-amazon-eks-with-aws-inferentia-for-under-50-an-hour/
https://aws.amazon.com/jp/blogs/news/scaling-ad-verification-with-machine-learning-and-aws-inferentia/
https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch-natural-language-processing-applications-out-of-
the-box-on-aws-inferentia/

【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専用チップによるコスパ最適化のご紹介 ~

More Related Content

What's hot

Similar to 【JAWS-UG AI/ML支部 第14回勉強会】Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと 専用チップによるコスパ最適化のご紹介 ~