20201008 AWS独自設計推論チップInferentiaとInf1インスタンス

© 2020, Amazon Web Services, Inc. or its Affiliates.
アマゾンウェブサービスジャパン株式会社
Annapurna Labs 常世⼤史
AWS独⾃設計推論チップInferentiaと
Inf1インスタンス
〜 Compute x AI/ML 「EC2でマシンラーニング︕」〜

⾃⼰紹介
名前︓常世⼤史 (とこよひろし)
所属︓アマゾンウェブサービスジャパン株式会社
アンナプルナラボ*
職務︓アンナプルナラボの技術拡販⽀援全般
• AWS Inf1, F1, ARMインスタンスの拡販、技術⽀援
• 国内外チップ外販ビジネスの技術⽀援
経歴︓外資半導体企業 FAE (Field Application Engineer)を経て、
2013年7⽉アンナプルナラボに参加。2015年2⽉の買収に
伴いAWSの⼀員となる。
好きなAWSサービス︓EC2 Inf1, F1, ARMインスタンス
*アマゾン内半導体開発部⾨。 Inferentia推論専⽤チップやGraviton 64bit ARMプロセッサを開発

Annapurna Labs – an Amazon Company since 2015
Graviton2
ARMプロセッサ
m6g
Inferentia
ML推論チップ
FPGA
F1インスタンスNitroカード
10/22 (⽊) Compute x AWS Graviton2
「Armプロセッサによるコスト最適化」開催︕

Agenda
• AWS独⾃設計推論チップInferentiaとInf1インスタンス
• AWS Neuron SDK
• Inf1インスタンス利⽤事例
• まとめ

AWS独⾃設計推論チップInferentiaと
Inf1インスタンス

機械学習における運⽤コスト
機械学習のプロダクション運⽤では推論コストが⼤部分を占める
AWS独⾃設計ASICによる推論コストの最適化
学習 (<10%)
推論 (>90%) ASIC GPU CPU
コストパフォーマンス
アプリケーション

Amazon EC2 Inf1インスタンス紹介
機械学習の推論を⾼性能かつ低価格で実⾏するためのインスタンス
• AWSが独⾃設計した機械学習推論チップAWS Inferentiaを搭載
• クラウド上で深層学習モデルを実⾏する上で最も低価格を実現
GPUインスタンスと⽐較し、推論処理当たり最⼤45%低価格
• ソフトウェアは主要な機械学習フレームワーク (TensorFlow,
PyTorch, MXNet)とシームレスに統合、最⼩限のコード変更のみ
ですぐに利⽤開始可能
AWS Inferentia
AWSが独自設計した
高性能機械学習推論チップ
EC2 Inf1インスタンス
クラウド上で高速かつ低価格な
推論を実現
https://aws.amazon.com/ec2/instance-types/inf1/

機械学習推論⽤プロセッサ︓AWS Inferentia
• AWSによる独⾃設計推論プロセッサ
• 4 Neuronコア / チップ
• チップ当たり最⼤128 TOPS (2,000 TOPS @24xlarge)
• 2ステージメモリハイアラーキー
• ⼤容量オンチップキャッシュとDRAMメモリ
• FP16, BF16, INT8 データタイプをサポート
• FP32で構築された学習モデルをBF16で実⾏可能
• ⾼速チップ間通信
https://aws.amazon.com/machine-learning/inferentia/
Inferentia
Neuron
コア
cache
Neuron
コア
cache
メモリ
Neuron
コア
cache
Neuron
コア
cache
メモリ
メモリメモリ

Neuronコアパイプライン - ⼤規模モデルを低遅延で推論
• ⼤規模モデルを低遅延で推論
Neuronコア間、チップ間をパイプラインモードで接続することにより、⼤規模モデルを各
オンチップキャッシュメモリ上に展開し、⾼スループット、低レイテンシを実現
Neuronコア
パイプライン

Inf1インスタンスの選択肢
• 4つのインスタンスサイズから選択可能
• 6xlarge、24xlargeでは複数のInferentiaチップを⾼速チップ間通信で接続
• インスタンス毎に1~16個のInferentia推論チップを搭載
• 最⼤100Gbpsのネットワークインタフェース
• Amazon SageMaker, Amazon ECS, Amazon EKSからも利⽤可能
インスタンスサイズ
Inferentia
チップ数
vCPU
メモリ
(GiB)
ストレージ
EBS帯域
(Gbps)
NW帯域
(Gbps)
inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25
inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25
inf1.6xlarge 4 24 48 EBS Only 3.5 25
inf1.24xlarge 16 96 192 EBS Only 19 100

Amazon EC2 Inf1 インスタンスタイプ
• 2020年10⽉現在11のリージョンにて利⽤可能
• ⽶国東部 (バージニア北部、オハイオ)、⽶国⻄部 (オレゴン)、欧州 (フランクフルト、
アイルランド、パリ)、アジアパシフィック (東京、シドニー、ムンバイ、シンガポール)、
南⽶ (サンパウロ)
• Inf1インスタンスでは他のEC2同様、複数の⽀払いオプションを⽤意
• オンデマンド、リザーブドインスタンス、スポットインスタンス
• Savings Planに対応
インスタンスサイズオンデマンド
スタンダード RI
(1YR, 40%割引)
スタンダード RI
(3YR, 60%割引)
inf1.xlarge $ 0.368/Hr $ 0.221/Hr $ 0.147/Hr
inf1.2xlarge $ 0.584/Hr $ 0.351/Hr $ 0.234/Hr
*2020年10⽉時点の⽶国東部 (バージニア北部)の価格

ML推論⽤途 - Inf1インスタンス
物体検出⾃然⾔語処理パーソナライズ
⾳声認識検索不正検出

クラウド上のML推論でベストプライスパフォーマンスを提供
• EC2 Inf1インスタンスはG4インスタンスと⽐較し、約30%⾼いスループット、
推論処理当たり最⼤45%低価格を実現
※BERTベースのモデルをTensorFlowで実⾏した結果
インスタンス
タイプ
スループット
(Seq/Sec)
OD価格
($/Hr)
1M 推論当た
りのコスト
スループット
Inf1 vs. G4
推論当たりのコスト
Inf1 vs. G4
inf1.xlarge ~360 $0.368 $0.284
38% 向上 49% 削減
g4dn.xlarge ~260 $0.526 $0.562
インスタンス
タイプ
スループット
(img/Sec)
OD価格
($/Hr)
1M 推論当た
りのコスト
スループット
Inf1 vs. G4
推論当たりのコスト
Inf1 vs. G4
inf1.xlarge 2,226 $0.368 $0.045
24% 向上 45% 削減
g4dn.xlarge 1,792 $0.526 $0.082
⾃然⾔語処理
※ResNet-50 モデルをTensorFlowで実⾏した結果画像分類

AWS Neuron SDK

AWS Neuron
Inferentia上での⾼性能推論を実現するためのSDK
github.com/aws/aws-neuron-sdk
AWS Neuron サポートフォーラム
forums.aws.amazon.com/forum.jspa?forumID=355
Neuron コンパイラ
Neuron ランタイム
プロファイリングツール
主要なフレームワークを全てサポート
各フレームワーク、Neuron SDKは DLAMI
(AWS Deep Learning AMI)にプリインストール

AWS Neuron
コンパイル
Neuronコンパイラ(NCC)
NEFFを出⼒
Neuronバイナリ
(NEFF)
デプロイ
Neuronランタイム
(NRT)
プロファイル
Neuronツール
C:¥>code --version
1.1.1

複数のモデルを
同時処理
Neuronコア
グループ
AWS Neuronコンパイラ
超低遅延と⾼いス
ループットの両⽴
Neuronコア
パイプライン
FP32で学習済みの
モデルを取り込み
BF16へ⾃動変換
FP32オート
キャスティング
⾃動的にニューラル
ネットワークの演算
を最適化
スマート
パーティショニング

Neuron SDK リリース状況と今後のロードマップ
September 22, 2020 リリース
• YOLO v3, v4, VGG16 正式対応
• SSD300, BERT性能向上
• Neuronモニタ機能搭載
August 8, 2020 リリース
• BERT性能向上
• Kubernetes スケジューラ拡張
• OpenPose (posenet) 正式対応
• PyTorch auto-partitioner 機能搭載
June 11, 2020 リリース
• EKS のInf1対応に合わせた機能追加
• OpenPose PoseNet 限定対応
May 11, 2020 リリース
• BERTlargeスループット等で⼤幅な性能向上
March 26, 2020 リリース
• SSD300 正式対応
Github上で開発中の追加機能に関するロードマップを公開
https://github.com/aws/aws-neuron-sdk/projects/2

Neuron GA以降の性能改善
TensorFlowを使⽤しエンドツーエンドでBERT-Large及びResNet50を実⾏した結果
0
500
1000
1500
2000
2500
3/12/2019 24/02/2020 24/04/2020
Images/Sec
ResNet50
0
50
100
150
200
250
300
350
400
3/12/2019 24/02/2020 24/04/2020
Seq/Sec
BERTLarge
60% 2X
2019/12 2020/02 2020/04 2019/12 2020/02 2020/04

Blog: Deploying TensorFlow OpenPose on Inf1
https://aws.amazon.com/jp/blogs/machine-learning/deploying-tensorflow-openpose-on-aws-inferentia-
based-inf1-instances-for-significant-price-performance-improvements/
• TensorFlow版OpenPoseをInf1上にデプロイし、G4dn上での実装とのコスト
パフォーマンス⽐較を実施
• G4dnよりも良好な性能を保ちつつも画像1,000枚当たり72％低いコストを実現

Blog: YOLOv4 model on AWS Inferentia
https://aws.amazon.com/jp/blogs/machine-learning/improving-performance-for-deep-learning-based-
object-detection-with-an-aws-neuron-compiled-yolov4-model-on-aws-inferentia/
• TensorFlow版YOLOv4をInf1上にデプロイし、G4dn上での実装とのコストパ
フォーマンス⽐較を実施
• G4dnと⽐較し1.85倍のスループット、画像1M枚当たり37％低いコストを実現
• 60%低いレイテンシ、レイテンシの変動は最⼩限

Inf1インスタンス利⽤事例

Amazon EC2 Inf1 インスタンス
を使⽤した Amazon サービス
〜Alexa ⾳声合成〜
Alexaは⾃然な⾳声を⽣成する⾮常に複雑な⾳声合成
(Text to Speech)モデルを導⼊し、1億台を超える
Alexaデバイスをグローバルに展開中
何千万⼈ものお客様へのサービスをさらに改善する
ため、応答時間と機械学習インフラストラクチャの
コストを継続的に改善していくことが重要

ニューラル⾳声合成(Text-to-Speech)のチャレンジ
対話システムに求められる低遅延
出⼒⾳声のストリーミングに求められる⾼スループット
コンテキスト⽣成はSequence-to-Sequenceの⾃⼰回帰モデル
推論処理ではメモリ帯域が性能限界
⾳声⽣成モデルの⾼い時間密度には⼀秒間の⾳声処理で90GFLOPsの演算量
が求められる
推論処理では演算性能が性能限界
EC2 GPUインスタンスを利⽤することで性能要求を満たすことは可能であ
るが、結果的に⾼い運⽤コストとなっていた

EC2 Inf1へのマイグレーション - アーキテクチャ
Inferentia1 Inferentia2
TTS Process
Vocoder 2
Vocoder 4
Vocoder 1
Vocoder 3
コンテキスト
⽣成
NeuronCore グループで実⾏
Neuron
Core
cache
Neuron Core パイプラインで実⾏
Neuron
Core
cache
Neuron
Core
cache
Neuron
Core
cache
Neuron
Core
cache
Neuron
Core
cache
Neuron
Core
cache
Neuron
Core
cache
メモリ帯域が性能限界
演算性能が性能限界

性能向上とコスト削減とを両⽴
100% 100%
75%
126%
37%
81%
0%
20%
40%
60%
80%
100%
120%
140%
⾳声⽣成コストレイテンシ
P3 G4 Inf1
Inf1インスタンスを使⽤することで、推論レイテンシを改善しながら、GPU
インスタンスよりも運⽤コストを約65％削減
低コスト

お客様の声
“Inf1インスタンスは⾼いパフォーマンスを提供し、推論モデルパイプラインの効率と効果
を向上させます。移⾏に要する⼿間もなく、以前のGPUベースのパイプラインと⽐較し
て、スループットが4倍向上し、パイプライン全体のコストが30％削減されています。"
Yaroslav Shakula, Chief Business Development Officer, INGA Technologies
“Amazon SageMakerを使⽤して、新しいAWS InferentiaベースのInf1インスタンスをリ
アルタイムのクラウド検出と画像品質スコアリングに採⽤することは迅速かつ簡単でした。
インスタンスタイプをInferentiaベースのInf1に変更し、パフォーマンスを40％改善、全体
のコストを23％削減しました。 ”
Adler Santos, Engineering Manager, SkyWatch
“AI アプリケーションを⼤規模にデプロイするために必要なパフォーマンスとコスト構造が
Inferentia によって得られると確信しているため、代替オプションを介して Inf1 インス
タンスを積極的に評価しています。“
Hiroyuki Umeda, Director & General Manager, Sales & Marketing Group, Digital
Media Professionals
“PyTorchベースのテキスト要約AIアプリケーションをテストしました。このアプリケー
ションは、⼤量のテキストを処理し、過去30年間の記事でトレーニングされたヘッドライン
と要約⽂を⽣成します。 Inferentiaを使⽤して、CPUベースのインスタンスよりもコストを
1桁削減しました。この劇的なコスト削減により、以前は経済的に実現可能ではないと信じ
ていた複雑なモデルを⼤規模に展開できるようになります。”
Hideaki Tamori, PhD, Senior Administrator, Media Lab, The Asahi Shimbun Company
https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials

まとめ

まとめ
• AWS独⾃開発の推論プロセッサAWS Inferentiaにより、推論ワーク
ロードを⾼スループットかつ低遅延、低価格で実⾏
• AWS Inferentiaを搭載したInf1インスタンスはG4インスタンスと⽐
較し、推論処理当たり最⼤45%低価格を実現。クラウド上でのML推
論でベストプライスパフォーマンスを提供
• Inferentia上での⾼性能推論を実現するためのAWS Neuron SDKを
提供。定期アップデートにより性能改善、機能追加を継続実施

参考情報
https://aws.amazon.com/jp/machine-learning/inferentia/
https://aws.amazon.com/ec2/instance-types/inf1/
https://github.com/aws/aws-neuron-sdk
https://ec2-inf1.workshop.aws/ja/
https://forums.aws.amazon.com/forum.jspa?forumID=355

20201008 AWS独自設計推論チップInferentiaとInf1インスタンス

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 20201008 AWS独自設計推論チップInferentiaとInf1インスタンス

Similar to 20201008 AWS独自設計推論チップInferentiaとInf1インスタンス (20)

Recently uploaded

Recently uploaded (14)

20201008 AWS独自設計推論チップInferentiaとInf1インスタンス