TensorRT Inference Serverではじめる、高性能な推論サーバ構築

Kazuhiro Yamasaki, Deep Learning Solution Architect, NVIDIA,
10/30/2019
GPU DEEP LEARNING COMMUNITY #12
TENSORRT INFERENCE
SERVERではじめる、
高性能な推論サーバ構築

2
AGENDA
ディープラーニングの推論処理
TensorRT Inference Server (TRTIS) とは？
デプロイに必要なこと
パフォーマンスチューニング
デモ：音声認識モデルのデプロイ

3
本日話す内容
サーバ側での推論に特化しています
(Jetsonでの推論はスコープ外です)

4
ディープラーニングにおける処理の分類
典型的には2つ

5
推論処理で気をつける指標
トレードオフの関係
スループット
(or 同時接続数)
遅延
精度
(accuracy, etc)

6
推論処理で気をつける指標
トレードオフの関係
スループット
(or 同時接続数)
遅延
精度
(accuracy, etc)
量子化 (特にINT8) で高速化
→ 何もしないと精度低下の可能性
(calibration 等で対処)

7
GPUを使った推論の場合
バッチ的に処理するほうが高速
1
3
2
ひとつずつ、順番に処理するのは効率が良くない

8
バッチ的に処理するほうが高速
1 2 3 1,2,3
複数の処理を束ねて実行することで、スループットを改善
(束ねるために待ちすぎると遅延が悪化)

9
特性を生かした処理のために必要な機構
一定時間内に受け付けた
複数の推論処理リクエストを束ねる
REQUEST QUEUE
GPU上に複数のモデルを展開し
同時に多数の処理を実行
CONCURRENT EXECUTION
1 2 3 1,2,3

10
TENSORRT INFERENCE SERVER (TRTIS)
GPUに最適化された推論サーバのOSS実装
Models supported
● TensorRT Plans
● TensorFlow GraphDef/SavedModel
● TensorFlow and TensorRT GraphDef
● PyTorch JIT (.pt)
● ONNX graph
● Caffe2 NetDef (ONNX import)
Multi-GPU support
Concurrent model execution
Server HTTP REST API/gRPC
Python/C++ client libraries
https://github.com/NVIDIA/tensorrt-inference-server

11
TENSORRT INFERENCE SERVER (TRTIS)
特徴的な機能
Concurrent Model Execution
複数モデル (同じモデルを複数個もOK) を同
時にGPU上で実行
CPU Model Inference Execution
CPUでの推論実行もサポート
Metrics
GPU使用率、推論回数、メモリ使用量、実
行時間など
Custom Backend
共有ライブラリとして実装された処理を
custom backendとして使用可能
Model Ensemble
複数のモデルの入出力をつないでパイプライン
化することも可能
Dynamic Batching
事前定義の最大数および最大遅延を基準
に、推論リクエストをバッチにまとめる
Multiple Model Format Support
TensorRT Plans
TensorFlow GraphDef/SavedModel
TensorFlow and TensorRT GraphDef
PyTorch JIT (.pt)
ONNX graph (ONNX Runtime)
Caffe2 NetDef (ONNX import path)
CMake build
ソースコードからビルドすることで、複数OSへの
ポーティング等が容易に
Streaming API
音声認識のようなストリーミング等もサポート

13
TRTISに学習済みモデルをデプロイするには？
モデルの配置と設定ファイル (config.pbtxt) の記述
config.pbtxt (例)
name: "resnet"
platform: "tensorflow_savedmodel"
max_batch_size: 64
input {
name: "input"
data_type: TYPE_FP32
format: FORMAT_NHWC
dims: [ 224, 224, 3 ]
}
output {
name: "probabilities"
dims: 1000
}
default_model_filename: "saved_model"
instance_group [
{
count: 1
kind: KIND_GPU
}
]
dynamic_batching {
preferred_batch_size: [ 16 ]
max_queue_delay_microseconds: 20000
}

14
パフォーマンスに影響する主な設定項目
同時実行数とリクエストキュー
config.pbtxt (例)
default_model_filename: "saved_model"
instance_group [
{
count: 1
kind: KIND_GPU
}
]
dynamic_batching {
preferred_batch_size: [ 16 ]
max_queue_delay_microseconds: 20000
}
GPU上にモデルを何個
展開するか指定
リクエストを最大いくつ
束ねるかの指定
キューでの最大
待ち時間 (マイクロ秒)

15
パフォーマンスに影響する主な設定項目
同時実行数とリクエストキュー
https://cloud.withgoogle.com/next/
tokyo/speakers?session=D1-2-S12
設定をチューニングした一例↓
GCP で構築する高性能かつスケーラブルなオンライン予測システム
https://medium.com/google-cloud-jp/building-high-
performance-online-prediction-system-on-gcp-12b57ca44284

16
とはいえ画像ばかりでは
面白くないですよね？

17
デモ
音声認識モデルを例に
Jasper: An End-to-End Convolutional Neural Acoustic Model
https://github.com/NVIDIA/DeepLearningExamples/tree/
master/PyTorch/SpeechRecognition/Jasper

18
デモ
config.pbtxt
name: "jasper"
platform: "tensorrt_plan"
max_batch_size: 1
input [
{
name: "FEATURES"
dims: [ 64, 3600 ]
}
]
output [
{
name: "LOGITS"
dims: [ 1800, 29 ]
}
]
default_model_filename: "model.engine"
instance_group [
{
count: 1
kind: KIND_GPU
}
]

19
デモ
.js
Backend server
TRTIS
Frontend server
1.
2.
3.
Full
I am aiI am AI.

20
余談: K8Sでオートスケール
Prometheusとの連携でさらに高度な監視も
apiVersion: autoscaling/v2beta1
kind: HorizontalPodAutoscaler
metadata:
name: inference-server-v1-hpa
namespace: default
spec:
scaleTargetRef:
apiVersion: apps/v1
kind: Deployment
name: inference-server-v1
minReplicas: 2
maxReplicas: 5
設定の一例
metrics:
- type: Resource
resource:
name: cpu
targetAverageUtilization: 50
スケーリングする基準を設定
(Prometheus経由の
metricsも利用可能)

21
まとめ
TensorRT Inference Serverを使うと、高速な推論サーバを簡単に構築できる
TensorRTだけではなく、多数のモデルフォーマットに対応
画像以外のデータにも対応
Kubernetesと組み合わせることで、スケーリング等にも対応できる
Key takeaways

24
TRTISのDOCKERコンテナイメージ
NGCから毎月リリース中
https://ngc.nvidia.com/catalog/containers/nvidia:tensorrtserver
docker run --gpus all --rm --shm-size=1g --ulimit memlock=-1
--ulimit stack=67108864 -p8000:8000 -p8001:8001 –p8002:8002
-v/path/to/model/store:/tmp/models
nvcr.io/nvidia/tensorrtserver:19.xx-py3
/opt/tensorrtserver/bin/trtserver --model-store=/tmp/models
起動コマンド一例 (docker CE19.03以降) ↓

TensorRT Inference Serverではじめる、高性能な推論サーバ構築

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to TensorRT Inference Serverではじめる、高性能な推論サーバ構築

Similar to TensorRT Inference Serverではじめる、高性能な推論サーバ構築 (20)

More from NVIDIA Japan

More from NVIDIA Japan (20)

Recently uploaded

Recently uploaded (8)