GPU で加速する AI モデル作成と解析
〜 Elasticsearch と Azure AI を活⽤〜
鈴⽊ 章太郎
Elastic テクニカルプロダクトマーケティングマネージャー/エバンジェリスト
内閣官房 IT 総合戦略室 政府 CIO 補佐官
Technical Product Marketing
内閣官房 IT 総合戦略室
政府 CIO 補佐官
元 Microsoft Technical Evangelist
Twitter : @shosuz
Shotaro Suzuki
• AI ソリューションの課題
• Microsoft AI + Elastic による解決
AI ソリューションの課題
機械学習の知識 + Cloud インフラの知識
Microsoft AI + Elastic による解決
Microsoft Azure の⼈⼯知能
AI 向けのスケーラブルで信頼性の⾼い
• データストレージ
• 計算
• サービス
開発者が AI ソリューションの構築に使⽤できる
Azure Cloud Services
Compute (Container) / Storage
Python & R SDK
機械学習 / 深層学習 を Azure で⾏うための
Notebooks Automated ML UX Designer
Reproducibility Automation Deployment Re-training
Elastic テクノロジー概要
Elastic スタックで実現
Beats Logstash
Elastic エンタープライズサーチ Elastic セキュリティ
Elastic オブザーバビリティ
(クラウド & オンプレ)
Elastic Cloud
on Kubernetes
Elastic Cloud Elastic Cloud
(クラウド & オンプレ)
Azure サービスとの連携パターン (例)
Seamless connectivity with Beats, Logstash and Azure Serverless
Elasticsearch Service
Elastic Cloudon Kubernetes
Elastic Cloud Enterprise
Elastic Stack
Azure Functions,
Logic App
Windows イベントログ
Azure Blob Storage
Azure Event Hub
Azure IoT Hub
Azure Blob Storage
Azure Table Storage
Azure Service Bus
Azure Event Hub
Azure IoT Hub
Azure SQL Database
Azure Database for MySQL
Azure Database for PostgreSQL
Azure Database for MariaDB
Application Insights
管理 (MLOps)
責任ある ML
• あらゆるスキルレベルに対応
Designer SDK for Code
AutoML in GUI
MLOps による全ライフサイクル管理
Model reproducibility Model
Model deployment
Model validation
Retrain model
Build app
Collaborate Test app Release
App Developer
CI / CD Tools
Data Scientist
Azure Machine Learning
GitHub Actions or Azure DevOps による⾃動化
サーバレス クラウド
APM ツール
ビジネス KPI
現状 ー 典型的なオブザーバビリティのツール群
Elastic のオブザーバビリティへのアプローチ
APM データ
全ての運⽤にまつわるデータを、⼀つの強⼒なデータストアに集約 -
オープンで相互運⽤可能、責任ある ML
開発ツール ⾔語 フレームワーク
モデルの解釈 プライバシーの保護 展開の制御
• 機械学習のためのデータ管理
データセット モデル
• 直感的なマウス操作によるパイプライン構築
• 特徴量エンジニアリング
• モデル学習 (回帰、分類、クラスタリング)
• 推論 (リアルタイム & バッチ推論)
• カスタムモデル・スクリプト (Python, R)
製造プロセス⾃動化 …
⾃動運転 …
Azure Portal
プログラム or GUI で操作可能
• 学習作業毎の Compute Resource 論理単位
– 学習
– モデル
• 複数の Workspace
• Azure Resources
– Azure Container Resistor – モデルを Docker Container 化してセキュアに管理
– Azure Storage – 学習データ、テレメトリー、モデルファイルなどのストレージ
– Azure Application Insight – モデルのモニタリング
– Azure Key Vault – 学習・推論 Compute のクレデンシャルなどセキュアな情報管理
• Model
– 機械学習の結果のファイル
• Azure Machine Learning
servicers 以外で作成した
– 様々な機械学習 / 深層学習
のフレームワーク の Model
– Workspace の中で管理
• Model Registry
– ラベル付けでのバージョン管理
– 追加のメタデータ
– Image 化して使っているもの
• 1: Model Registry へ登録
• 2: Image Registry (Azure Container Registry) へ登録
• 3: Image を展開
• 4: Model の監視
• Python Script の学習ジョブ
– Workspace で管理
– 実⾏ログの保存
• Timestamp, duration など
• 標準⼊出⼒
– 実⾏ Compute 環境をアタッチ
• ジョブ毎に変更可能
• 学習の環境
– Azure Compute の抽象化
• 学習ジョブ単位でアタッチ
コンピューティング ターゲット GPU アクセラレーション
ローカル コンピューター 可能性あり ✓
Azure Machine
Learning コンピューティング
✓ ✓ ✓ ✓
リモート VM ✓ ✓ ✓ ✓
Azure Databricks ✓ ✓*
Azure Data Lake
Azure HDInsight ✓
• Image
– Model
– Model の⼊出⼒を抽象化した Script
– Model もしくは Scoring 実⾏の依存関係
• 2 種類
– FPGA Image: Azure 内の FPGAクラスターへ
– Docker Image: 任意の場所の Docker 実⾏環境へ
• Image Registry
– Model から作成された
Image の管理
– メタデータ, 検索
+ + = Increasing storage costs
Difficult to track & audit
Insecure and fragile
Sources Formats
Environments Challenges
– Azure Storage Account の抽象化
• Azure Blob
• Azure File
– Workspace でデフォルトの Data Store を持つ
• 追加可能
– Python SDK もしくは Azure CLI から制御
- Filebeat Azure Module
- Metricbeat Azure Module
[Metricbeat] Azure からのメトリックの収集
Azure Monitor metrics
Metricbeat on Azure instances
Azure module
Any machine
Ingest Node
Data Node
サポートされている Azure メトリックス
Metricsets (Azure モニター経由)
- モニター
- compute_vm
- compute_vm_scaleset
- ストレージ (BLOB、テーブル、
- データベース アカウント
- コンテナー
Azure メトリックスの機能
- 集計
- ディメンション
- タイムグレイン
- name: "Requests"
namespace: "Microsoft.ApiManagement/service"
aggregations: ["Maximum"]
timegrain: "PT1M"
- name: "Hostname"
value: ""
[Filebeat] Azure でのログ/イベントの収集
Filebeat on VM instances
or containers (daemonset)
Ingest Node
Data Node
Event Hub Filebeat
Azure ログのモジュール
アクティビティ, サインイン, 監査
• アクティビティログ
‒ サブスクリプション内のリソースに対して
• サインインログ
‒ マネージ アプリケーションとユーザーの
• 監査ログ
‒ Azure AD 内の様々な機能によって
– 80%
from azureml.train.estimator import Estimator
script_params = { ‘--learning-rate’: 0.3, '--regularization': 0.8 }
est = Estimator(source_directory=script_folder,
LightGBM Horovod
参考︓Azure Machine Learning で Estimator を使⽤してモデルをトレーニングする
• Python SDK Training 利⽤ステップ
• Workspace への Configuration 設定
• Compute 設定
• DataStore 設定
– データのアップロード
• Script ランタイム設定 (Estimator)
– Entry Point
– 依存パッケージ
• Job Submit
• 結果の確認とモデル保存
• モデルの展開
• Scikit-learn での MNIST データセットをロジスティック回帰で
• ⼿書きの数字 – 0 から 9
• 70,000 データ
• 28x28 pixels
– 数字の分類
from azureml.core import Workspace
ws = Workspace.create(name='myworkspace',
location='eastus2' # or other supported Azure region
# see workspace details
Step 2 – Create an Experiment
experiment_name = ‘my-experiment-1'
from azureml.core import Experiment
exp = Experiment(workspace=ws, name=experiment_name)
Step 1 – Create a workspace
Step 3 – Create remote compute target
# choose a name for your cluster, specify min and max nodes
compute_name = os.environ.get("BATCHAI_CLUSTER_NAME", "cpucluster")
compute_min_nodes = os.environ.get("BATCHAI_CLUSTER_MIN_NODES", 0)
compute_max_nodes = os.environ.get("BATCHAI_CLUSTER_MAX_NODES", 4)
# This example uses CPU VM. For using GPU VM, set SKU to STANDARD_NC6
vm_size = os.environ.get("BATCHAI_CLUSTER_SKU", "STANDARD_D2_V2")
provisioning_config = AmlCompute.provisioning_configuration(
vm_size = vm_size,
min_nodes = compute_min_nodes,
max_nodes = compute_max_nodes)
# create the cluster
print(‘ creating a new compute target... ')
compute_target = ComputeTarget.create(ws, compute_name, provisioning_config)
# You can poll for a minimum number of nodes and for a specific timeout.
# if no min node count is provided it will use the scale settings for the cluster
min_node_count=None, timeout_in_minutes=20)
# note that while loading, we are shrinking the intensity values (X) from 0-255 to 0-1 so that
the model converge faster.
X_train = load_data('./data/train-images.gz', False) / 255.0
y_train = load_data('./data/train-labels.gz', True).reshape(-1)
X_test = load_data('./data/test-images.gz', False) / 255.0
y_test = load_data('./data/test-labels.gz', True).reshape(-1)
圧縮されたデータを numpy へロード。 ʻload_dataʼ はカスタム関数。
Data Store 設定。これで、どこからでも Azure Storage 上への読み書きが可能に。
ds = ws.get_default_datastore()
print(ds.datastore_type, ds.account_name, ds.container_name)
ds.upload(src_dir='./data', target_path='mnist', overwrite=True, show_progress=True)
Step 4 – Upload data to the cloud
%%time from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(), y_train)
# Next, make predictions using the test set and calculate the accuracy
y_hat = clf.predict(X_test)
print(np.average(y_hat == y_test))
Model の Accuracy の結果が表⽰される [0.915 位]
Scikit-learn の logistic regression の学習ジョブを実⾏。通常は数分で終了。
Step 5 – Train a local model
リモート Computer で実⾏する場合には、以下のステップが必要
• 6.1: Create a directory
• 6.2: Create a training script
• 6.3: Create an estimator object
• 6.4: Submit the job
Step 6.1 – Create a directory
import os
script_folder = './sklearn-mnist' os.makedirs(script_folder, exist_ok=True)
Step 6 – Train model on remote cluster
%%writefile $script_folder/
# load train and test set into numpy arrays
# Note: we scale the pixel intensity values to 0-1 (by dividing it with 255.0) so
# the model can converge faster.
# ‘data_folder’ variable holds the location of the data files (from datastore)
Reg = 0.8 # regularization rate of the logistic regression model.
X_train = load_data(os.path.join(data_folder, 'train-images.gz'), False) / 255.0
X_test = load_data(os.path.join(data_folder, 'test-images.gz'), False) / 255.0
y_train = load_data(os.path.join(data_folder, 'train-labels.gz'), True).reshape(-1)
y_test = load_data(os.path.join(data_folder, 'test-labels.gz'), True).reshape(-1)
print(X_train.shape, y_train.shape, X_test.shape, y_test.shape, sep = '¥n’)
# get hold of the current run
run = Run.get_context()
#Train a logistic regression model with regularizaion rate of’ ‘reg’
clf = LogisticRegression(C=1.0/reg, random_state=42), y_train)
Step 6.2 – Create a Training Script (1/2)
print('Predict the test set’)
y_hat = clf.predict(X_test)
# calculate accuracy on the prediction
acc = np.average(y_hat == y_test)
print('Accuracy is', acc)
run.log('regularization rate', np.float(args.reg))
run.log('accuracy', np.float(acc)) os.makedirs('outputs', exist_ok=True)
# The training script saves the model into a directory named ‘outputs’. Note files saved
# in the outputs folder are automatically uploaded into experiment record. Anything written
# in this directory is automatically uploaded into the workspace.
joblib.dump(value=clf, filename='outputs/sklearn_mnist_model.pkl')
Step 6.2 – Create a Training Script (2/2)
• 学習中のメトリックを個別に保存
– Standard Input / Output 以外に
from import
• DataStore のデフォルトの場所への保存
model_file_name = 'ridge_{0:.2f}.pkl'.format(alpha)
# save model in the outputs folder so it automatically get uploaded
with open(model_file_name, "wb") as file:
joblib.dump(value=reg, filename=os.path.join('./outputs/', model_file_name))
Estimator が 学習ジョブを実⾏
from azureml.train.estimator import Estimator
script_params = { '--data-folder': ds.as_mount(), '--regularization': 0.8 }
est = Estimator(source_directory=script_folder,
Step 6.4 – Submit the job to the cluster for training
run = exp.submit(config=est)
Step 6.3 – Create an Estimator
./outputs ディレクトリーに実⾏結果を出⼒。
Workspace からそれぞれアクセスできる
Compute Target へ必要なスクリプトなどがコピー。
その後、Data Store がマウント もしくは
データのコピーが⾏われる。その後 entry_script で指定した
script ファイルが実⾏される。
ジョブの実⾏中に stdout は /logs に
Image creation
Estimator で指定されたパラメーターを元に Docker
Image のビルド。Workspace へ登録。約5分。
Docker Build の状況は Docker Build の
学習⽤の Cluster が更に Compute
Resource が必要になると、⾃動的に追加。
Scale out は通常5分程度
Step 7 – Monitor a run
Jupyter widget でジョブの状態をモニタリング。10-15 秒程度の遅延で⾮同期で表⽰される
from azureml.widgets import RunDetails
Azure Machine Learning services の widget の例:
Step 8 – See the results
wait_for_completion にて
# now there is a trained model on the remote cluster
{'regularization rate': 0.8, 'accuracy': 0.9204}
Step 9 – Register the model
ファイルを ʻoutputs/sklearn_mnist_model.pklʼ へ出⼒。
ʻoutputsʼ ディレクトリーは、ジョブを実⾏した仮想マシンの中。
• outputs は特別なディレクトリー。この中の全てのファイルは、Workspace のストレージへコピーされる。
• 実⾏ジョブ履歴
• Modelファイル
• など
joblib.dump(value=clf, filename='outputs/sklearn_mnist_model.pkl')
# register the model in the workspace
model = run.register_model (
Model が Workspace に登録され、クエリできるようになる
Step 9 – Deploy the Model
Step 9.1 – Create the scoring script
Scoring ⽤の Script作成。。Web Services として設定される
必須 function: init() と run (input data)
from azureml.core.model import Model
def init():
global model
# retreive the path to the model file using the model name
model_path = Model.get_model_path('sklearn_mnist’)
model = joblib.load(model_path)
def run(raw_data):
data = np.array(json.loads(raw_data)['data’])
# make prediction
y_hat = model.predict(data) return json.dumps(y_hat.tolist())
Step 9.2 – Create environment file
environment file の作成。ここでは myenv.yml。 Script実⾏のための依存関係 Package を指定したもの。
Docker Image 作成時に使⽤される。
このサンプルでは、 scikit-learn と azureml-sdk が指定されている
from azureml.core.conda_dependencies import CondaDependencies
myenv = CondaDependencies()
with open("myenv.yml","w") as f:
Step 9.3 – Create configuration file
展開⽤の configuration ファイルと、CPU数、GB単位のRAM容量など、ACI 作成に必要なパラメーターを設定。
デフォルト値:1 core 1 gigabyte RAM
from azureml.core.webservice import AciWebservice
aciconfig = AciWebservice.deploy_configuration(cpu_cores=1, memory_gb=1,
tags={"data": "MNIST", "method" : "sklearn"},
description='Predict MNIST with sklearn')
Step 9.4 – Deploy the model to ACI
from azureml.core.webservice import Webservice
from azureml.core.image import ContainerImage
# configure the image
image_config = ContainerImage.image_configuration(
execution_script ="",
runtime ="python",
conda_file ="myenv.yml")
service = Webservice.deploy_from_model(workspace=ws, name='sklearn-mnist-svc’,
Step 10 – Test the deployed model
using the HTTP end point
import requests
import json
# send a random row from the test set to score
random_index = np.random.randint(0, len(X_test)-1)
input_data = "{¥"data¥": [" + str(list(X_test[random_index])) + "]}"
headers = {'Content-Type':'application/json’}
resp =, input_data, headers=headers)
print("POST to url", service.scoring_uri)
#print("input data:", input_data)
print("label:", y_test[random_index])
print("prediction:", resp.text)
• Elastic Observability を使⽤した NVIDIA
GPU メトリックの監視
依存関係 (1)
• NVIDIA GPU メトリックを稼働させるには、ソースコード(Go)から NVIDIA
GPU 監視ツールを構築
• NVIDIA GPU は、Microsoft Azure、Google Cloud 、AmazonWeb
(図は Genesis Cloud)
• NVIDIA の Ubuntu18.04 ⽤ DCGM スタートガイドのインストールセクションに
従って、NVIDIA Datacenter Manager をインストール
• <architecture>パラメーターを独⾃のパラメーターに置き換えることに特に注意
• unameコ マンドを使⽤してアーキテクチャを⾒つける
uname - a
echo "deb$distribution/x86_64 /"
| sudo tee /etc/apt/sources.list.d/cuda.list
sudo apt-key adv --fetch-keys$distribution/x86_64/7
依存関係 (2)
• インストール後、nvidia-smi コマンドを実⾏することで、GPU 詳細を⾒ることができる
• NVIDIA の gpu-monitoring-tools をビルドするには、Golang をインストールする必要あり
• NVIDIA の gpu-monitoring-tools を GitHub からインストールして、NVIDIA のセットアップを終了
cd /tmp
sudo mv go1.15.7.linux-amd64.tar.gz /usr/local/
cd /usr/local/
sudo tar -zxf go1.15.7.linux-amd64.tar.gz
sudo rm go1.15.7.linux-amd64.tar.gz
cd /tmp
git clone
cd gpu-monitoring-tools/
sudo env "PATH=$PATH:/usr/local/go/bin" make install
• Metricbeat をインストールする準備が整ったので、 で Metricbeat の最新版を確認
• 以下のコマンドでバージョン番号を調整
• この場合は 7.10.2 がバージョン番号
cd /tmp
sudo dpkg -i metricbeat-7.10.2-amd64.deb #
• Elastic Stack を起動して実⾏
• 新しい GPU モニタリングデータ⽤のホームが必要なため、Elastic Cloud に新しいデプロイメントを作成
• Elastic Cloud を初めて使う場合は、14⽇間の無料トライアルにサインアップ
• 独⾃の展開をローカルで設定することも可能
• ElasticCloud に新しい ElasticObservability デプロイメントを作成
• Metricbeat の構成ファイルは /etc/metricbeat/metricbeat.yml
• 前ページのセットアップで取得したパラメーター と cloud.auth を編集
• 構成変更例︓
• Metricbeat の⼊⼒構成はモジュール式
• NVIDIA gpu-monitoring-tools は Prometheus を介して GPU メトリックを公開するので、先に
PrometheusMetricbeat モジュールを有効化
• Metricbeat の test コマンド と modules コマンドを使⽤して、Metricbeat の構成が成功したことを確認
cloud.auth: "elastic:J7KYiDku2wP7DFr62zV4zL4y"
sudo metricbeat modules enable prometheus
sudo metricbeat test config
sudo metricbeat test output
sudo metricbeat modules list
sudo metricbeat setup
• 左記の例のように構成テストがうまくいかない場合は、
Metricbeat トラブルシューティングガイドを参照
• Metricbeat の構成の最後に、setup コマンドを実⾏
• いくつかのデフォルトダッシュボードをロードし、インデックス
• セットアップコマンドの実⾏には通常数分かかる
dcgm-exporter --address localhost:9090 #
Output INFO[0000] Starting dcgm-exporter
INFO[0000] DCGM successfully initialized!
INFO[0000] Not collecting DCP metrics: Error
getting supported metrics: This request is
serviced by a module of DCGM that is not
currently loaded INFO[0000] Pipeline starting
INFO[0000] Starting webserver
• NVIDIA の dcgm-exporter を起動
• 注: DCP 警告は無視できる
• dcgm-exporter メトリックの設定は、ファイル
counters.csv で定義され、デフォルトでは 38 個の
• 使⽤可能な値の完全なリストについては、DCGM ライブ
ラリ API リファレンス ガイドを確認
• 別のコンソールで、Metric Beat を起動
sudo metricbeat -e
• Kibana で 「metricbeat-*」インデックスパターンを更新
• [Stack Management] > [Kibana] > [Index
Patterns] に移動して、リストから metricbeat-* インデ
• 次に「フィールドリストを更新」をクリック
• GPU メトリクスが Kibana で利⽤できる
• 新しいフィールド名の前には
• Kibana の Discover で確認
• これで、Elastic Observability で GPU
• Metrics Explorer で GPU と CPU のパフォーマンスを⽐較できる
• インベントリビューで GPU 利⽤のホットスポットを⾒つけられる
• これらはほんの⼀部のモニタリング⽅法
• Elastic Observability を使えば、すべての⽬標に取り組むことが可能
• NVIDIA による監視するのに適した GPU の他の例をいくつかご紹介︓
• GPU temperature: GPU の温度。ホットスポットのチェック
• GPU power usage: GPUの電⼒使⽤量。予想以上に電⼒使⽤量が多い⇒HWの問題の可能性
• Current clock speeds: 現在のクロックスピード。想定よりも低い⇒パワーキャッピングやHWの問題
• また、GPUの負荷をシミュレーションする必要がある場合は、dcgmproftester10 コマンドを使⽤
dcgmproftester10 --no-dcgm-validation -t 1004 -d 30
• AI ソリューションの課題
• Microsoft AI + Elastic による解決
Open Source Repo Link
Azure ML Notebook
Azure Machine Learning
BERT Large ⾃然⾔語モデル BERT のサンプルコード
Microsoft Recommenders レコメンデーション サンプルコード
LightGBM LightGBM トップページ
Natural Language Recipe's ⾃然⾔語 サンプルコード
ONNX ONNX トップページ
ONNX RT ONNX Runtimeトップページ
Kubeflow & MLOps
Kubeflow + Azure ML + DevOps サン
Azure Open Datasets Azure Open Datasets Webページ
Azure ML Free Trial Azure フリートライアル
Azure ML Docs Azure Machine Learning ドキュメント
• Azure ML Studio:
• Demo Notebook:
• Documentation
– Datasets
– Creating data labeling project
– Labeling data
• Contact for ML assisted labeling: ml-assisted-
• Microsoft Responsible AI Resource Center
• Azure Machine Learning
• OpenDP
• WhiteNoise
Elastic リソース
• 公式ドキュメント
• Elasticsearch.Net & NESTドキュメント
• Elastic 事例
アプリケーション開発 オンデマンド ウェビナー特集
• Elastic の Search API を Visual Studio
Code でコーディングする (1) - (3)
• Elastic Cloud で Azure Kubernetes
Serviecs の様々な Log/Metrics/APM を
• ASP.NET Core 3.x Web アプリのログを
Elastic Cloud で収集・分析してみよう︕
.NET lab 2021.5
セッションタイトル・概要 : TBD
Google Cloud Day Digital 2021
クラウド ネイティブへの移行における Elastic APM の概要
Thank you for your attention!

