エンタープライズマーケティング部 佐々木邦暢 (@_ksasaki)
GPU クラウド コンピューティング
マネージド AI サービスと GPU IaaS
クラウドで GPU が活きる二つの選択肢
Amazon AI
Google Cloud Vision API 等
IBM Watson
Microsoft Cognitive Services
Amazon EC2 – P2 インスタンス
Google Compute Engine
IBM Bluemix Infrastructure
Microsoft Azure – N シリーズ
IDCF - “GPU BOOST” タイプ
マネージド AI サービス GPU IaaS
Amazon AI
開発者向け人工知能サービス (API 群)
Amazon Polly
Amazon
Rekognition
Amazon Lex
音声やテキストを使用した
会話型インターフェイスを
持つアプリケーションを構築
ディープラーニングを使用して
文章をリアルな音声に変換
ディープラーニングに基づく
イメージ認識サービス
P2 インスタンス
Tesla K80 を搭載する GPU インスタンス
インスタンス名 GPU 数 GPU メモリ (GB) CUDA コア数 vCPU 数 メモリ (GB)
p2.xlarge
1
(K80 半分)
12 2,496 4 61
p2.8xlarge
8
(K80 4枚)
96 19,968 32 488
p2.16xlarge
16
(K80 8枚)
192 39,936 64 732
GPU 対応の AMI 各種
GPU ドライバや各種フレームワーク・アプリケーション導入済み
AWS 提供
NVIDIA 提供
Deep Learning AMI
64-bit, Amazon Linux 2015.05.04
NVIDIA GPU ドライバ
MXNet, Caffe, TensorFlow, Theano, Torch
NVIDIA DIGITS 4 AMI
NVIDIA DIGITS 4 on Ubuntu 14.04 (64-bit)
NVIDIA CUDA Toolkit 7.5 AMI
CUDA Toolkit 7.5 on Amazon Linux 2016.03 (64-bit)
Windows AMI (NVIDIA GPU ドライバ付)
Windows Server 2012 R2
分散型ディープラーニングを簡単に
CloudFormation で GPU クラスタを自動デプロイ
AWS は MXNet をデフォルトのディープラーニング
フレームワークとして採用し、そのコードやドキュメン
テーションに貢献しています。
その一環として、GPUクラスタを簡単に構築可能な、
CloudFormation テンプレートが公開されています。
VPC の作成、セキュリティやオートスケーリングの設定
から、GPU ドライバやフレームワークのインストールまで
完全に自動化されます。
MXNet と CloudFormation
https://github.com/dmlc/mxnet/tree/master/tools/cfn
AWS パブリックデータセット
無料でアクセス可能な大規模データ
データセット名 内容
ランドサット ランドサット 8 号衛星により作成中の地球全土の衛星画像コレクション
SpaceNet コンピュータビジョンアルゴリズムの開発における革新を促進するために衛星画像
とラベリングされたトレーニングデータを集めたデータベース
地勢タイル 世界各地の地表の標高などの地勢を示すデータセット
NASA NEX
NASA が保守管理する地球の科学的データセットのコレクション。気候変化
予測や地表の衛星画像などが含まれる
TCGA
がんゲノムアトラス (TCGA) からの未処理および処理済みのゲノム、トランスクリ
プトミクス、およびエピゲノミクスのデータで、がんゲノムクラウドを介して認定された
研究者のみが利用可能
マルチメディアコモンズ オーディオビジュアル機能と注釈を備えた 1 億近い画像と動画のコレクション
Japan Census Data 日本の国勢調査、事業所・企業統計調査、経済センサス
※ 上記は一部の例。詳しくは: https://aws.amazon.com/jp/public-datasets
パブリックデータセットの利用例
SpaceNet を NVIDIA DIGITS で解析
SpaceNet は NVIDIA もその立ち上げにかかわった
オンライン衛星画像リポジトリです
ディープラーニングフレームワークの Web フロントエンド
である NVIDIA DIGITS で DetectNet というオブジェ
クト検出ネットワークを使って、 SpaceNet の画像か
ら建物を検出する方法を、 PARALLEL FORALL
ブログで解説しています
https://devblogs.nvidia.com/parallelforall/exploring-spacenet-dataset-using-digits/
NVIDIA DIGITS による物体検出
“Exploring the SpaceNet Dataset Using DIGITS”
Microsoft Cognitive Services
インテリジェンス アプリケーション
言語 視覚
音声検索 知識
Azure N シリーズ GPU インスタンス
2 種類の NVIDIA GPUを搭載
名称 コア数 メモリ SSD RDMA GPU
NV6 6 56 GB 380 GB - M60 半分 (GPU 1基)
NV12 12 112 GB 680 GB - M60 1枚 (GPU 2基)
NV24 24 224 GB 1.5 TB - M60 2枚 (GPU 4基)
NC6 6 56 GB 380 GB - K80 半分 (GPU 1基)
NC12 12 112 GB 680 GB - K80 1枚 (GPU 2基)
NC24 24 224 GB 1.5 TB - K80 2枚 (GPU 4基)
NC24r 24 224 GB 1.5 TB InfiniBand K80 2枚 (GPU 4基)
Visualization の
NV 系
Tesla M60搭載
Compute の
NC 系
Tesla K80 搭載
NVIDIA と Microsoft の協業
Cognitive Toolkit (旧称: CNTK) を Azure と DGX-1 の双方に最適化
NVIDIA Tesla GPU
NVIDIA DGX-1 Azure Data Center
NVIDIA GPUDL Toolkit
Microsoft Cognitive Toolkit (旧称: CNTK)
様々なマイクロソフト製品・サービスを支え AI を民主化
Cortana
パーソナルアシスタント
Skype
多言語間翻訳
Bing
サーチエンジン
HoloLens
拡張現実
IBM Watson
日本語に対応した様々な API
自然言語分類 検索およびランク付け 会話 文書変換
性格分析 画像認識 音声認識 音声合成
IBM Bluemix Infrastructure
GPU 搭載のベアメタルサーバーを月単位 / 時間単位で
GPU 種別
GPU メモリ
(GB)
CUDA コア数 CPU
CPU
コア数
メモリ
(GB)
ディスク
Tesla K80 24 4,992
2 x E5-2620 v3 12
64 1TB SATA2 x E5-2650 v3 20
2 x E5-2690 v3 24
2 x E5-2620 v4 16 128 2x 800GB SSD
Tesla M60 16 4,096
2 x E5-2620 v3 12
64 1TB SATA2 x E5-2650 v3 20
2 x E5-2690 v3 24
Hourly
※ この他、 GRID K2 と Tesla K10 が選択可能
Google Cloud Platform
Google のコアとなるインフラストラクチャ、データ解析、機械学習を活用
Cloud Machine Learning Vision API
Speech API Natural Language API
Translation API
Jobs API
Google Compute Engine
Google の IaaS に Tesla K80 と P100 がまもなく登場
 Tesla K80 と Tesla P100 を利用可能
 様々なインスタンスに GPU をアタッチ可能
 分単位の課金で効率的に利用
 近日登場予定!
GCE の GPU マシン
IDCF クラウド
Tesla M40 搭載 “GPU BOOST” 仮想マシン
インスタンス名 GPU
GPU メモリ
(GB)
CUDA コア数 vCPU 数 メモリ (GB) SSD (GB)
gpu.7XLM40 1 x M40 24 3,072
56 256 2,100
gpu.7XLP100 1 x P100 16 3,584
近日登場予定
第1回 AI チャレンジコンテスト
人工知能技術戦略会議等主催
賞品は NVIDIA TITAN X画像データ提供: クックパッド株式会社
主催 人工知能技術戦略会議、内閣府、文部科学省
応募受付期間 平成29年1月10日(火)~平成29年3月9日(木)
参加費 無料
テーマ
料理画像を対象に、
(1) 「料理領域検出」、 (2) 「料理分類」の2 部門を実施
IDC フロンティア様から
Tesla M40 搭載
GPU サーバー提供
(参加者間で共同利用)
Tesla in Datacenter
データセンターのために設計された Tesla
データセンター仕様24 時間 365 日の稼働時間
データセンターの
スループットをブースト
スケーラブルパフォーマンス
信頼性の最大化 システム運用管理を効率化
システム稼働時間のためのエンドツーエンド設計
24時間365日の
稼働時間
スケーラブル
パフォーマンス
データセンター
仕様
保証品質
システム出荷判定試験:熱、ストレス、空気流量、衝撃および振動
Tesla のみのシステム監視と管理
障害分析のための専任技術スタッフ
広範な出荷判定項目と
試験
長時間の高温負荷テスト
1 件のエラーも許容しない厳格な基準
高信頼性のための技術を使用しても、 5% の GPU がスクリーニングアウト
信頼性を高めるための
様々な技術
長期信頼性のための低動作電圧
品質を保証するため大きな設計マージンを確保
データ整合性を担保する ECC メモリ
稼働時間を最大化するダイナミックページリタイアメント
24時間365日の
稼働時間
スケーラブル
パフォーマンス
データセンター
仕様
GPU メモリ
訂正不可能なデータエラー
がアプリケーションを
クラッシュさせる
弱いメモリが使われなくなる
ダイナミックページ
リタイアメントのある Tesla
ダイナミックページ
リタイアメントのない GPU
弱いメモリが使われ続ける
1. ジョブがクラッシュすると生産性が低下します
2. IT 管理者は物理的にサーバーを開けて障害のある
GPU を取り外す必要があります
3. ダウンタイムの発生が顧客満足度を下げる危険があります
1. 不良メモリを GPU の再起動で取り除けます
2. IT 管理者のための物理的な作業は発生しません
3. リタイアするページの合計サイズは最大 256KB 程度
性能へのインパクトは無視できる範囲です
サーバー OEM ベンダーによるデータセンター最適化
24時間365日の
稼働時間
スケーラブル
パフォーマンス
データセンター
仕様
Tesla GPU を
搭載したサーバー
データセンタ用ではない
GPU を搭載したサーバー
GPU 内エアフローを最大にする設計
前後双方向のエアフローをサポート
低い電力消費
LINPACK 実行時の GPU の温度: 54度
サーバーのエアフローに反した動作
大きな電力消費
低い信頼性
LINPACK 実行時の GPU の温度: 71度
エアフロー
温度: 54度
温度: 71度
データセンター GPU マネージメント
24時間365日の
稼働時間
スケーラブル
パフォーマンス
デバイス
マネージメント
• デバイス認識
• ボードモニタリング
• クロックマネージメント
GPU 毎の構成及びモニタリング
データセンター
仕様
データセンター運用のためのエンタープライズ向けマネージメントツール
アクティブヘルス
モニタリング
診断 及び
システム検証
ランタイムヘルスチェック
プロローグチェック
エピローグチェック
詳しいハードウェア診断
システム検証テスト
ポリシーと
グループ構成管理
事前設定されたポリシー
ジョブ毎のモニタリング
ステートフル設定
電源 及び
クロック管理
ダイナミックパワーキャッピング
同期クロックブースト
データセンター GPU マネージャー (Tesla GPUのみ)
全てのエヌビディア GPU が対象
計画的な製品ライフサイクルとサポート
24時間365日の
稼働時間
スケーラブル
パフォーマンス
データセンター
仕様
www.nvidia.com/enterpriseservices
安定した製品供給
エンタープライズサービス
• 頻繁に EOL を迎えるコンシューマー用 GPU よりも、長い製品ライフサイクル
• サーバー利用では無保証のコンシューマー用 GPU と異なり、3 年間の保証
• 長期間サポート及びメンテナンス
• 技術専門家との直接のコミュニケーション
• 問題解決への迅速な対応
• 専任技術担当者、オンサイトコンサルテーション、トレーニング
GeForce で開発、Tesla で運用
GeForce
開発者とゲーマーのために設計された GPU
どこでも入手可能
https://developer.nvidia.com/cuda-gpus
Tesla
データセンターのために設計された GPU
サーバー用に設計
ダイナミックページリタイアメント
GPUDirect RDMA
NVLink
データセンター管理ツール
エンタープライズサービス
GTC 2017 のご案内
GTC 2017 参加登録受付中
2017/5/8 - 11 サンノゼで開催
http://www.gputechconf.com/
40 % のリピーター 割引実施中 (1/18 まで)
#GTC17
基調講演 テクニカルセッション
ポスター展示
ハンズオンラボ
専門家との交流 スペシャルイベント
GPU クラウド コンピューティング

GPU クラウド コンピューティング