Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

AWSとGPUインスタンスのご紹介

2,063 views

Published on

AWSとGPUインスタンス、そしてDeep Learningの関係について。

Published in: Data & Analytics
  • Be the first to comment

AWSとGPUインスタンスのご紹介

  1. 1. 1 GPU Deep Learning Community #2 AWSとGPUインスタンス 2016年11月22日 アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクト 松尾康博
  2. 2. 2 Who am I ? • 名前 – 松尾康博 • 所属 – アマゾンウェブサービスジャパン株式会社 – ソリューションアーキテクト – 製造業のHPC、CAE、ビッグデータ解析等を主に担当 • 経歴 – 九州大学でスパコンの効率化研究 – SIerで 分散キューの開発・導入、分散処理研究 – Web系スタートアップCTO – SIerで仮想化基盤の研究・導入・運用 – 現職
  3. 3. 3 Amazonと機械学習
  4. 4. 4 Amazonでの取組み Amazon robotics
  5. 5. 5 Amazon 画像認識機能 http://www.gizmodo.jp/2015/07/_amazon_1.html Amazonが ディープラーニングスタートアップ Orbeus を買収 (2016.4.7) 写真や動画内の人物や物を人工知能の一種であるディープラーニングを用いて特定する技術を開発する小さな スタートアップ Orbeusで働くメンバーのほぼ全員を雇用した http://thebridge.jp/2016/04/amazon-orbeus-deep-learning-pickupnews
  6. 6. 6 クラウド上で音声認識能力を継続的に改善し、インター フェースとして活用 Alexa, play Bruno Mars from Prime Music (ブルーノ・マーズの曲をかけてく ださい) Alexa, turn on the lights (ライトをつけてください)
  7. 7. 7 AWSと機械学習
  8. 8. 8 世界中に広がるAWSの拠点 14 のリージョンと38のアベイラビリティゾーン 1. Virginia (2006) 2. California (2009) 3. Ireland 4. Singapore (2010) 5. JAPAN (Tokyo) <2011/3/2> 6. GovCloud (2011) 7. Oregon (2011) 8. Sao Paulo (2011) 9. Sydney (2012) 10. Beijing China (2013) 11. Frankfurt (2014) 12. Seoul (2016年 1月) 13. Mumbai ( 2016年6月) 14. US Ohio ( 2016年10月) まもなく、ロンドン、パリ、モントリオール、中国寧夏に開設予定 http://aws.amazon.com/jp/about-aws/global-infrastructure/
  9. 9. 9 Amazon Elastic Compute Cloud (EC2) • 特徴 (http://aws.amazon.com/jp/ec2/) – 必要な時に必要なだけ1時間単位の従量課金で 利用できる仮想サーバリソース – 世界14箇所のリージョンで利用可能 – 汎用的なIntelアーキテクチャを採用 – 様々なスペック・OSを選択可能 – 管理者権限で利用可能 • 価格体系 (http://aws.amazon.com/jp/ec2/pricing/) – インスタンス利用料($0.01/hour 〜) – データ転送量(OUT $0.14/GB ) 仮想クラウドサーバ 9
  10. 10. 10 • 様々なスペックの仮想マシンが用意されており、用途に合わせて選択可能 (最小1vCPU 0.5GBメモリから 最大128vCPU 約2TBメモリ) 244 122 60/64 30/32 16 8 4 2 1 1 2 4 8 16 32/36 64 Memory(GiB) コアあたりのメモリ大 コア性能重視 小規模向け 汎用 vCPUhttp://aws.amazon.com/jp/ec2/instance-types/ 多彩なEC2インスタンスラインナップ 最大規模 X1
  11. 11. 11 • NVIDIA K80を最大16GPU搭載 • 計192GBのGPUメモリと 約40,000 CUDAコアを搭載 • 1台で70TFlops(単精度浮動小数点演算)を実現 • 1台で23TFlops(倍精度浮動小数点演算)を実現 • GPUDirect™によるpeer-to-peer 接続をサポート Instance Name GPU Count vCPU Count Memory Parallel Processing Cores GPU Memory Network Performance P2.xlarge 1 4 61GiB 2,496 12 GiB High P2.8xlarge 8 32 488GiB 19,968 96 GiB 10 Gigabit P2.16xlarge 16 64 732GiB 39,936 192 GiB 20 Gigabit <インスタンスサイズ> GPU搭載:P2インスタンス https://aws.amazon.com/jp/blogs/news/new-p2-instance-type-for-amazon-ec2-up-to-16-gpus/ バージニア・オレゴン・アイルランド の3リージョンで提供中
  12. 12. 12 • NVIDIA K80を最大16GPU搭載 • 計192GBのGPUメモリと 約40,000 CUDAコアを搭載 • 1台で70TFlops(単精度浮動小数点演算)を実現 • 1台で23TFlops(倍精度浮動小数点演算)を実現 • GPUDirect™によるpeer-to-peer 接続をサポート Instance Name GPU Count vCPU Count Memory Parallel Processing Cores GPU Memory Network Performance P2.xlarge 1 4 61GiB 2,496 12 GiB High P2.8xlarge 8 32 488GiB 19,968 96 GiB 10 Gigabit P2.16xlarge 16 64 732GiB 39,936 192 GiB 20 Gigabit <インスタンスサイズ> GPU搭載:P2インスタンス https://aws.amazon.com/jp/blogs/news/new-p2-instance-type-for-amazon-ec2-up-to-16-gpus/ バージニア・オレゴン・アイルランド の3リージョンで提供中
  13. 13. 13 Topology: p2.8xlarge
  14. 14. 14 Topology: p2.16xlarge
  15. 15. 15 容易にGPUインスタンスを利用するには
  16. 16. 16 インスタンスとAMI (Amazon Machine Image) • AMIはインスタンス起動に 必要なOSイメージ – イメージはS3に保存 • AWS以外にサードパーティ もAMIを提供 • 自由に自前のカスタムAMI を作成可能 – 作成したAMIは別アカウントと 共有可能 – カスタムAMIから何台でもEC2 インスタンスを起動可能 – 別リージョンへのコピーも可能 インスタンス Amazon S3 AMI Availability Zone-1a Availability Zone-1b カスタム AMI AMIからインス タンスを起動 カスタムAMIを 使って、インスタ ンスを複数台起動 カスタムAMIを作成 必要に応じて共有設定
  17. 17. 17 VM Import/Export • VMware/Hyper-V/XenServerのVMをそのまま移行可能 VMware/ Hyper-V/ XenServer 物理環境のVM Guest環境 お客様A Corporate Data center VM Import VM Guestを丸ごとAWS 上のEC2に移行が可能 エンジニア
  18. 18. 18 GPUインスタンスでGPUを使うには 通常のAMIに、NVIDIA DriverやCUDAをインストールすればOK AMI NVIDIA Driver NVIDIA CUDA GPUフレームワーク GPUアプリケーション
  19. 19. 19 普通のLinux AMIにも、この手順でGPUを利用可能
  20. 20. 20 https://developer.nvidia.com/gpu-cloud-images
  21. 21. 21 NVIDIA製AMI https://aws.amazon.com/marketplace/seller-profile?id=c568fe05-e33b-411c-b0ab-047218431da9 • Windows Server + Driver • CUDA7.5 + Amazon Linux • DIGITS4 + Ubuntu 14.04 • etc.
  22. 22. 22 AWS製AMIも https://aws.amazon.com/marketplace/pp/B01M0AXXQB?qid=1475211685369&sr=0-1&ref_=srh_res_product_title プリインストール済み • MXNet • Caffe • Tensorflow • Theano • Torch ※要CUDAインストールCUDA込みAMI出ました
  23. 23. 23 Deep Learning AMI 1.3にてCUDAプリインストール済みに Update https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#Images:visibility=public- images;ownerAlias=536913377013;sort=desc:name
  24. 24. 24 MXNET用クラスタをサクッと構築する機能も https://aws.amazon.com/blogs/compute/distributed-deep-learning-made-easy/ https://github.com/dmlc/mxnet/tree/master/tools/cfn
  25. 25. 25 Deep Learning on AWSのパターンと事例
  26. 26. 26 • 大規模データの収集・分析基盤としては以下の 4つの要素が必要と考えられます データ分析・学習に必要な基盤 収集 保存 分析・学習 可視化推論 収集したデー タをリアルタイ ムに基盤に転 送 データを長期 的に保存、検 索 大規模データ を高速に分析 (解析)、学習 モデル作成 分析結果の 考察(BI)や学 習モデルによ る推論
  27. 27. 27 Amazon.com での事例 • リコメンデーションモデルの生成に AWS上でDeep Learningを実行 • 前処理(データ生成)はSparkで実行 • 学習タスクと推論タスクはGPUインス タンス上のDockerで実行
  28. 28. 28 Amazon.com での事例 • 学習タスク: モデル並列処理 – N個のGPUで並列処理 – パラメータサーバで重みを共有 • 推論タスク: データ並列処理 – お客様毎のレコメンデーションを生成 – 大規模並列のGrid処理 学習タスク 推論タスク
  29. 29. 29 AWS Public Dataset
  30. 30. 30 AWS Public Dataset • Amazonが無料でデータをホスティング • 瞬時に利用可能 • データ利用・処理時に必要なITリソースは EC2にて必要なだけ利用可能 • HPCクラスタやHadoopクラスタ など大 規模クラスタが利用可能 https://aws.amazon.com/public-data-sets/ Amazon EC2 Instances Amazon S3 Bucket Public Data SetsはS3上のオ ブジェクト(ファイル)群として 保存・公開
  31. 31. 31 Public Dataset: ランドサット衛星画像 • NASAと米地質調査所(USGS)による Landsat 8のデータ • 地球の陸地全部の中解像度衛星画像 • 8万5000点のデータをS3に無償公開 – (常時追加中) • 3rd Partyツールによる解析やサービス – NASA Landsat-util – Esri ArcGIS – Mapbox Landsat-live – MATLAB https://aws.amazon.com/jp/public-data-sets/landsat/ http://aws.typepad.com/aws_japan/2013/11/process-earth-science-data-on-aws-with-nasa-nex.html http://blogs.mathworks.com/steve/2015/03/19/matlab-landsat-8-aws/
  32. 32. 32 Amazon Bin Image Data Set • Amazon Fulfillment Center (FC)内の棚 にある商品画像セットとメタデータをS3 に無償公開 • 1000以上のJPEGファイルとJSON形式の メタデータのペア https://aws.amazon.com/public-data-sets/amazon-bin-images/
  33. 33. 33 最後に イベント予告
  34. 34. 34
  35. 35. 35 Machine Learning Session at re:Invent 2016 https://www.portal.reinvent.awsevents.com/connect/search.ww#loadSearch- searchPhrase=MAC3+MAC2+MAC4&searchType=session&tc=0&sortBy=abbreviationSort&p=
  36. 36. 36 re:Invent報告会をJAWS-UG AI支部として 12/9この会場で開催します https://jawsug-ai.connpass.com/event/43542/
  37. 37. 37

×