Successfully reported this slideshow.
Your SlideShare is downloading. ×

AWS Webinar 20201224

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
JAWSUG 20210128
JAWSUG 20210128
Loading in …3
×

Check these out next

1 of 72 Ad

AWS Webinar 20201224

Download to read offline

2020年12月24日に開催されたイベント「AWS Webinar「AWSの最新GPUインスタンス - Amazon EC2 P4d」に「p4d.24xlarge のすゝめ~ 圧倒的なコスパを誇る GPU インスタンス ~」というテーマで登壇させて頂きました。そのときの発表資料です。

来栖川電算ではお客様の課題を解決する技術をお客様と共に研究開発をさせて頂いております。この研究開発において私たちは深層学習を活用することが多く、必要な計算資源を適切に調達してゆくことが重要となっています。

この発表では、まず「普段、私たちが、どのような研究開発に、どのような計算資源を、どのように活用しているのか」について紹介させて頂きました。主に、AHAB(弊社製の実験スケジューラ)を用いて、ハイブリッドクラウドを構築し、オンプレミス環境とクラウド環境の両方の計算資源を切り替えられるようにしているという話です。AHAB を用いれば、高価な計算資源を共有できるだけでなく、全ての環境でプログラムの修正なしに同じ実験を実施できます。ご興味がある方はお気軽にお問い合わせください。

次に、AWS から新しく登場した GPU インスタンス「p4d.24xlarge」の性能評価した結果を共有させて頂きました。実際の研究開発に用いている深層学習モデルを p4d.24xlarge(NVIDIA A100 40GB × 8)、p3dn.24large(NVIDIA V100 32GB × 8)、p3.16xlarge(NVIDIA V100 16GB × 8)、DGX-1(P100 16GB × 8)で学習して処理時間を評価しました。p4d.24xlarge を使いこなせていない現時点であっても、十分な費用対効果が期待できることが分かります。今後、A100 向けの最適化ノウハウを学び、使いこなしてゆくことで、更なる費用対効果が期待できます。資料には詳しい数値もたくさん掲載してありますので、ご興味がある方はご覧ください。

2020年12月24日に開催されたイベント「AWS Webinar「AWSの最新GPUインスタンス - Amazon EC2 P4d」に「p4d.24xlarge のすゝめ~ 圧倒的なコスパを誇る GPU インスタンス ~」というテーマで登壇させて頂きました。そのときの発表資料です。

来栖川電算ではお客様の課題を解決する技術をお客様と共に研究開発をさせて頂いております。この研究開発において私たちは深層学習を活用することが多く、必要な計算資源を適切に調達してゆくことが重要となっています。

この発表では、まず「普段、私たちが、どのような研究開発に、どのような計算資源を、どのように活用しているのか」について紹介させて頂きました。主に、AHAB(弊社製の実験スケジューラ)を用いて、ハイブリッドクラウドを構築し、オンプレミス環境とクラウド環境の両方の計算資源を切り替えられるようにしているという話です。AHAB を用いれば、高価な計算資源を共有できるだけでなく、全ての環境でプログラムの修正なしに同じ実験を実施できます。ご興味がある方はお気軽にお問い合わせください。

次に、AWS から新しく登場した GPU インスタンス「p4d.24xlarge」の性能評価した結果を共有させて頂きました。実際の研究開発に用いている深層学習モデルを p4d.24xlarge(NVIDIA A100 40GB × 8)、p3dn.24large(NVIDIA V100 32GB × 8)、p3.16xlarge(NVIDIA V100 16GB × 8)、DGX-1(P100 16GB × 8)で学習して処理時間を評価しました。p4d.24xlarge を使いこなせていない現時点であっても、十分な費用対効果が期待できることが分かります。今後、A100 向けの最適化ノウハウを学び、使いこなしてゆくことで、更なる費用対効果が期待できます。資料には詳しい数値もたくさん掲載してありますので、ご興味がある方はご覧ください。

Advertisement
Advertisement

More Related Content

Slideshows for you (19)

Similar to AWS Webinar 20201224 (20)

Advertisement

Recently uploaded (20)

Advertisement

AWS Webinar 20201224

  1. 1. p4d.24xlargeのすゝめ ~ 圧 倒 的 コ ス パ を 誇 る G P U イ ン ス タ ン ス ~ 2 0 2 0 . 1 2 . 2 4 1 1 : 2 5 ~ 1 1 : 5 0 A W S W e b i n a r 来 栖 川 電 算 取 締 役 山 口 陽 平 AWSの最新GPUインスタンス Amazon EC2 P4d - マシンラーニングとHPCに最適!
  2. 2. アジェンダ 1. 自己紹介 & 会社紹介 2. p4d.24xlarge 導入の動機 3. p4d.24xlarge の評価 4. 付録 2
  3. 3. 自己紹介 & 会社紹介 名古屋の AI ベンチャー 3
  4. 4. 山口陽平 何でも学び何でもやる人 4 有限会社来栖川電算 創業者・取締役・最高技術責任者 職務 全体 ビジョン・ビジネス・資金・設備・人員・制 度・文化・パートナーシップの計画・遂行 個別 企画,調査,研究,開発,運用,指導,教育, 広報,採用,… 略歴 2001 名古屋工業大学 知能情報システム 卒業 2003 名古屋工業大学 電気情報工学 修士課程 修了 有限会社来栖川電算 設立 IPA 未踏ソフトウェア創造事業 採択 2012 名古屋工業大学 情報工学 博士課程 退学 2013 Mashup Awards 9 優秀賞 受賞
  5. 5. 仕事 = 趣味 何にでも面白みを見出す人 5 休日も論文読み・プログラミング・コミュニティ活動・講演・執筆 興味 ロボット,AI,UI,UX 専門 機械学習,信号処理,記号処理,プログラミング言 語,コンパイラ,データベース,ソフトウェアアー キテクチャ,ソフトウェアプロセス 得意 分析,抽象化,高速化,省資源化,並列化,分散化 @melleo1978
  6. 6. 来栖川電算 • 様々な領域の顧客とともに彼らが抱える課題を解決 – AI・ML を応用した認識技術・自動化技術の研究開発 – ソフトウェア・アノテーションの製造・販売 – 研究開発を加速する基盤サービスの提供 6 設立 2003 年 名古屋工業大学発ベンチャー企業 従業員 82 人 急成長中
  7. 7. 7 AR付箋 書籍の中身を検索するアプリ Cellars ワインラベルで情報検索するアプリ 画像認識API 商品パッケージで情報検索するAPI 生活情報調査 道路沿いの視覚情報を収集し、活用 交通情報調査 道路沿いの視覚情報を収集し、活用 研究開発支援 タンゴチュウ 写真に写る単語を抽出するサービス 走行データ解析 周辺環境を認識し、様々な解析に活用 地図生成 オルソ画像から地物・交通規則を抽出 動作推定API 加速度センサで人の行動を推定 毎朝体操 腕の動きで体操採点するアプリ ヒーローの動きでゲームを制御 なりきり2.0 ー シ ョ ン 認 識 研究開発支援 研究開発支援 AHAB 大量の実験と計算資源を効率的に管理 ANNOFAB 高品質なアノテーションを大量に生産可能 DNN compiler DNNの推論を10~1000倍も効率化 GameControllerizer プログラマブル・ゲームコントローラ 研究開発支援 類似検索 類似検索 類似検索 文字認識 物体認識 物体認識 物体認識 物体認識 モーション認識 モーション認識 モーション認識物体認識 瞳孔位置推定 眼球運動を監視し、眠気の推定に活用
  8. 8. 顧客中心のワンストップ体制 8 AI・ML に関わる全工程を扱うため、適した工程で課題解決可能 AI・ML アプリ SI 基盤サービス AI・ML 基盤サービス データ モデルアノテータ デザイナ 研究者 開発者 顧客 全体 把握 最適 戦略
  9. 9. ハイレベルな人材 • 最先端の AI・ML 技術 – 文字認識,物体認識,行動認識,空間復元 • 限界性能を引き出す優れた実装技術 – 機械学習・コンパイラ・データベースなどのアルゴリズムやバ イナリハックを駆使した高精度化・高速化・省資源化・並列 化・分散化 • 高品質なソフトウェアを実現する技術 – アーキテクチャ・プロセスへの深い理解に基づく設計と計画 9 未踏採択者,コンテスト受賞者,MVP 受賞者,OSS 貢献者,…
  10. 10. 社会貢献:コミュニティ活動 10 勉強会の主催,スタッフ・会場の提供,スポンサー・寄付,…
  11. 11. 機械学習 名古屋 • 勉強会 開催:隔月 対象:初心者(非技術者も含む) – アルゴリズム紹介・事例紹介・ハンズオン • 研究会 開催:毎月 対象:研究者,技術者 – 機械学習関連の論文紹介・記事紹介 – 来栖川電算の研究者だけでなく日本各地の大学院生も参加 11 https://machine-learning.connpass.com/ 宣伝
  12. 12. P4d.24xlarge 導入の動機 とにかく実験を早く回したい 12
  13. 13. 研究の具体例 来栖川電算における 13
  14. 14. 地図生成 オルソ画像から地物・交通規則を抽出 自動運転や高度なモビリティサービスに使える水準の 地図をオルソ画像から高速に抽出する深層学習手法を 開発。株式会社トヨタマップマスター様との応用事例。 14
  15. 15. 生活情報調査 道路沿いの視覚情報を収集し、活用 アスクル株式会社様の営業車のドラレコを解析し、視 覚情報(ガソリン価格,駐車場満空,渋滞,事故,行 列,…)を DB 化。ヤフー株式会社様との共同研究。 15
  16. 16. 空港で働くロボット カート回収・荷物運搬 ※セントレアで実証実験 LiDAR 点群から求めた物体の3次元姿勢(位置・方 向)をカメラ映像のみから高精度に推定。新明工業株 式会社様・オンクラウズ株式会社様との共同研究。 16
  17. 17. 研究者の仕事 来栖川電算における 17
  18. 18. 研究者の仕事 • たくさんの実験の実施 ⇒ 良い結果 • 絡み合う実験の管理 ⇒ 研究の信頼性 18 仮説検証を回し、課題解決の道筋を付けること
  19. 19. 研究にまつわる課題 • こんな実験が “めっちゃ” たくさんある – 複数の工程からなる微妙に設定が異なる実験 – デカくて時間がかかる実験 • こんなことが “よく” 起きる – 手作業が挟まると取り違える。 – 後で確認(やり直し)したくなる。 – たまに死ぬので途中から再開したくなる。 ⇒実験パイプラインのコード化が重要 19 たくさんの絡み合うデカい実験を扱えるツールがない!
  20. 20. 計算環境の制約 • 各人が占有するやり方はしたくない – 費用・電源が足りない。調達・運用したくない。 – そもそも 1 人 1GPU 程度じゃ全然足りない。 • お客様が貸してくれる環境も活用したい – 大規模なオンプレ環境を用意してくれる。 • よく不足するのでクラウドも活用したい – 突発的に 100GPU 必要になることもある。 ⇒計算環境の抽象化・共有が重要 20 いろいろな環境の GPU を必要なときに必要なだけ使いたい
  21. 21. AHAB (実験スケジューラ) そういう理由で 2016 年から開発運用している 21
  22. 22. 計算環境の抽象化 22 計算環境が変わっても同じコードで OK ハードウェアの隠蔽 WebAPI・CLI WebAPI・CLI WebAPI・CLI 実験パイプライン ・実験コードの Docker 化 ・実験の依存関係のコード化
  23. 23. 2020 年 5 月 DGX A100 登場! 23 2.5 倍の速度で半額、消費電力は 65%、なんかめちゃ安くね? DGX-2 DGX-A100 GPU 計算速度 2 PF 5 PF GPU メモリ容量 512 GB 320 GB GPU 間通信速度 300 GB/s 600 GB/s 本体消費電力 10,000 W 6,500 W 本体価格 399,000 $ 199,000 $
  24. 24. p4d.24xlarge の評価 導入検討のために行った 24
  25. 25. 実験設定 4種類のハードウェア性能を比較する 25
  26. 26. 評価方法 評価用プログラム 画像セグメンテーションのための深層モデル(dilated conv や separable conv などでできた標準的 CNN)を分散学習するプログ ラム(TensorFlow 1 系 + Horovod ※Uber製 or Strict ※自社製) 26 評価プログラムで各ハードウェアのスループットを計測・比較する 評価対象ハードウェア GPU 種類 GPU 数 GPU 接続方式 GPU 接続構造 DGX-1 ※1 P100 16GB 8 GPU NVLink Hybrid Cube Mesh p3.16xlarge V100 16GB 8 GPU NVLink Hybrid Cube Mesh p3dn.24xlarge V100 32GB 8 GPU NVLink Hybrid Cube Mesh p4d.24xlarge A100 40GB 8 GPU NVLink Full Connection ※1・・・あるプロジェクトで3台使っている。今回これを更新できると嬉しい。
  27. 27. Horovod 27 凄く手軽な分散学習用フレームワーク ※ TF1 系勢にお勧め 1. NGC コンテナを使う。 2. Dockerfile に「pip install horovod」を追加する。 3. 次の修正が入ったコードを mpirun 経由で実行する。 # MonitoredTrainingSessionを使わない場合に、全GPUでモデルの重みを共有する方法(最初に1回だけやれば良い)の参考 session.run(tf.global_variables_initializer()) if arg_option.input_database != "": model.restore(session, arg_option.saver_format_version, arg_option.input_database) if arg_option.hvd: session.run(hvd.broadcast_global_variables(0)) # これで全GPUに重みが共有される 参考にしたサイト ⇒ https://github.com/horovod/horovod/blob/master/docs/tensorflow.rst
  28. 28. 実験結果 A100 のジャジャウマさに翻弄された 28
  29. 29. 単体性能比較:計算方式別 • V100 以降は AMP(混合精度計算へ近似する機能)で速くなる。 • 最小容量の GPU に合わせてバッチサイズ(10 事例)を設定したた め、V100 32GB と A100 40GB は本来の性能を発揮できていない。 29 A100 1GPU ≒ V100 1GPU × 1.6 ≒ P100 1GPU × 6.2 0.0 事例/秒 10.0 事例/秒 20.0 事例/秒 30.0 事例/秒 40.0 事例/秒 50.0 事例/秒 60.0 事例/秒 1GPU+FP32 1GPU+AMP DGX-1 (P100 16GB) p3.16xlarge (V100 16GB) p3dn.24xlarge (V100 32GB) p4d.24xlarge (A100 40GB)
  30. 30. 30 ハードウェア 使用資源 計算方式 分散方式 バッチサイズ スループット DGX-1 (P100 16GB) 1 GPU FP32 - 10 事例 8.3 事例/秒 p3.16xlarge (V100 16GB) 1 GPU FP32 - 10 事例 13.9 事例/秒 p3dn.24xlarge (V100 32GB) 1 GPU FP32 - 10 事例 13.3 事例/秒 p4d.24xlarge (A100 40GB) 1 GPU FP32 - 10 事例 32.3 事例/秒 DGX-1 (P100 16GB) 1 GPU AMP - 10 事例 × p3.16xlarge (V100 16GB) 1 GPU AMP - 10 事例 31.8 事例/秒 p3dn.24xlarge (V100 32GB) 1 GPU AMP - 10 事例 30.4 事例/秒 p4d.24xlarge (A100 40GB) 1 GPU AMP - 10 事例 51.2 事例/秒
  31. 31. 単体性能比較:バッチサイズ別 • バッチサイズを大きくすると性能が改善するとは言えない。 • 組み合わせ(モデル・計算方式・ハードウェア)によって、Tensor Core が使われやすい条件があり、その影響が大きいと思われる。 31 バッチサイズによって性能が 14% 程度変動する。 0.0 事例/秒 10.0 事例/秒 20.0 事例/秒 30.0 事例/秒 40.0 事例/秒 50.0 事例/秒 60.0 事例/秒 1GPU+10事例 1GPU+15事例 1GPU+17事例 1GPU+32事例 1GPU+40事例 p4d.24xlarge (A100 40GB)
  32. 32. 32 ハードウェア 使用資源 計算方式 分散方式 バッチサイズ スループット p4d.24xlarge (A100 40GB) 1 GPU AMP - 10 事例 51.2 事例/秒 p4d.24xlarge (A100 40GB) 1 GPU AMP - 15 事例 58.1 事例/秒 p4d.24xlarge (A100 40GB) 1 GPU AMP - 17 事例 58.2 事例/秒 p4d.24xlarge (A100 40GB) 1 GPU AMP - 32 事例 57.8 事例/秒 p4d.24xlarge (A100 40GB) 1 GPU AMP - 40 事例 50.9 事例/秒
  33. 33. 分散性能比較:分散方式別 • Horovod を使えば高い分散効率を得られる。精度に影響あるかも? • Strict(精度劣化しない方式,弊社製)では分散効率が悪い。P100 は計算が律速だったが、A100 は通信が律速になった。調整が要る。 33 A100 8GPU ≒ A100 1GPU × 7.0 ≒ V100 8GPU × 1.6 ≒ P100 8GPU × 5.7 0.0 事例/秒 50.0 事例/秒 100.0 事例/秒 150.0 事例/秒 200.0 事例/秒 250.0 事例/秒 300.0 事例/秒 350.0 事例/秒 400.0 事例/秒 1GPU 8GPU+Strict 8GPU+Horovod DGX-1 (P100 16GB) p3.16xlarge (V100 16GB) p3dn.24xlarge (V100 32GB) p4d.24xlarge (A100 40GB)
  34. 34. 34 ハードウェア 使用資源 計算方式 分散方式 バッチサイズ スループット p4d.24xlarge (A100 40GB) 1 GPU AMP - 40 事例 50.9 事例/秒 DGX-1 (P100 16GB) 8 GPU FP32 Strict 40 事例 47.1 事例/秒 p3.16xlarge (V100 16GB) 8 GPU AMP Strict 40 事例 98.8 事例/秒 p3dn.24xlarge (V100 32GB) 8 GPU AMP Strict 40 事例 104.7 事例/秒 p4d.24xlarge (A100 40GB) 8 GPU AMP Strict 40 事例 137.0 事例/秒 DGX-1 (P100 16GB) 8 GPU FP32 Horovod 40 事例 62.0 事例/秒 p3.16xlarge (V100 16GB) 8 GPU AMP Horovod 40 事例 222.2 事例/秒 p3dn.24xlarge (V100 32GB) 8 GPU AMP Horovod 40 事例 224.7 事例/秒 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 40 事例 354.0 事例/秒
  35. 35. 分散性能比較:バッチサイズ別 • バッチサイズを大きくすると分散性能が改善するとは言えない。 • A100 は V100 よりもバッチサイズによる性能の変動幅が大きい。 Tensor Core が使われる条件を理解しきれていないので探索が要る。 35 A100 8GPU ≒ 8.6 × A100 1GPU ≒ 1.8 × V100 8GPU ≒ 6.6 × P100 8GPU 0.0 事例/秒 100.0 事例/秒 200.0 事例/秒 300.0 事例/秒 400.0 事例/秒 1GPU+40事例 8GPU+40事例 8GPU+80事例 8GPU+120事例 8GPU+256事例 8GPU+320事例 DGX-1 (P100 16GB) p3.16xlarge (V100 16GB) p3dn.24xlarge (V100 32GB) p4d.24xlarge (A100 40GB) 分散方式 : Horovod
  36. 36. 36 ハードウェア 使用資源 計算方式 分散方式 バッチサイズ スループット p4d.24xlarge (A100 40GB) 1 GPU AMP - 40 事例 50.9 事例/秒 DGX-1 (P100 16GB) 8 GPU FP32 Horovod 40 事例 62.0 事例/秒 p3.16xlarge (V100 16GB) 8 GPU AMP Horovod 40 事例 222.2 事例/秒 p3dn.24xlarge (V100 32GB) 8 GPU AMP Horovod 40 事例 224.7 事例/秒 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 40 事例 354.0 事例/秒 DGX-1 (P100 16GB) 8 GPU FP32 Horovod 80 事例 65.8 事例/秒 p3.16xlarge (V100 16GB) 8 GPU AMP Horovod 80 事例 236.7 事例/秒 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 80 事例 390.2 事例/秒 p3.16xlarge (V100 16GB) 8 GPU AMP Horovod 120 事例 236.2 事例/秒 p3dn.24xlarge (V100 32GB) 8 GPU AMP Horovod 120 事例 236.2 事例/秒 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 120 事例 436.4 事例/秒 p3.16xlarge (V100 16GB) 8 GPU AMP Horovod 256 事例 231.7 事例/秒 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 256 事例 436.8 事例/秒 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 320 事例 390.2 事例/秒
  37. 37. 分散性能比較:バッチサイズ別 • バッチサイズを大きくすると分散性能が改善するとは言えない。 • A100 は V100 よりもバッチサイズによる性能の変動幅が大きい。 Tensor Core が使われる条件を理解しきれていないので探索が要る。 37 A100 8GPU ≒ 7.9 × A100 1GPU ≒ 2.7 × V100 8GPU ≒ 8.6 × P100 8GPU 0.0 事例/秒 100.0 事例/秒 200.0 事例/秒 300.0 事例/秒 400.0 事例/秒 1GPU+40事例 8GPU+40事例 8GPU+80事例 8GPU+120事例 8GPU+256事例 8GPU+320事例 DGX-1 (P100 16GB) p3.16xlarge (V100 16GB) p3dn.24xlarge (V100 32GB) p4d.24xlarge (A100 40GB) 分散方式 : Strict
  38. 38. 38 ハードウェア 使用資源 計算方式 分散方式 バッチサイズ スループット p4d.24xlarge (A100 40GB) 1 GPU AMP - 40 事例 50.9 事例/秒 DGX-1 (P100 16GB) 8 GPU FP32 Horovod 40 事例 47.1 事例/秒 p3.16xlarge (V100 16GB) 8 GPU AMP Horovod 40 事例 98.8 事例/秒 p3dn.24xlarge (V100 32GB) 8 GPU AMP Horovod 40 事例 104.7 事例/秒 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 40 事例 137.0 事例/秒 DGX-1 (P100 16GB) 8 GPU FP32 Horovod 80 事例 50.5 事例/秒 p3.16xlarge (V100 16GB) 8 GPU AMP Horovod 80 事例 97.7 事例/秒 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 80 事例 131.4 事例/秒 p3.16xlarge (V100 16GB) 8 GPU AMP Horovod 120 事例 97.3 事例/秒 p3dn.24xlarge (V100 32GB) 8 GPU AMP Horovod 120 事例 102.9 事例/秒 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 120 事例 135.6 事例/秒 p3.16xlarge (V100 16GB) 8 GPU AMP Horovod 256 事例 214.6 事例/秒 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 256 事例 403.8 事例/秒 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 320 事例 171.0 事例/秒
  39. 39. 精度比較 • AMP が使える状況では精度が改善したが、使えない状況では精度劣 化した。組み合わせ(モデル・計算方式・分散方式)の影響かも? 39 速くなったので、普段より学習時間を増やしたら、精度が改善した。 モデル ハードウェア 使用資源 計算方式 分散方式 学習時間 精度変化率 ベース p4d.24xlarge (A100 40GB) 1 GPU AMP - 11.3 時間 - ベース p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 2.1 時間 0.0 % チャネル数×2 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 4.1 時間 +0.7 % ステップ数×4 p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 8.3 時間 +0.9 % ベース DGX-1 (P100 16GB) 8 GPU FP32 Strict 11.8 時間 - ベース DGX-1 (P100 16GB) 8 GPU FP32 Horovod 11.1 時間 -4.0 %
  40. 40. まとめ A100 は性能の変動幅が大きいが、 雑に使っても V100 の 1.6 倍にはできそう 40
  41. 41. まとめ ※来栖川電算のモデルでの結論 • 圧倒的にコスパがいい • まだまだ伸びしろがある – A100 は、バッチサイズによ る性能の変動幅が大きい、通 信が律速になりやすい、ので 調整が要る。 – 組み合わせ(モデル・計算方 式・分散方式)で精度劣化す る恐れがあるので対策が要る。 41 3日 (P100 8GPU) が半日 (A100 8GPU) になるだけでも導入効果が高い A100 8GPU ≒ V100 8GPU × 1.7 ~ 1.8 A100 8GPU ≒ P100 8GPU × 6.3 ~ 6.6 A100 8GPU ≒ A100 1GPU × 7.0 ~ 8.7 V100 8GPU ≒ A100 1GPU × 4.4 ~ 4.7 P100 8GPU ≒ A100 1GPU × 1.2 ~ 1.3 A100 1GPU ≒ V100 1GPU × 1.6 A100 1GPU ≒ P100 1GPU × 5.7 p4d.24xlarge (A100 40GB) 32.7726 $/h p3dn.24xlarge (V100 32GB) 31.2120 $/h
  42. 42. 結論:買います! • DGX A100:3,000 万円 – 本体:2,000万円,保守3年:400万円,電気代3年:600万円 ※故障してから復旧まで使えない。社員の対応コストもかかる。 ※3年以上使えるが、3年後の新しいマシンの方が消費電力あた りの計算速度が高いので得しない可能性がある。 • p4d.24xlarge 3年リザーブドスタンダード:3000 万円 ※故障したら再起動するだけで直ぐに復旧できる。追加も簡単。 ⇒ 結論:クラウドのがいいね! 42 以下の理由により、DGX A100 ではなく p4d.24large に決定した
  43. 43. 事例・製品・サービス 付録1 43
  44. 44. 類似検索 膨大なデータの中から類似データを高速・高精度に照合できる 44
  45. 45. 画像認識 API 商品パッケージで情報検索する API 商品パッケージが写った画像を送信するだけで、膨大 な DB から瞬時に種類を特定。クロールした画像から 直接構築した DB を利用。 45
  46. 46. Cellars ワインラベルで情報検索するアプリ ワインラベルにスマホをかざすだけで、18 万件から 瞬時に種類を特定。国内外のコンテストで入賞。株式 会社 Cellars 様による弊社技術の応用事例。 46
  47. 47. AR 付箋 書籍の中身を検索するアプリ 書籍を開いてスマホをかざすだけで、膨大な DB から 瞬時にページを特定し、貼られている付箋を表示。お 客様による弊社技術の応用事例。 47
  48. 48. 物体認識 物体の位置・向き・姿勢・種類を高速・高精度に捉える 48
  49. 49. 走行データ解析 周辺環境を認識し、様々な解析に活用 膨大な走行データから歩行者・車両・白線・標識など を検出・追跡し、索引化。必要に応じて、CAN や Lidar なども活用し、高品質化。 49
  50. 50. 地図生成 オルソ画像から地物・交通規則を抽出 自動運転や高度なモビリティサービスに使える水準の 地図をオルソ画像から高速に抽出する深層学習手法を 開発。株式会社トヨタマップマスター様との応用事例。 50
  51. 51. 交通情報調査 道路沿いの視覚情報を収集し、活用 首都圏を走行する大量の車両のドラレコを解析し、視 覚情報(天候,路面状態,レーン別交通量,危険シー ン,…)を DB 化。顧客との研究事例。 51
  52. 52. 生活情報調査 道路沿いの視覚情報を収集し、活用 アスクル株式会社様の営業車のドラレコを解析し、視 覚情報(ガソリン価格,駐車場満空,渋滞,事故,行 列,…)を DB 化。ヤフー株式会社様との共同研究。 52
  53. 53. 瞳孔位置推定 眼球運動を監視し、眠気の推定に活用 スマートグラスで撮影した映像から瞳孔位置・閉眼状 態を高精度に推定。個人差・外乱に頑健。エッジで 60 fps。知の拠点あいち重点研究プロジェクト事業。 53
  54. 54. 文字認識 様々な書体・外乱に対応した 54
  55. 55. タンゴチュウ 写真に写る単語を抽出するサービス 情景画像(スマホで撮影した写真など)に写る単語を 抽出。様々な書体・配置・劣悪な環境(歪み・隠れ・ 擦れ・照明など)での利用を想定。 55
  56. 56. モーション認識 身体の動き・姿勢を高速・高精度に捉える 56
  57. 57. 生体情報推定 特別なセンサなしに生体情報を推定 スマホやウォッチに搭載されている標準的なセンサの みを用いて生体情報を推定(センサエミュレーショ ン)。株式会社 NTT ドコモ様との共同研究。 57
  58. 58. 動作推定 API 加速度センサで人の行動を推定 スマホやウォッチの動きから静止・歩行・走行・食 事・睡眠などを推定。同じ仕組みで撮影時の手振れ検 出も可能。株式会社 NTT ドコモ様との共同研究。 58
  59. 59. 毎朝体操 腕の動きで体操採点するアプリ 100 ヶ国 20 万人を超えるユーザから日々送られてく るセンサデータを学習することで体操採点の正確さが 自動改善。JFE スチール株式会社様へ導入。 59
  60. 60. なりきり 2.0 ヒーローの動きでゲームを制御 腕や脚に装着したセンサで体の動きを捉え、家庭用 ゲーム機のコマンドを生成。格闘ゲームが遊べるほど の速さと正確さをスマホ上で実現。 60
  61. 61. ロボット 人と混在する空間で働く 61
  62. 62. 空港で働くロボット カート回収・荷物運搬 ※セントレアで実証実験 LiDAR 点群から求めた物体の3次元姿勢(位置・方 向)をカメラ映像のみから高精度に推定。新明工業株 式会社様・オンクラウズ株式会社様との共同研究。 62
  63. 63. 研究開発支援 日々使い改良される道具による 63
  64. 64. DNN compiler DNNの推論を 10 ~ 1000 倍も高速化 重みや活性の量子化・スパース化、計算の共有などの 様々な手法で DNN を近似し、高速化・省資源化され た実行形式(Linux・Android・iOS)へ変換。 64
  65. 65. AHAB 大量の実験と計算資源を効率的に管理 計算資源をハイブリッドクラウド化する実験スケ ジューラ。実験のスクリプト化、信頼性や再現性の向 上、資源割り当ての効率化などを促進。 65
  66. 66. ANNOFAB 高品質な教師データを大量に生産可能 品質と生産性のトレードオフ、誤り漏れの削減、きめ 細かく柔軟な仕様・課題・進捗の管理。実務で培った ノウハウが詰まったアノテーションサービス。 66
  67. 67. GameControllerizer プログラマブル・ゲームコントローラ ゲーム機・PC・スマホなどに接続するだけでゲーム 操作をプログラミング可能にするデバイス。ビジュア ル・プログラミング(Node-REDなど)にも対応。 67
  68. 68. 体制・設備・働き方 付録2 68
  69. 69. 役職 研究者 開発者 デザイナ アノテータ その他 合計 役員・正社員 11.2 % 11.1 % 0.1 % 3.0 % 1.4 % 26.7 % アルバイト/即戦力枠 5.5 % 4.1 % 1.4 % 15.8 % 0.7 % 27.4 % アルバイト/育成枠 0.7 % 0.7 % 0.0 % 0.0 % 0.0 % 1.4 % アルバイト/試用枠 0.0 % 0.7 % 0.0 % 0.0 % 0.0 % 0.7 % パートナー 0.0 % 4.1 % 0.0 % 39.0 % 0.7 % 43.8 % 合計 17.3 % 20.7 % 1.4 % 57.8 % 2.7 % 100.0 % 柔軟な体制 69 ワンストップ体制を支えるために様々な技術者がバランスよく在籍
  70. 70. 豊富な資源 • 理想的な個人設備 – PC,椅子,モニタ,キーボード,マウス,… • スグに使える計算資源とアノテータ – AHAB:実験用ハイブリッドクラウド – ANNOFAB:アノテーションサービス • 世界中から集まるデータ – ロボットサービス用データ,自動運転用データ,商品認識用 データ,文字認識用データ,体操採点用データ,… 70 研究開発を円滑にするためにあらゆる手を尽くす
  71. 71. 創造的な働き方 • 様々な働き方 – 自由な時間帯・場所,エージェント・冒険者(実力のある学生向けの 時短勤務制度),JEDI(優秀な同僚によるメンタリング制度),… • 優秀な同僚 – 未踏採択者,コンテスト入賞者,OSS 貢献者,MVP,… • その他 ※全て会社負担 – 自己研鑽のための書籍・機材の購入,勉強会・懇親会の開催・ 参加・移動・宿泊,会社の昼会・夕会・飲み会で出る飲食物 71 技術を磨きやすくするためにあらゆる手を尽くす
  72. 72. 72 募集中 研究者 開発者 デザイナ

×