SlideShare a Scribd company logo

SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~

SSII
SSII

SSII2019 オーガナイズドセッション3「深層学習の高速化 ~高速チップ、分散学習、軽量モデル~」 6月14日(金) 10:35〜12:05 (メインホール)

1 of 38
Download to read offline
深層学習にかかる時間を短くしてみませんか?
~分散学習の勧め~
ソニー株式会社
田中 義己
SSII 2019 - OS3 深層学習の高速化
Copyright 2019 Sony Corporation2019.06.142
Agenda
• 背景:学習規模の拡大
• 分散学習とは
• 分散学習を支えるテクニック
• 分散学習の始めてみる
• まとめ
Copyright 2019 Sony Corporation2019.06.143
背景
Copyright 2019 Sony Corporation2019.06.144
Facebook
インスタグラムの35億枚の写真を利用し、ImageNet で精度85.4%を実現
(通常のImageNetの学習は128万枚 * 90エポック=約1.1億枚相当で 76.8~9%)
336 GPU/42 Node, 22Days ※ 2018.5.2 F8 で発表
Copyright 2019 Sony Corporation2019.06.145
※ Y. Haung et al. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism, Google
精度改善のために一桁以上大きいモデルも登場
モデルを大きくすることで 84.3% の精度を達成
参考:ResNet-50 224 × 224 25M 76.4 92.9
Copyright 2019 Sony Corporation2019.06.146
Deep Learning 学習規模の拡大
活用・収集される
学習データは年々増加
入力画像の解像度の増加
■ 学習データの高精細化■ 学習データ量の増加 ■ 学習モデルのサイズ増加
より高度な処理の実現の為に
学習モデルサイズも増加
物体認識
物体検出
セグメンテーション
1024x2048
408x408
224x224
CAT
新産業構造ビジョン(H29.5.30経済産業省)より
世界のデータ量は2年毎に倍増
世界のデータセンターに保存されるデータ量 ※ Y. Haung et al. GPipe: Efficient Training of Giant Neural
Networks using Pipeline Parallelism, Google

Recommended

【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証Masaharu Kinoshita
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたいTakuji Tahara
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 

More Related Content

What's hot

Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Fumihiko Takahashi
 
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点Ichigaku Takigawa
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向Yusuke Uchida
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知Hideo Terada
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
分散深層学習 @ NIPS'17
分散深層学習 @ NIPS'17分散深層学習 @ NIPS'17
分散深層学習 @ NIPS'17Takuya Akiba
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
[DL輪読会]大規模分散強化学習の難しい問題設定への適用[DL輪読会]大規模分散強化学習の難しい問題設定への適用
[DL輪読会]大規模分散強化学習の難しい問題設定への適用Deep Learning JP
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章Hakky St
 

What's hot (20)

Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
 
分散深層学習 @ NIPS'17
分散深層学習 @ NIPS'17分散深層学習 @ NIPS'17
分散深層学習 @ NIPS'17
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
[DL輪読会]大規模分散強化学習の難しい問題設定への適用[DL輪読会]大規模分散強化学習の難しい問題設定への適用
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
 

Similar to SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~

SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也harePreferred Networks
 
(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向Morpho, Inc.
 
サイボウズ・ラボユース成果発表会資料
サイボウズ・ラボユース成果発表会資料サイボウズ・ラボユース成果発表会資料
サイボウズ・ラボユース成果発表会資料masahiro13
 
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢apkiban
 
MII conference177 nvidia
MII conference177 nvidiaMII conference177 nvidia
MII conference177 nvidiaTak Izaki
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence LearningDeep Learning JP
 
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話Kamonohashi
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)Tenki Lee
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今Developers Summit
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会Kimikazu Kato
 
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)Yaboo Oyabu
 
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座Silicon Studio Corporation
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)RCCSRENKEI
 
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理NTT DATA Technology & Innovation
 
GPUディープラーニング最新情報
GPUディープラーニング最新情報GPUディープラーニング最新情報
GPUディープラーニング最新情報ReNom User Group
 
明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)
明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)
明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)NTT DATA Technology & Innovation
 
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)tomohiro kato
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroupManaMurakami1
 

Similar to SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~ (20)

SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
 
(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向
 
サイボウズ・ラボユース成果発表会資料
サイボウズ・ラボユース成果発表会資料サイボウズ・ラボユース成果発表会資料
サイボウズ・ラボユース成果発表会資料
 
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
GraalVM の概要と、Native Image 化によるSpring Boot 爆速化の夢
 
MII conference177 nvidia
MII conference177 nvidiaMII conference177 nvidia
MII conference177 nvidia
 
UE4を用いたTPS制作事例 EDF:IR アニメーション作成事例紹介
UE4を用いたTPS制作事例 EDF:IR アニメーション作成事例紹介UE4を用いたTPS制作事例 EDF:IR アニメーション作成事例紹介
UE4を用いたTPS制作事例 EDF:IR アニメーション作成事例紹介
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
 
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
 
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
CEDEC 2007 ゲーム開発者向け最新技術論文の解説・実装講座
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
 
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
 
GPUディープラーニング最新情報
GPUディープラーニング最新情報GPUディープラーニング最新情報
GPUディープラーニング最新情報
 
明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)
明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)
明日から始める! ソフトウェアのグリーン化(GSF MeetUp Tokyo 発表資料)
 
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroup
 

More from SSII

SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII
 
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII
 
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
 
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメントSSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメントSSII
 
SSII2021 [OS1-02] まち全体のインフラや人流をサステナブルに計測する
SSII2021 [OS1-02] まち全体のインフラや人流をサステナブルに計測するSSII2021 [OS1-02] まち全体のインフラや人流をサステナブルに計測する
SSII2021 [OS1-02] まち全体のインフラや人流をサステナブルに計測するSSII
 
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~SSII
 
SSII2021 [OS1] SDGsを実現するセンシング技術 ~ 海と都市とエネルギーを持続させるために ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS1] SDGsを実現するセンシング技術 ~ 海と都市とエネルギーを持続させるために ~(オーガナイザーによる冒頭の導入)SSII2021 [OS1] SDGsを実現するセンシング技術 ~ 海と都市とエネルギーを持続させるために ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS1] SDGsを実現するセンシング技術 ~ 海と都市とエネルギーを持続させるために ~(オーガナイザーによる冒頭の導入)SSII
 

More from SSII (20)

SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
 
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
 
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメントSSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
 
SSII2021 [OS1-02] まち全体のインフラや人流をサステナブルに計測する
SSII2021 [OS1-02] まち全体のインフラや人流をサステナブルに計測するSSII2021 [OS1-02] まち全体のインフラや人流をサステナブルに計測する
SSII2021 [OS1-02] まち全体のインフラや人流をサステナブルに計測する
 
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~
 
SSII2021 [OS1] SDGsを実現するセンシング技術 ~ 海と都市とエネルギーを持続させるために ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS1] SDGsを実現するセンシング技術 ~ 海と都市とエネルギーを持続させるために ~(オーガナイザーによる冒頭の導入)SSII2021 [OS1] SDGsを実現するセンシング技術 ~ 海と都市とエネルギーを持続させるために ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS1] SDGsを実現するセンシング技術 ~ 海と都市とエネルギーを持続させるために ~(オーガナイザーによる冒頭の導入)
 

Recently uploaded

20240227 完全に理解した LT 「mise いいよ mise」 / morishin
20240227 完全に理解した LT 「mise いいよ mise」 / morishin20240227 完全に理解した LT 「mise いいよ mise」 / morishin
20240227 完全に理解した LT 「mise いいよ mise」 / morishinMakoto Mori
 
20240227_IoTLT_vol108____kitazaki_v1.pdf
20240227_IoTLT_vol108____kitazaki_v1.pdf20240227_IoTLT_vol108____kitazaki_v1.pdf
20240227_IoTLT_vol108____kitazaki_v1.pdfAyachika Kitazaki
 
00001_test_automation_portfolio_20240227
00001_test_automation_portfolio_2024022700001_test_automation_portfolio_20240227
00001_test_automation_portfolio_20240227ssuserf8ea02
 
BusTimeTable by Edge Runtime - 公共交通オープンデータ最前線2024 -
BusTimeTable by Edge Runtime - 公共交通オープンデータ最前線2024 -BusTimeTable by Edge Runtime - 公共交通オープンデータ最前線2024 -
BusTimeTable by Edge Runtime - 公共交通オープンデータ最前線2024 -yuutahatano
 
Kubernetes環境のアプリケーションバックアップソフトウェアKasten K10ご紹介
Kubernetes環境のアプリケーションバックアップソフトウェアKasten K10ご紹介Kubernetes環境のアプリケーションバックアップソフトウェアKasten K10ご紹介
Kubernetes環境のアプリケーションバックアップソフトウェアKasten K10ご紹介FumieNakayama
 
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
scikit-learn以外の分類器でpipelineを作ってみた! いずみん
scikit-learn以外の分類器でpipelineを作ってみた! いずみんscikit-learn以外の分類器でpipelineを作ってみた! いずみん
scikit-learn以外の分類器でpipelineを作ってみた! いずみんtoshinori622
 

Recently uploaded (7)

20240227 完全に理解した LT 「mise いいよ mise」 / morishin
20240227 完全に理解した LT 「mise いいよ mise」 / morishin20240227 完全に理解した LT 「mise いいよ mise」 / morishin
20240227 完全に理解した LT 「mise いいよ mise」 / morishin
 
20240227_IoTLT_vol108____kitazaki_v1.pdf
20240227_IoTLT_vol108____kitazaki_v1.pdf20240227_IoTLT_vol108____kitazaki_v1.pdf
20240227_IoTLT_vol108____kitazaki_v1.pdf
 
00001_test_automation_portfolio_20240227
00001_test_automation_portfolio_2024022700001_test_automation_portfolio_20240227
00001_test_automation_portfolio_20240227
 
BusTimeTable by Edge Runtime - 公共交通オープンデータ最前線2024 -
BusTimeTable by Edge Runtime - 公共交通オープンデータ最前線2024 -BusTimeTable by Edge Runtime - 公共交通オープンデータ最前線2024 -
BusTimeTable by Edge Runtime - 公共交通オープンデータ最前線2024 -
 
Kubernetes環境のアプリケーションバックアップソフトウェアKasten K10ご紹介
Kubernetes環境のアプリケーションバックアップソフトウェアKasten K10ご紹介Kubernetes環境のアプリケーションバックアップソフトウェアKasten K10ご紹介
Kubernetes環境のアプリケーションバックアップソフトウェアKasten K10ご紹介
 
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
 
scikit-learn以外の分類器でpipelineを作ってみた! いずみん
scikit-learn以外の分類器でpipelineを作ってみた! いずみんscikit-learn以外の分類器でpipelineを作ってみた! いずみん
scikit-learn以外の分類器でpipelineを作ってみた! いずみん
 

SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~

  • 2. Copyright 2019 Sony Corporation2019.06.142 Agenda • 背景:学習規模の拡大 • 分散学習とは • 分散学習を支えるテクニック • 分散学習の始めてみる • まとめ
  • 3. Copyright 2019 Sony Corporation2019.06.143 背景
  • 4. Copyright 2019 Sony Corporation2019.06.144 Facebook インスタグラムの35億枚の写真を利用し、ImageNet で精度85.4%を実現 (通常のImageNetの学習は128万枚 * 90エポック=約1.1億枚相当で 76.8~9%) 336 GPU/42 Node, 22Days ※ 2018.5.2 F8 で発表
  • 5. Copyright 2019 Sony Corporation2019.06.145 ※ Y. Haung et al. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism, Google 精度改善のために一桁以上大きいモデルも登場 モデルを大きくすることで 84.3% の精度を達成 参考:ResNet-50 224 × 224 25M 76.4 92.9
  • 6. Copyright 2019 Sony Corporation2019.06.146 Deep Learning 学習規模の拡大 活用・収集される 学習データは年々増加 入力画像の解像度の増加 ■ 学習データの高精細化■ 学習データ量の増加 ■ 学習モデルのサイズ増加 より高度な処理の実現の為に 学習モデルサイズも増加 物体認識 物体検出 セグメンテーション 1024x2048 408x408 224x224 CAT 新産業構造ビジョン(H29.5.30経済産業省)より 世界のデータ量は2年毎に倍増 世界のデータセンターに保存されるデータ量 ※ Y. Haung et al. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism, Google
  • 7. Copyright 2019 Sony Corporation2019.06.147 学習高速化のアプローチ H/W の進化 学習アルゴの進化 分散学習 • GPUはここ数年で 3-4倍の性能向上 • 学習専用チップの登場 • より早く学習を収束させ るためのテクニックの提 案 • AWSなどのGPU環境 • GPUスパコンの台頭 本日の私のお話
  • 8. Copyright 2019 Sony Corporation2019.06.148 スパコン Top500 Top10 の半分以上が GPU ベース。日本では ABCI(産総研)が Top10 入り!
  • 9. Copyright 2019 Sony Corporation2019.06.149 ABCI 概要 • 産総研が主導する産官学プロジェクトABCI (AI Bridging Cloud Infrastructure) • AI特化型のスパコンであり、当初からTensorFlowや Caffe、Chainerへの対応を想定 • 安価・超高効率なデータセンター構築ができるかどうかを 実証 • 構成 • NVIDIA Volta 4352基 • 理論ピーク性能 • FP16: 550 PFLOPS • FP64: 37 PFLOPS • ベンチマーク • TOP500: 7位 • Green500: 4位 • 場所 • 東京大学・柏IIキャンパス AI Bridging Cloud Infrastructure (ABCI) 東京大学/産総研
  • 10. Copyright 2019 Sony Corporation2019.06.1410 ImageNet/ResNet-50 の学習時間 Batch Size Processor DL Library Time Accuracy Microsoft(2015/12) 256 Tesla P100 x8 Caffe 29 hours 75.3% Facebook(2017/6) 8K Tesla P100 x256 Caffe2 1 hour 76.3% PFN(2017/11) 32K Tesla P100 x1024 Chainer 15 mins 74.9% Tencent(2018/07) 64K Tesla P40 x2048 TensorFlow 6.6 mins 75.8% SONY(2018/11) 34K->68K Tesla V100 x2176 NNL 3.7mins 75.03% Google(2018/11) 32K TPU v3 x1024 TensorFlow 2.2 mins 76.3% Google(2018/11) 64K TPU v3 x1024 TensorFlow 1.8 mins 75.2% SONY(2019/03) 54K Tesla V100 x3456 NNL 2.0 mins 75.29% Fujitsu(2019/04) 80K Tesla V100 x2048 MXNet 1.2 mins 75.08% 1400倍以上の 性能向上 • 1400万枚以上を越えるタグ付け画像 • タグは2万種類以上 ILSVRC2012(1000種類/128万枚)データセットによる学習時間記録 ImageNet
  • 11. Copyright 2019 Sony Corporation2019.06.1411 分散学習とは
  • 12. Copyright 2019 Sony Corporation2019.06.1412 DNN学習 (Deep Learning) ミニバッチ学習 学習データセットを適度なサイズの “ミニバッチ” に分割し 学習を繰り返し(学習 Iteration) ながらパラメータ(重み)を更新していく 出力 学習済モデル 学習開始 学習終了 学習 学習データ 入力 DNNモデル 学習 Iteration 1つのworkerでミニバッチ学習 学習 GPU GPU GPU N/W CPU この1回の学習データ量を バッチサイズ(Batch Size)と呼ぶ
  • 13. Copyright 2019 Sony Corporation2019.06.1413 分散学習:データパラレルとモデルパラレル データパラレル モデルパラレル Pros 負荷を均等に分割することが容易で処理のばらつき が少なく、シンプルなシステム構成で実現できる。 各 worker で必要とするメモリを少なく抑えること ができる。バッチサイズ増加を抑制する効果も。 Cons バッチサイズ増加による収束速度が劣化する。 各 worker の処理効率を高めるのが難しい。 データパラレル モデルパラレル 学習データ DNNモデル 分割 学習データ DNNモデル 分割 入力となる学習データを分割させて学習する方式 学習モデル自体を分割させて学習する方式 本日はデータパラレルのみ
  • 14. Copyright 2019 Sony Corporation2019.06.1414 分散学習(データパラレル)と課題 複数workerでミニバッチ学習:学習後にパラメータ同期が必要 GPU GPU GPU N/W N/W CPU GPU GPU GPU CPU GPU GPU GPU N/W CPU GPU GPU GPU N/W CPU 複数workerでのミニバッチ学習 GPU GPU GPU N/W N/W CPU GPU GPU GPU CPU GPU GPU GPU N/W CPU GPU GPU GPU N/W CPU マシン間で学習パラメータを同期 学習開始 学習終了 学習 同期 学習 学習 学習 学習 学習 パラメータ 学習 パラメータ 学習 パラメータ 学習 パラメータ 学習 Iteration 学習 学習 学習データ 入力 DNNモデル 出力 学習済モデル 同期
  • 15. Copyright 2019 Sony Corporation2019.06.1415 分散学習(データパラレル)と課題 複数workerでミニバッチ学習:学習後にパラメータ同期が必要 GPU GPU GPU N/W N/W CPU GPU GPU GPU CPU GPU GPU GPU N/W CPU GPU GPU GPU N/W CPU 複数workerでのミニバッチ学習 GPU GPU GPU N/W N/W CPU GPU GPU GPU CPU GPU GPU GPU N/W CPU GPU GPU GPU N/W CPU マシン間で学習パラメータを同期 学習開始 学習終了 学習 同期 学習 学習 学習 学習 学習 パラメータ 学習 パラメータ 学習 パラメータ 学習 パラメータ 学習 Iteration 学習 学習 学習データ 入力 DNNモデル 出力 学習済モデル 同期 課題②: パラメータ同期処理の オーバーヘッドにより、 学習時間が逆に増加する。 課題①: Batch Size が大きくなる (worker数倍)ことにより、 学習精度の劣化する。
  • 16. Copyright 2019 Sony Corporation2019.06.1416 分散学習を支えるテクニック
  • 17. Copyright 2019 Sony Corporation2019.06.1417 分散学習のテクニック 課題②:パラメータ同期処理のオー バーヘッドによる学習時間の増加 課題①:Batch Size が大きくなるこ とによる学習精度の劣化 HPC(スパコン) • 高速集団通信/MPI • GPUDirect, RDMA ネットワーク/プロセッシング • Gradient逐次転送 • Gradient量子化 • Gradientスパース化 パラメータ最適化 • ハイパーパラメータ探索 • モデル化 Deep Learning アルゴリズム • SGD, Optimizer tuning • Learning Rate Warm-up/Decay • Batch Size Control 高速データ同期Large Batch 学習収束
  • 18. Copyright 2019 Sony Corporation2019.06.1418 ① Large Batch 学習収束のテクニック
  • 19. Copyright 2019 Sony Corporation2019.06.1419 Large Batch 学習で精度劣化する要因 重みの更新回数が減少し 最適解に近づくのが難しくなる 𝑤𝑤𝑡𝑡+1 = 𝑤𝑤𝑡𝑡 − 𝜂𝜂 𝐵𝐵1 � 𝑥𝑥𝑖𝑖∈𝐵𝐵1 𝛻𝛻𝑙𝑙(𝑥𝑥𝑖𝑖, 𝑤𝑤𝑡𝑡 ) 𝑤𝑤𝑡𝑡+1 = 𝑤𝑤𝑡𝑡 − 𝜂𝜂 2 𝐵𝐵1 � 𝑥𝑥𝑖𝑖∈𝐵𝐵2 𝛻𝛻𝑙𝑙 𝑥𝑥𝑖𝑖, 𝑤𝑤𝑡𝑡 解 𝑤𝑤 ∶ 重み 𝐵𝐵1 ∶ バッチサイズ 𝜂𝜂 ∶ 学習率(𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟) 1 worker 2 workers データが持つノイズが薄まるため Sharp Minima に陥りやすくなる ※ N. S. Keskar et al. “On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima” ICLR 2017
  • 20. Copyright 2019 Sony Corporation2019.06.1420 LR(Learning Rate) を減衰させる 例 step decay) 減衰するポイントの選び方:”Test-errorが下がらなくなったとき” とすることが多い (1 worker の時でも有効、特に画像系タスク) ◯の部分(30, 60, 80 epoch後)で LR を1/10に減衰 他にも decay scheduling の手法あり Learning Rate Decay https://mxnet.incubator.apache.org/versions/master/tut orials/gluon/learning_rate_schedules.html
  • 21. Copyright 2019 Sony Corporation2019.06.1421 Learning Rate の調整 LR Warm-up なし LR Warm-up あり • Learning Rate Scaling LRをworker数倍する • Learning Rate Warm-up 初期数エポック間 LR を徐々に上昇させる 調整の例) 学習開始時の LRの値: 1 worker時の LR 最大値 LR = 初期値 * worker数 まで線形に増加
  • 22. Copyright 2019 Sony Corporation2019.06.1422 LARS* 学習率を重みの変化比率に応じてレイヤ毎に決定 さらに学習率を連続的に減衰させる * Y. You, I. Gitman and B. Ginsburg, "Large Batch Training of Convolutional Networks," arXiv:1708.03888, 2017. 最近の Large Batch の分散学習では標準的に利用されるテクニック
  • 23. Copyright 2019 Sony Corporation2019.06.1423 Synced BN ※ https://hangzhang.org/PyTorch-Encoding/notes/syncbn.html Non-Synced BN Synced BN Forward Backward Calculate the gradient of sum(x) and sum(𝑥𝑥2 ) in each GPU. 複数のworker間に跨ってBNすることで、 BN の効果を最大化する方法 global mean : µ = 𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥 𝑁𝑁 , global variance : σ = 𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥2 𝑁𝑁 − µ2 + ε 𝑑𝑑𝑙𝑙 𝑑𝑑𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥 𝑘𝑘 , 𝑑𝑑𝑙𝑙 𝑑𝑑𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥2 𝑘𝑘 Calculate the gradient of 𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥 and 𝑠𝑠𝑠𝑠𝑠𝑠 𝑥𝑥2
  • 24. Copyright 2019 Sony Corporation2019.06.1424 Batch-size Control より沢山のGPUを利用する為に、学習の途中でBatch Size を増加させる GPU数が 100~1000基以上になってくると有効 学習初期 Lossの変化が激しい バッチサイズが大きいと振れ幅が大きく Lossが安定して下がらない バッチサイズを小さくする 学習終盤 Lossの変化がなだらか バッチサイズが大きくても振れ幅が小さく Lossが安定して下がる バッチサイズを上げられる 仮説:Lossの傾きからバッチサイズの最大値を導く 0 2 4 6 8 10 1 11 21 31 41 51 61 71 81 エポック TrainingLoss 34K 1088 68K 2176 85K 2720 119K 3808 バッチサイズ: #GPUs: Lossの傾きに応じて バッチサイズを増加 e.g.) ImageNet/ResNet-50での最大3808GPU利用した学習の収束
  • 25. Copyright 2019 Sony Corporation2019.06.1425 ② 高速データ同期のテクニック
  • 26. Copyright 2019 Sony Corporation2019.06.1426 Gradient 逐次転送 学習しながら勾配同期を行うことで同期オーバーヘッドを限りなく0にする BackwardForward Update Gradient Sync Sync Sync勾配同期 学習処理 学習 同期 出力 学習済モデル 学習開始 学習終了 学習データ 入力 DNNモデル 学習 Iteration 学習(Backward)が完了した Layer から順に、勾配(Gradient)を他のマシンに同期(送信)
  • 27. Copyright 2019 Sony Corporation2019.06.1427 Deep Gradient Compression* (Gradient スパース化) ■ レイヤー毎に閾値処理で送信するGradientを抽出 • |𝑮𝑮𝒊𝒊| > 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒕𝒕 ⇒ 送信 • |𝑮𝑮𝒊𝒊| ≤ 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒕𝒕 ⇒ 送信せず残して次のイテレーションに持ち越す Thresholdの決め方:イテレーション毎に X%送信できるような Threshold を探す。 ▶ 送信されずに残った Gradient により収束劣化が発生する可能性がある ■ 収束劣化を防ぐテクニック • Momentum Correction • Local Gradient Clipping • Momentum Factor Masking • Warmup Training * Yujun Lin, Song Han, Huizi Mao, Yu Wang, William J. Dally, Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training, arXiv:1712.01887
  • 28. Copyright 2019 Sony Corporation2019.06.1428 高速集団通信/MPI Ring All-Reduce 帯域幅を最大限に有効活用できる方法 ただし、GPU数の増加に伴いレイテンシが増加 全GPUを RING 上に論理的に配置 2D-Torus All-Reduce 2次元にGPUを仮想的に配置し、複数のRingを Torus状に構成する(2D-Torus) • 通信回数を 4( 𝑁𝑁 − 1) に削減 (X=Y= 𝑁𝑁の時) 2D-Torus による Ring 構成 • GPU数をNとすると、2(N-1)回の通信が発生
  • 29. Copyright 2019 Sony Corporation2019.06.1429 2D-Torus All-Reduce による勾配同期 2D-Torus 上で行方向・列方向それぞれに集合通信を行う 例) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 I. Reduce-Scatter in the horizontal direction 6 8 3 4 5 6 10 12 22 24 11 12 13 14 26 28 28 32 3 4 5 6 36 40 28 32 11 12 13 14 36 40 28 32 36 40 28 32 36 40 28 32 36 40 28 32 36 40 II. All-Reduce in the vertical direction III. All-Gather in the horizontal direction IV. Completed Add Copy Add Copy Add GPU0 GPU1 GPU0 GPU2 GPU3 GPU1 GPU2 GPU3 GPU0 GPU1 GPU2 GPU3 GPU0 GPU1 GPU2 GPU3 Add
  • 30. Copyright 2019 Sony Corporation2019.06.1430 2D-Torus All-Reduce による勾配同期 2D-Torus 上で行方向・列方向それぞれに集合通信を行う 例) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 I. Reduce-Scatter in the horizontal direction 6 8 3 4 5 6 10 12 22 24 11 12 13 14 26 28 28 32 3 4 5 6 36 40 28 32 11 12 13 14 36 40 28 32 36 40 28 32 36 40 28 32 36 40 28 32 36 40 II. All-Reduce in the vertical direction III. All-Gather in the horizontal direction IV. Completed Add Copy Add Copy Add GPU0 GPU1 GPU0 GPU2 GPU3 GPU1 GPU2 GPU3 GPU0 GPU1 GPU2 GPU3 GPU0 GPU1 GPU2 GPU3 Add 列数 ≒ < 𝑮𝑮𝑮𝑮𝑮𝑮数 >なので、 < 𝐺𝐺𝐺𝐺𝐺𝐺数 >のRing All-Reduceと同等 ⇒ ( < 𝑮𝑮𝑮𝑮𝑮𝑮数 >-1) 回の転送 行数 ≒ < 𝑮𝑮𝑮𝑮𝑮𝑮数 >なので、 < 𝐺𝐺𝐺𝐺𝐺𝐺数 >のRing All-Reduce ⇒ 2( < 𝑮𝑮𝑮𝑮𝑮𝑮数 >-1) 回の転送 列数 ≒ < 𝑮𝑮𝑮𝑮𝑮𝑮数 >なので、 < 𝐺𝐺𝐺𝐺𝐺𝐺数 >のRing All-Reduceと同等 ⇒ ( < 𝑮𝑮𝑮𝑮𝑮𝑮数 >-1) 回の転送 合計のホップ数を𝟐𝟐 < 𝑮𝑮𝑮𝑮𝑮𝑮数 > −𝟏𝟏 回 から𝟒𝟒 < 𝑮𝑮𝑮𝑮𝑮𝑮数 >− 𝟏𝟏 回へ削減できる
  • 31. Copyright 2019 Sony Corporation2019.06.1431 分散学習を始めてみる
  • 32. Copyright 2019 Sony Corporation2019.06.1432 分散学習の始め方 1 Node, 1 GPU GPU GPU GPU N/W N/W CPU GPU GPU GPU CPU GPU GPU GPU N/W CPU GPU GPU GPU N/W CPU 学習 学習 学習 学習 1 Node, Multi GPU Multi Node, Multi GPU GPU GPU GPU CPU 学習 GPU CPU 学習 1 Node, Multi(2-4) GPU でやってみる これくらいなら精度劣化の発生は限定的になるケースが多いと思われる なれたら Multi Node, Multi GPU へ
  • 33. Copyright 2019 Sony Corporation2019.06.1433 環境整備:インフラ • 手元のマシンにGPUを複数枚挿す 一番お手軽でコスト的に安い ※ 筐体/電源/CPU等のスペックよって動作するGPU数が制限される • パブリッククラウド AWS:p3.8xlarge (V100 4基), p3.16xlarge (V100 8基) ※ スポットインスタンスを活用するなどして料金を節約! • GPUスパコンの利用 国内なら TSUBAME, ABCI など ※ 利用目的など利用要件を満たせは利用可能
  • 34. 34 Neural Network Console 商用クオリティのDeep Learning応用技術(画像認識機等)開発のための統合開発環境 コーディングレスで効率の良いDeep Learningの研究開発を実現 クラウド版(CPU 10時間まで無償)Windows版(無償) dl.sony.com インストールするだけ、もしくはサインアップするだけで本格的なDeep Learning開発が可能 成果物はオープンソースのNeural Network Librariesを用いて製品、サービス等への組み込みが可能
  • 35. Copyright 2019 Sony Corporation2019.06.1435 マルチGPU環境の提供(Neural Network Console Cloud版) • ニューラルネットワークの学習には膨大な演算が必要 • 必要な演算量は主に扱うデータの量とニューラルネットワークの 構造に依存 • GPU、マルチGPUを用いると、学習完了までの時間を 大幅に短縮できる • ネットワークにもよるが、10倍~数百倍高速に学習できる • 同じ開発期間でより多くの試行錯誤を行うことが可能に • 環境のセットアップ、メンテナンス作業不要で豊富な GPUリソースを利用可能 • 開発者はDeep Learningの開発作業に集中できる 「1ジョブあたり8GPU×無制限の並列利用」をGUI環境から利用可能 ※計算リソース利用料は 学習・評価実行中のみの従量課金
  • 36. Copyright 2019 Sony Corporation2019.06.1436 まとめ
  • 37. Copyright 2019 Sony Corporation2019.06.1437 まとめ • 分散学習 Deep Learning の学習を高速化する手段の1つとして有効 • 分散学習のポイント Large Batch で如何に学習を収束させるか worker間でのパラメータ同期を如何に速く行うか → その解決にいろいろなテクニックが存在する • 分散学習の始め方 まず 1マシン 2-4GPUくらいから始めてみる