SlideShare a Scribd company logo
1 of 33
Download to read offline
DLLAB Engineer Days 2019
Android/iOS端末における
エッジ推論のチューニング
竹村 伸太郎
株式会社バンダイナムコスタジオ
NE統括本部 NE技術本部 ネットワークシステム部 NEシステム4課
Tokyo Headquarters
BANDAI NAMCO Studios Inc.
エッジ推論
クラウド推論
エッジ推論 クラウド推論
Edge Cloud
Download
Upload
Computing… Computing…
エッジ推論(オフライン) クラウド推論(オフライン)
Edge Cloud
Disconnected
Computed
Vivino
20%
92%
世界一のワインアプリ「Vivino」、誕生のエピソード
リンク先をご覧くださ
い
Google Research Perception - CV4AR/VR
BlazeFace: Sub-millisecond Neural Face
Detection on Mobile GPUs, Google, 2019
• Lightweight but well-performing
• Tailored for mobile GPU inference
• 200–1000+ FPS on flagship devices
Real-time Facial Surface Geometry from
Monocular Video on Mobile GPUs, Google, 2019
• 3D human face mesh (468 vertices)
• Single camera input (no depth required)
• 100-1000 FPS on mobile GPUs
High-Quality AR Lipstick Simulation via
Image Filtering Techniques, Google, 2018
• 720p resolution
• 100+ FPS on mid-to-highend devices
リンク先をご覧ください
写真加工アプリFiuFiu(旧FaceU)の技術
Byted Effect 2.0, ByteDance AI Lab (以下、原文ママ)
2.0推出更多功能,可对人脸/人体/手指进行精准检测,为中小企业提
供多种移动端特效支持
注: Byted Effect 2.0 中所有能力均已接入抖音、Faceu等多个app使用
リンク先をご覧ください
ニューラルネットワークを用いたAIの格闘ゲームへの組み込み, SNK, GCC2019
Stadia - Introducing Style Transfer ML, Google, GDC2019
Behind the Scenes with Stadia’s Style Transfer ML, Google, 2019
リンク先をご覧ください
TEmporally COherent GAN for video super-resolution (TecoGAN), arXiv, 2019
リンク先をご覧ください
GIF2Video: Color Dequantization and Temporal Interpolation of GIF images, CVPR2019
リンク先をご覧ください
Optimize deep super-resolution and denoising for compressed textures, SIGGRAPH Asia 2018 Poster
720p
W1280 H720
360p
W640 H360
2X
OS Device SoC Framework API Average(ms) StdDev(ms)
Android 9 Pixel3a Snapdragon 670 Tensorflow Lite OpenCL 245.860 0.531
Android 9 Xperia1 Snapdragon 855 Tensorflow Lite OpenCL 67.469 0.646
iOS 12 iPhone XR A12 Bionic CoreML Metal 20.039 4.554
ゲーム業界特有の課題
Platform CPU Compiler
Ubuntu X86 GCC
Windows X86 Visual C++
Android ARM or X86 GCC
MacOS X X86 Clang
iOS ARM Clang
Platform CPU Compiler
Xbox One X86 Visual C++
PlayStation4 X86 Clang
Switch ARM Clang
理想的なDevOps/MLOpsの追求
DT01 ゲーム メーカー目線で Azure を活用した開発イン
フラのクラウド シフトとアプリ設計事例紹介
OSやデバイスによる推論速度の違い
0 100 200 300 400 500 600
Pixel3a (SDM670)
Zenfone5Z (SDM845)
Xperia1 (SDM855)
iPhone6S (A9)
iPhone7 (A10)
iPhone8 (A11)
iPhoneXR (A12)
iPhone11 (A13)
Pixel3a (SDM670) Zenfone5Z (SDM845) Xperia1 (SDM855) iPhone6S (A9) iPhone7 (A10) iPhone8 (A11) iPhoneXR (A12) iPhone11 (A13)
GPU-FP16 164 64 60 66 47 47 26 19
CPU-MT 227 147 102 159 110 97 92 74
CPU-ST 564 401 230 229 167 167 150 129
Tensorflow Lite Benchmark
GPU(Metal or OpenCL) / CPU(multi threads) / CPU(single thread)
GPU-FP16
CPU-MT
CPU-ST
推論速度について補足
Accurate 3D Face Reconstruction with Weakly-Supervised
Learning: From Single Image to Image Set
AI-SCHOLAR
顔画像から3Dメッシュをお手軽に再構築!
実写アバターは身近なものに?
BlazeFace: Sub-millisecond Neural Face Detection on
Mobile GPUs
リンク先をご覧ください
学習用フレームワークの選定
Automatic Differentiation in Swift, Google,
2018
Inference Engine Supported Mobile Platforms Tensor Format
Google Tensorflow Lite Android(CPU, GPU) / iOS(CPU, GPU) NHWC
Apple CoreML iOS(CPU, GPU) CHW *1
Microsoft ONNX Runtime Android(CPU) NCHW
Amazon Neo-AI DLR Android(CPU) NCHW
*1 CoreMLのインターフェースは、3次のテンソルを単数または複数指定する仕様となっている
Tensorflow
Tensorflow Mobile
(deprecated) Tensorflow Lite
OpenGL ES 3.1 for Android
Metal for iOS
OpenCL for
Android
TVM
Halide
MNN
Regular ConvolutionHeight
Depth
3
3
Input
Channels
Depth
Output
Channels
Kernel
計算内容
計算量
width, height, channel out, channel in, filter size
これを削減したい。どうしたらよいか?
Joseph E. Gonzalez, Model Compression, 2019
1x1 Convolution (Point Convolution)Height
Depth
1
1
Input
Channels
Depth
Output
Channels
計算内容
計算量
width, height, channel out, channel in
Depthwise (Separable) ConvolutionHeight
Depth
3
3
Input
Channels
Depth
Output Channels
=
Input Channels
計算内容
計算量
width, height, channel in, filter size
計算量の削減例
Height
3
3
1
1
Spatial
Aggregation
Channel
Aggregation
計算量
普通の畳み込みは、ここが掛け算
エッジ推論高速化の基本
FastDepth: Fast Monocular Depth Estimation on Embedded Systems, MIT, ICRA 2019
この領域でもTVMは強い!
おすすめツール
Microsoft WinML Dashboard
まとめ

More Related Content

What's hot

What's hot (20)

OpenVRやOpenXRの基本的なことを調べてみた
OpenVRやOpenXRの基本的なことを調べてみたOpenVRやOpenXRの基本的なことを調べてみた
OpenVRやOpenXRの基本的なことを調べてみた
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
Python 3.9からの新定番zoneinfoを使いこなそう
Python 3.9からの新定番zoneinfoを使いこなそうPython 3.9からの新定番zoneinfoを使いこなそう
Python 3.9からの新定番zoneinfoを使いこなそう
 
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
【Unity】 Behavior TreeでAIを作る
 【Unity】 Behavior TreeでAIを作る 【Unity】 Behavior TreeでAIを作る
【Unity】 Behavior TreeでAIを作る
 
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編
 
Unityでパフォーマンスの良いUIを作る為のTips
Unityでパフォーマンスの良いUIを作る為のTipsUnityでパフォーマンスの良いUIを作る為のTips
Unityでパフォーマンスの良いUIを作る為のTips
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 

Similar to Android/iOS端末におけるエッジ推論のチューニング

Similar to Android/iOS端末におけるエッジ推論のチューニング (20)

Microsoft Intelligent Edge Technologies
Microsoft Intelligent Edge TechnologiesMicrosoft Intelligent Edge Technologies
Microsoft Intelligent Edge Technologies
 
Microsoft Intelligent Edge Technologies
Microsoft Intelligent Edge TechnologiesMicrosoft Intelligent Edge Technologies
Microsoft Intelligent Edge Technologies
 
改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~
改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~
改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~
 
OSC 2012 Hokkaido でのプレゼン資料
OSC 2012 Hokkaido でのプレゼン資料OSC 2012 Hokkaido でのプレゼン資料
OSC 2012 Hokkaido でのプレゼン資料
 
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
 
GTMF2012 SpriteStudio と "Unity" と "CoronaSDK" と "ngCore" ! ~組み合わせて改善する 2D ワーク...
GTMF2012 SpriteStudio と "Unity" と "CoronaSDK" と "ngCore" ! ~組み合わせて改善する 2D ワーク...GTMF2012 SpriteStudio と "Unity" と "CoronaSDK" と "ngCore" ! ~組み合わせて改善する 2D ワーク...
GTMF2012 SpriteStudio と "Unity" と "CoronaSDK" と "ngCore" ! ~組み合わせて改善する 2D ワーク...
 
ソフトウェアテストの歴史と近年の動向
ソフトウェアテストの歴史と近年の動向ソフトウェアテストの歴史と近年の動向
ソフトウェアテストの歴史と近年の動向
 
ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜
ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜
ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜
 
SORACOM UG 九州 #5 | SORACOM 最新アップデート
SORACOM UG 九州 #5 | SORACOM 最新アップデートSORACOM UG 九州 #5 | SORACOM 最新アップデート
SORACOM UG 九州 #5 | SORACOM 最新アップデート
 
新型登場!! Surface Book 3 / Surface Go 2
新型登場!! Surface Book 3 / Surface Go 2新型登場!! Surface Book 3 / Surface Go 2
新型登場!! Surface Book 3 / Surface Go 2
 
2014 1018 OSC-Fall Tokyo NETMF
2014 1018 OSC-Fall Tokyo NETMF2014 1018 OSC-Fall Tokyo NETMF
2014 1018 OSC-Fall Tokyo NETMF
 
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NXNVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
 
20190518 SORACOM UG 九州 x JAWS-UG 佐賀 | 基本のSORACOM Air から最新ボタンデバイスまで一気に解説?今日からあ...
20190518 SORACOM UG 九州 x JAWS-UG 佐賀 | 基本のSORACOM Air から最新ボタンデバイスまで一気に解説?今日からあ...20190518 SORACOM UG 九州 x JAWS-UG 佐賀 | 基本のSORACOM Air から最新ボタンデバイスまで一気に解説?今日からあ...
20190518 SORACOM UG 九州 x JAWS-UG 佐賀 | 基本のSORACOM Air から最新ボタンデバイスまで一気に解説?今日からあ...
 
AMD_Xilinx_AI_VCK5000_20220602R1.pdf
AMD_Xilinx_AI_VCK5000_20220602R1.pdfAMD_Xilinx_AI_VCK5000_20220602R1.pdf
AMD_Xilinx_AI_VCK5000_20220602R1.pdf
 
僕はまだ10%しかIDCFクラウドを理解していなかった
僕はまだ10%しかIDCFクラウドを理解していなかった僕はまだ10%しかIDCFクラウドを理解していなかった
僕はまだ10%しかIDCFクラウドを理解していなかった
 
CoreMLによるiOS深層学習アプリの実装と性能分析
CoreMLによるiOS深層学習アプリの実装と性能分析CoreMLによるiOS深層学習アプリの実装と性能分析
CoreMLによるiOS深層学習アプリの実装と性能分析
 
【Unite 2018 Tokyo】Windows Mixed Reality 最新アプリ開発情報 ~HoloLens からVRまで~
【Unite 2018 Tokyo】Windows Mixed Reality 最新アプリ開発情報 ~HoloLens からVRまで~【Unite 2018 Tokyo】Windows Mixed Reality 最新アプリ開発情報 ~HoloLens からVRまで~
【Unite 2018 Tokyo】Windows Mixed Reality 最新アプリ開発情報 ~HoloLens からVRまで~
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
 
MeeGo Seminar Winter Porting 20101209
MeeGo Seminar Winter Porting 20101209MeeGo Seminar Winter Porting 20101209
MeeGo Seminar Winter Porting 20101209
 
Intel OpenVINO、 NVIDIA Deepstream対応開発キットから、 エッジサーバー、Azure Data Box Edgeまで、 Az...
Intel OpenVINO、 NVIDIA Deepstream対応開発キットから、 エッジサーバー、Azure Data Box Edgeまで、 Az...Intel OpenVINO、 NVIDIA Deepstream対応開発キットから、 エッジサーバー、Azure Data Box Edgeまで、 Az...
Intel OpenVINO、 NVIDIA Deepstream対応開発キットから、 エッジサーバー、Azure Data Box Edgeまで、 Az...
 

More from Deep Learning Lab(ディープラーニング・ラボ)

More from Deep Learning Lab(ディープラーニング・ラボ) (20)

Edge AI ソリューションを支える Azure IoT サービス
Edge AI ソリューションを支える Azure IoT サービスEdge AI ソリューションを支える Azure IoT サービス
Edge AI ソリューションを支える Azure IoT サービス
 
DLLAB Healthcare Day 2021 Event Report
DLLAB Healthcare Day 2021 Event ReportDLLAB Healthcare Day 2021 Event Report
DLLAB Healthcare Day 2021 Event Report
 
ICTを用いた健康なまちづくりの 取り組みとAI活用への期待​
ICTを用いた健康なまちづくりの 取り組みとAI活用への期待​ICTを用いた健康なまちづくりの 取り組みとAI活用への期待​
ICTを用いた健康なまちづくりの 取り組みとAI活用への期待​
 
医学と工学の垣根を越えた医療AI開発
医学と工学の垣根を越えた医療AI開発医学と工学の垣根を越えた医療AI開発
医学と工学の垣根を越えた医療AI開発
 
Intel AI in Healthcare 各国事例からみるAIとの向き合い方
Intel AI in Healthcare 各国事例からみるAIとの向き合い方Intel AI in Healthcare 各国事例からみるAIとの向き合い方
Intel AI in Healthcare 各国事例からみるAIとの向き合い方
 
厚生労働分野におけるAI技術の利活用について
厚生労働分野におけるAI技術の利活用について厚生労働分野におけるAI技術の利活用について
厚生労働分野におけるAI技術の利活用について
 
先端技術がもたらす「より良いヘルスケアのかたち」
先端技術がもたらす「より良いヘルスケアのかたち」先端技術がもたらす「より良いヘルスケアのかたち」
先端技術がもたらす「より良いヘルスケアのかたち」
 
AIによる細胞診支援技術の紹介と、AI人材が考える医療バイオ領域における参入障壁の乗り越え方
AIによる細胞診支援技術の紹介と、AI人材が考える医療バイオ領域における参入障壁の乗り越え方AIによる細胞診支援技術の紹介と、AI人材が考える医療バイオ領域における参入障壁の乗り越え方
AIによる細胞診支援技術の紹介と、AI人材が考える医療バイオ領域における参入障壁の乗り越え方
 
「言語」×AI Digital Device
「言語」×AI Digital Device「言語」×AI Digital Device
「言語」×AI Digital Device
 
深層強化学習と実装例
深層強化学習と実装例深層強化学習と実装例
深層強化学習と実装例
 
深層強化学習を用いた複合機の搬送制御
深層強化学習を用いた複合機の搬送制御深層強化学習を用いた複合機の搬送制御
深層強化学習を用いた複合機の搬送制御
 
Azure ML 強化学習を用いた最新アルゴリズムの活用手法
Azure ML 強化学習を用いた最新アルゴリズムの活用手法Azure ML 強化学習を用いた最新アルゴリズムの活用手法
Azure ML 強化学習を用いた最新アルゴリズムの活用手法
 
Jetson x Azure ハンズオン DeepStream With Azure IoT 事前準備
Jetson x Azure ハンズオン DeepStream With Azure IoT 事前準備Jetson x Azure ハンズオン DeepStream With Azure IoT 事前準備
Jetson x Azure ハンズオン DeepStream With Azure IoT 事前準備
 
Jetson x Azure ハンズオン DeepStream With Azure IoT
Jetson x Azure ハンズオン DeepStream With Azure IoTJetson x Azure ハンズオン DeepStream With Azure IoT
Jetson x Azure ハンズオン DeepStream With Azure IoT
 
Jetson x Azure ハンズオン DeepStream Azure IoT
Jetson x Azure ハンズオン DeepStream Azure IoTJetson x Azure ハンズオン DeepStream Azure IoT
Jetson x Azure ハンズオン DeepStream Azure IoT
 
Jetson 活用による スタートアップ企業支援
Jetson 活用による スタートアップ企業支援Jetson 活用による スタートアップ企業支援
Jetson 活用による スタートアップ企業支援
 
[Track 4-6] ディープラーニングxものづくりが日本を強くする ~高専DCONの挑戦~
[Track 4-6] ディープラーニングxものづくりが日本を強くする ~高専DCONの挑戦~[Track 4-6] ディープラーニングxものづくりが日本を強くする ~高専DCONの挑戦~
[Track 4-6] ディープラーニングxものづくりが日本を強くする ~高専DCONの挑戦~
 
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
[Track3-2] AI活用人材の社内育成に関する取り組みについて ~ダイキン情報技術大学~
 
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
 
[Track1-2] ディープラーニングを用いたワインブドウの収穫量予測
[Track1-2] ディープラーニングを用いたワインブドウの収穫量予測[Track1-2] ディープラーニングを用いたワインブドウの収穫量予測
[Track1-2] ディープラーニングを用いたワインブドウの収穫量予測
 

Android/iOS端末におけるエッジ推論のチューニング