[Track2-5] CPUだけでAIをやり切った最近のお客様事例とインテルの先進的な取り組み

インテル株式会社
APJデータセンター・グループ・セールス
AI・テクニカル・ソリューション・スペシャリスト
大内山浩
DLLAB Deep Learning Digital Conference (2020/8/1)
CPUだけでAIをやり切った
ここ最近のお客様事例と
インテルの先進的な取り組みのご紹介

2
注意：本日、製品紹介はほぼ致しません。
インテルのAI関連製品に関してはこちらへどうぞ↓
https://webinar.intel.com/Intel_AI
_Park_online
https://www.cvent.com/events/-
2020/event-summary-
afa95371020345e68f58bc85691cfe
7b.aspx
https://www.youtube.com/watch?
v=Uf1aYXbalZU
Intel AI Park インテル・データ・セントリック・
イノベーション・デイ 2020
Microsoft de:code 2020

4
インテルのAI事業
サーバー／PC／デバイス
メーカー企業様
SI/ISV/クラウド企業様
等
ユーザー企業様
新規ビジネス創出、市場開発等で協業
AI導入までのトータル技術支援
（コンサル～実装～導入）
→ こうした活動から得られた事例を紹
介
※全てインテルのCPUベース
協業

AIは動かしてこそ意味がある
モデルを作った後も重要！
5
課題発見データ学習導入
1 2 3 4
性能
セキュ
リティ
精度維
持
スケー
ラビリ
ティ
アーキ
テク
チャ
デザイ
ン
・・
・

6
製造メディア流通
スマート
ホームテレコム交通
あらゆる業界へのAI導入を体現
農業エネルギー教育公共金融医療
理化学研究所
様
大手電池
メーカー
様
中国銀聯
様

7
①理化学研究所様
胸部疾患の自動診断
課題
手段
結果
• モデル：CheXNet（DenseNet121ベース、胸部疾患の画像分類などに利用、PyTorch 1.2.0）
• 当該モデルを用いたX線画像分類サービスの実用化をするうえで、アクセラレータを使用し
ないで推論処理（バッチ処理）の性能を向上させたい。
• 第2世代インテル® Xeon® スケーラブル・プロセッサー
• インテル® OpenVINO™ ツールキット
• モデルの量子化（FP32→INT8）
• 並列プログラミング
• 当初の推論性能から44倍の向上を実現

8
理化学研究所様
胸部疾患の自動診断 - 詳細
744 sec
11,177 sec
(Baseline)
1,116 sec 359 sec 251 sec
on
他社アクセラレータ
on
Xeon 6252 x2
約2.2万枚のテスト画像
をバッチ処理で推論
→ After OptimizationBefore Optimization←
x10.0 x3.1 x1.4
上記対応内容は下記Githubを参照
https://github.com/taneishi/CheXNet
（計算科学研究機構種石様のレポジトリ）
x 44.5
against Baseline
• モデルをONNXに変換
• OpenVINOのモデルオプ
ティマイザーで
ONNX→IRへ変換
• OpenVINOの推論エンジ
ン上で同期実行
• OpenVINOの量子化ツー
ルにてIR内一部のレイ
ヤーの数値表現をINT8へ
変換（ツールのカスタマ
イズ含む）
ン上で同期実行（VNNI
利用）
ン上で非同期実行（8並
列で推論処理を実行）
最適化量子化並列化

9
②中国銀聯様
カード不正利用検知システム
課題
手段
結果
• モデル：GRU（Tensorflow 1.2.0）
• よりRecall、および、Precisionともにより高い精度が必要
• 1日あたり最大数百億トランザクションからリアルタイムに検出したい
• 第2世代インテル® Xeon® スケーラブル・プロセッサー
• インテル® Optimized Tensorflow
• Scikit-learn
• GBDT、GRU、ランダムフォレスト
• それまでの手法に比べてF1を1.3倍以上向上

10
中国銀聯様
カード不正利用検知システム - 詳細
https://arxiv.org/ftp/arxiv/papers/1711/1711.01434.pdf
LSTM/GRU”だけ”を使った場合の課題
トランザクションのシーケンシャルな事
象に対して認識精度は優れていたが、
個々のトランザクションの内容まで加味
しての認識精度が期待以下。
GBDT、GRUそれぞれ
による特徴量抽出
RandomForest

11
中国銀聯様
カード不正利用検知システム - 詳細続き
https://www.intel.com/content/dam/www/public/us/en/documents/case-studies/fraud-detections-models-case-study.pdf
それまでの方法に比較してF1値が向上実際のデータフロー

12
③大手電池メーカー様
AIによる不良品検知
2. アプローチ
3. 価値
5. テクノロジー
7. モデル
4. 人材
8. 導入
1. 課題
6. データ
• システムアーキテクチャ設計
• トポロジー選定
• PyTorch, OpenVINO, Analytics Zoo
チームから技術支援
• ファインチューニング
• 精度向上
• データラベリング
• ビジネスから技術まで
横断的に人員動員
• Resnet50、YOLO v3、Mask R-CNN
• OpenVINO、Core/Xeonプロセッサー
インテルによる支援内容
人手による不良品検出作業の高精度化および
コスト削減
AI／データサイエンス人材の不足

13
大手電池メーカー様
不良品検出における要件
不良品の種別サンプル画像インテルからの提案
1
絶縁フィルム同士の隙間の
ずれやサイズが正しくない
画像セグメンテーション (MASK-RCNN) を採用。
ずれを検出し、ピクセル単位でサイズを計測
2
絶縁フィルム自体の異常 (破
れ, 欠け, 折れ, 等)
多クラス分類問題として扱い、Resnet50による
異常を検出
3 陰極と陽極のヘッドのずれ
物体検出 (tiny Yolo_v3)を採用し、陰極と陽極を
検出後に、Bounding Boxからずれをチェック
製造ラインから送られる画像データの仕様
• 画像Resolution: 1920*1200
• データスピード: 7614 images/sec （1工場あたり）
検出精度要件:
• 1DPPM（エラー率：1/100万）

14
Accuracy向上のためにDL+MLアンサンブル
▪ Resnet50による特徴量抽出＋SVMによる分類
最終性能
大手電池メーカー様
モデルの精度およびパフォーマンスの向上
CNN Layers
FC Layers
Resnet50
97.85% precision
94.00% recall
CNN Layers
Resnet50+
SVM Classifier
99.12% precision
99.16% recall
ML Classifier
Finetune Baseline Final Result
Precision 97.85% 99.12%
recall 94% 99.16%
97.85%
99.12%
94%
99.16%
Precision & Recall Rate
Precision
recall
Customer Request Final Result
FPS 423 570
423
570
Per Line FPS
FPS 線形 (FPS)

AIプラットフォームアーキテクチャ
--Edge-to-Cloud IAベース・スケーラブル・AI・ソリューション--
エンドポイントデバイス
- レイテンシ最適化
• Core i5/i7 IPC
• OpenCV 前処理
• ストリーミング
エッジ AI サーバー – レイテンシ最適化
• Xeon ベースの分散推論処理
• 分類/物体検出/セグメンテーション
センター AI クラウド – スループット＆スケール最適化
• Analytic Zoo によるXeon ベースの分散トレーニングと推論
• スケールアウト型オブジェクトストレージ
• モデル/アルゴリズムの管理/デプロイ
エッジ AI クラウド at 各工場
製造ライン上のカメラ
ストリーミン
グ & 前処理
(OpenCV)
エッジ推論
(simple models)
エッジ推論
(明らかな不良品をフィルターし、レイテンシを向上しネットワークのバンド幅への負荷を減少)
AZ 分散推論
w/ OpenVINO
画像
画像画像
不良品確率
品質制御
システム
不良品確率
ローカル
バッファ
モデルマネージャ
モデルと重み
Model
Warehouse
中央ストレージ (scale-
out)
ストリーミン
グ & 前処理
AZ Distributed
Inference w/
OpenVINO
(advanced models)
Cluster model
Training+AutoML
Model &
weight
matrixes
画像＆推論結果画像
不良品確率
画像
推論結果
画像
Model&weights
Inferenceresults
モデルと重みをデプロイ
センターAIクラウド
QC アクション

16
製造メディア流通
スマート
ホームテレコム交通
あらゆる業界へのAI導入を体現
農業エネルギー教育公共金融医療
理化学研究所
様
大手電池
メーカー様
中国銀聯
様
推論性能改善モデル精度改善
トータル
ソリューション提供

17
各業界向けAI実践ガイドブック提供中！
是非お近くのインテル社員までお尋ねください！！
製造業界向け
AI実践ガイドブック

18
インテル社内でのAI活用事例
https://webinar.intel.com/Intel_AI
_Park_online
Intel AI Park
その他、パナソニック株式会社様、Slack Japan株式会社様に
よるウェビナー講演もお送りします

20
新たなデマンドと新たなテクノロジー
Security
Data
AlgorithmPPML
(Privacy Preserving Machine Learning)
Graph
SLIDE
(Sub-LInear Deep learning Engine)
- ★ - ★ - - -
- - - - ★ - ★
- - - - - ★ -
★ - ★ - - - -
- - - - - ★ -
- - ★ - - - -
- - ★ ★ ★ - -
A =
From
vertex
(rows)
Graphs as Linear Algebra
1
5
3
2
0
46
プライバシー情報保護に重
きを置いた機械学習技術グラフデータに対する分析
または機械学習を用いての
パターン検出など
ライス大学との共同研究。
ディープラーニング学習ア
ルゴリズムを抜本的に見直
すことでCPUにてGPUを上回
る学習性能を実現https://medium.com/intel
-analytics-software

21
PPMLの応用例：Federated Learning
~ペンシルベニア大学様との共同研究~
U-Netの学習にFederated Learningを適用。データ保護にインテル® SGX活用。
https://www.intel.ai/federated-learning-for-medical-imaging/
Horizontal Federated
Learning
Vertical
Federated Learning
Federated
Transfer Learning
ノード間でのデータ共有無しに
モデルの学習を実施
通常の分散学習と同程度
のモデル精度を獲得

22
インテル® SGX（Software Guard Extensions）について
データを保護 (暗号化)した状態でメモリ内での計算を実現するCPUの技術です。
https://www.intel.co.jp/content/www/jp/ja/architecture-and-technology/software-guard-extensions.html
• ハードウェア攻撃
• プロセス内攻撃
• OSによる攻撃
• SGXサポートのインテルCPU
• https://www.intel.co.jp/content/ww
w/jp/ja/support/articles/000028173/
processors.html
• Azure Confidential Computing
• http://aka.ms/AzureCC
• SDK
• SGX SDK:
https://github.com/intel/linux-sgx-
driver
• Graphene:
https://github.com/oscarlab/graphen
e
保存中
転送中
使用中
暗号化
により
保護
（既存技術）
メモリ
内で使
用中も
暗号化
何を実現する技術か？どんな脅威が防げるか？どのように使うのか？
Graphene-SGXの論文より

23
背景課題と解決アプローチ
SLIDE （Sub-LInear Deep learning Engine）
~技術の登場背景~
Forward Pass
Backward Pass
×
大量の行列計算
GPUが
有利
Adaptive Sparsity
既存の学習手法
Adaptive Sparsityを意識
せずフル行列計算によ
り膨大なパラメータを
更新
新たな学習手法
Adaptive Samplingという
技術で適切なニューロ
ンだけを特定（探索）し
てパラメータを更新
論文はこちら：https://www.cs.rice.edu/~as143/Papers/SLIDE_MLSys.pdf

24
LSHハッシュテーブルを用いて、
各層毎に入力データおよびアク
ティベーションと関連する
ニューロンを特定し、それらの
パラメータのみを更新
各層毎に大きなハッシュテーブ
ルを持つため大量メモリを消費。
起こる問題の一つとして
「キャッシュスラッシング」が
上げられるが、インテルのサ
ポートにより解決
Amazon-670Kのデータにて、CPU
（Xeon）がGPU（Volta）よりも
3.5倍高速な学習時間を達成
SLIDE（Sub-LInear Deep learning Engine）
~技術概要と効果~
コードはこちら：https://github.com/keroro824/HashingDeepLearning
処理概要技術的改善点効果
メインメモリアクセ
ス時にキャッシュの
追い出しが毎度発生
（スラッシング）

ありがとうございました
← 大内山のLinkedIn
https://www.linkedin.com/in/hiroshi-ouchiyama-605ab872/
メール： hiroshi.ouchiyama@intel.com

[Track2-5] CPUだけでAIをやり切った最近のお客様事例とインテルの先進的な取り組み

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [Track2-5] CPUだけでAIをやり切った最近のお客様事例とインテルの先進的な取り組み

Similar to [Track2-5] CPUだけでAIをやり切った最近のお客様事例とインテルの先進的な取り組み (20)

More from Deep Learning Lab（ディープラーニング・ラボ）

More from Deep Learning Lab（ディープラーニング・ラボ） (20)

Recently uploaded

Recently uploaded (7)