初心者限定 !
これから機械学習プロジェクトをはじ
めたい
あなたと語るプロジェクト成功率を上
げるコツ
AI15
Recent trends in Machine Learning
Olga Liakhovich
Senior Data & Applied Scientist
Microsoft
AI09
どんな発言
聞く場
Chalk Talk
どんな疑問
初心者
Topic
Model
は、DLL と一緒。
-> 単なるファ
イル
Model は、ファイル にして扱う
<Python> Modelの保存
出力された Model <C#>Model の読み込み
<C#>Model の利用 (実行)
Spark
GPU インスタンス
コンテナー サービス
FPGA
Azure Machine
Learning Workbench /
AI Tools for VS
SQL Server
Machine Learning Server
On Premise
Edge
Azure IoT Edge
FPGA
実験および
モデル管理
Azure
柔軟なトレーニングとデプロイの選択肢
推論
デプロイメントモデル構築・学習
Model
は、DLL と一緒。
-> 一つの事し
か
できない
Computer Vision
Yes
https://www.microsoft.com/
developerblog/2017/10/24/
bird-detection-with-azure-ml-
workbench/
https://github.com/olgaliak/d
etection-amlworkbench/
Bird Detection Project
https://github.com/Microsoft/VoTT
Visual Object Tagging Tool (VoTT)
The Data Science Project Formula
Question + Data + Analysis = Answer
…につながる意思決定/アクション
答えを知った後で、何をするのか?
Question
• 特定可能
• 測定可能
• 次にアクションが取れる
• ベースライン
ビジネスのQuestionと、データサイエンスのQuestion:
製品が、壊れないようにするためには、いつ保守サービスします
か?
製品が、特定の時間に故障する確率は何ですか?
従来の
システム開発と
の
違い
AI への過度の期待と失望
研究 と ビジネスを関連付けられる人材の不足
Deep Learning の Project は、現状 非常に高コスト
これまでのシステム開発と違う点
汎用品
データが全て
精度の考え方
これまでのシステム開発と違う点
汎用品
データが全て
精度の考え方
プログラミング と 機械学習
2 + 3 = 5
プログラミング と 機械学習
2 + 3 = 5
簡単
大変…
プログラミング と 機械学習
2 + 3 = 5
簡単
大変…
プログラミング と 機械学習
それぞれの写真: 猫? Yes/No
プログラミング と 機械学習
Program = Algorithm
人が書く
タスクの仕様の定義
アルゴリズムは固定
アルゴリズムは容易に説明できる
ソフトウェアが書く
目的: 汎化
アルゴリズムはデータに依存
アルゴリズムは時間とともに変わる
プログラミング と 機械学習
Program = Algorithm
人が書く
タスクの仕様の定義
アルゴリズムは固定
アルゴリズムは容易に説明できる
ソフトウェアが書く
目的: 汎化
アルゴリズムはデータに依存
アルゴリズムは時間とともに変わる
実世界の全てを想定して、
プログラミングするのは、難しい…
これまでのシステム開発と違う点
汎用品
データが全て
精度の考え方
データサイエンス プロジェクト の実態
推論
デプロイメントデータの準備 モデル構築・学習
世界中の研究者が
論文として公表。
多くの実証コードも
公開される。
最新の技術を利活用
んなデータを整備するか?
競争力のための
自社にしかないデータが
活用できるか?
ビジネスフロー全体の中の
どこでモデルを
利用すべきか?
データが定義するプログラム
Alpha Go Zero
情報と権威
独占
権威
共有
共有、活用される最新研究
変革の速度
競争領域
 瞬間的
加速する協働とイノベーション
変化への対応を、プログラミングで行うの
か?
アルゴリズムとして実装
変化への対応を、データを元に行うのか?
機械学習によるモデル化
機械学習の最大限の可能性は、
データソース (IoT) との紐づけ と デプロイの自動化 (AutoML)
データの関連性というけれど…
http://tylervigen.com/spurious-correlations
Data に潜む Bias
StreetBump smartphone app
Data 収集フェーズでの Bias
全てのデータには Bias がある
Kate Crawford’s NIPS 2017 Keynote presentation: Trouble with Bias
Image Search: CEO
ステレオタイプ
NIPS 2017 Keynote: The Trouble with Bias
recording
これまでのシステム開発と違う点
汎用品
データが全て
精度の考え方
分類モデルの評価 = Confusion Matrix
①True Positive(真陽性) : 100%に近いほど良好
⇒A/(A+C)
②False Positive(偽陽性) : 0%に近いほど良好
⇒B/(B+D)
③True Negative : 100%に近いほど良好
⇒D/(B+D)
④False Negative : 0%に近いほど良好
⇒C/(C+D)
⑤Accuracy(正解率) : 100%に近いほど良好
⇒「○」「×」を正しく予測できた割合
⇒(A+D)/(A+B+C+D) : 100%に近いほど良好
⑥Precision(適合率) : 100%に近いほど良好
⇒A/(A+B)
⑦Recall(再現率) : 100%に近いほど良好
⇒①に同じ
⑧F1 Score :1.0に近いほど良好
⇒⑥、⑦の複合指標
⇒2×(⑥×⑦)/(⑥+⑦)
検証用データ 予測で得たクラス
○ ×
正解の
クラス
○ A件 C件
× B件 D件
正解が「○」
のデータ
推測で「○」と
されたデータ
A件C件 B件
D件
予測結果例 主な評価指標
Confusion Matrix for カルガモ
カルガモ が写っているの
に、
モデルは推定できなかっ
た
▶モデルの見逃し
あり[実
際]
なし[実
際]
あり[予
測]
XX XX
なし[予
測]
XX XX
Confusion Matrix for カルガモ
あり[実
際]
なし[実
際]
あり[予
測]
XX XX
なし[予
測]
XX XX
カルガモ でないもの
に、
カルガモ と推定
▶モデルの過検知?
混同行列 (Confusion Matrix)
あり [実際] なし [実際]
あり [予測] 14 0
なし [予測] 2 9
なし と 予測(緑線の下)
実際はあり (緑線の下の赤2
つ)
▶モデルの見逃し
何を優先するかは、一概に決められない!
再現率(Recall)
適合率
(Precision)
ヒット数↑
ノイズ ↑
精度↑
漏れ↑
再現率、適合率の最適な
ブレイクポイント
#azurejp
機械学習を行うのに必要なもの
大量のデータ
データ
に対する知見
データ分析の
知識・経験
データ分析
ツール・基盤× × ×
大量の分析用データを
保持している
分析用データの中身を
理解している
分析内容やデータ
に適してアルゴリ
ズムを把握してい
る
大量データを分
析できるツール
を持ち
使いこなせる
最も重要
目的達成の手段: Custom Vision Service
#azurejp
Cognitive
Services
Custom
AI Models
Custom Services
Bring your Own Data
Flexibility
どこから開始するか
Managed
Deep Learning Lab 実績(7 月頭時点)
Deep Learning Lab Web のご紹介

初心者歓迎 機械学習Chalk Talk (de:codeリバイバル) in Osaka -

Editor's Notes