初心者歓迎機械学習Chalk Talk (de:codeリバイバル) in Osaka -

初心者限定 !
これから機械学習プロジェクトをはじ
めたい
あなたと語るプロジェクト成功率を上
げるコツ
AI15

Recent trends in Machine Learning
Olga Liakhovich
Senior Data & Applied Scientist
Microsoft
AI09

どんな発言
聞く場
Chalk Talk

Model
は、DLL と一緒。
-> 単なるファ
イル

Model は、ファイルにして扱う
<Python> Modelの保存
出力された Model <C#>Model の読み込み
<C#>Model の利用 (実行)

Spark
GPU インスタンス
コンテナーサービス
FPGA
Azure Machine
Learning Workbench /
AI Tools for VS
SQL Server
Machine Learning Server
On Premise
Edge
Azure IoT Edge
FPGA
実験および
モデル管理
Azure
柔軟なトレーニングとデプロイの選択肢
推論
デプロイメントモデル構築・学習

Model
は、DLL と一緒。
-> 一つの事し
か
できない

https://www.microsoft.com/
developerblog/2017/10/24/
bird-detection-with-azure-ml-
workbench/
https://github.com/olgaliak/d
etection-amlworkbench/
Bird Detection Project

https://github.com/Microsoft/VoTT
Visual Object Tagging Tool (VoTT)

The Data Science Project Formula
Question + Data + Analysis = Answer
…につながる意思決定/アクション
答えを知った後で、何をするのか?

Question
• 特定可能
• 測定可能
• 次にアクションが取れる
• ベースライン
ビジネスのQuestionと、データサイエンスのQuestion:
製品が、壊れないようにするためには、いつ保守サービスします
か?
製品が、特定の時間に故障する確率は何ですか?

従来の
システム開発と
の
違い

AI への過度の期待と失望
研究とビジネスを関連付けられる人材の不足
Deep Learning の Project は、現状非常に高コスト

これまでのシステム開発と違う点
汎用品
データが全て
精度の考え方

プログラミングと機械学習
2 + 3 = 5

2 + 3 = 5
簡単
大変…

それぞれの写真: 猫? Yes/No

Program = Algorithm
人が書く
タスクの仕様の定義
アルゴリズムは固定
アルゴリズムは容易に説明できる
ソフトウェアが書く
目的: 汎化
アルゴリズムはデータに依存
アルゴリズムは時間とともに変わる

Program = Algorithm
人が書く
タスクの仕様の定義
アルゴリズムは固定
アルゴリズムは容易に説明できる
ソフトウェアが書く
目的: 汎化
アルゴリズムはデータに依存
アルゴリズムは時間とともに変わる
実世界の全てを想定して、
プログラミングするのは、難しい…

データサイエンスプロジェクトの実態
推論
デプロイメントデータの準備モデル構築・学習
世界中の研究者が
論文として公表。
多くの実証コードも
公開される。
最新の技術を利活用
んなデータを整備するか?
競争力のための
自社にしかないデータが
活用できるか?
ビジネスフロー全体の中の
どこでモデルを
利用すべきか?

データが定義するプログラム
Alpha Go Zero

共有
共有、活用される最新研究
変革の速度
競争領域

 瞬間的
加速する協働とイノベーション

変化への対応を、プログラミングで行うの
か?
アルゴリズムとして実装

変化への対応を、データを元に行うのか?
機械学習によるモデル化
機械学習の最大限の可能性は、
データソース (IoT) との紐づけとデプロイの自動化 (AutoML)

データの関連性というけれど…
http://tylervigen.com/spurious-correlations

StreetBump smartphone app
Data 収集フェーズでの Bias

全てのデータには Bias がある
Kate Crawford’s NIPS 2017 Keynote presentation: Trouble with Bias

NIPS 2017 Keynote: The Trouble with Bias
recording

分類モデルの評価 = Confusion Matrix
①True Positive（真陽性） : 100%に近いほど良好
⇒A/(A+C)
②False Positive（偽陽性） : 0%に近いほど良好
⇒B/(B+D)
③True Negative : 100%に近いほど良好
⇒D/(B+D)
④False Negative : 0%に近いほど良好
⇒C/(C+D)
⑤Accuracy（正解率） : 100%に近いほど良好
⇒「○」「×」を正しく予測できた割合
⇒(A+D)/(A+B+C+D) : 100%に近いほど良好
⑥Precision（適合率） : 100%に近いほど良好
⇒A/(A+B)
⑦Recall（再現率） : 100%に近いほど良好
⇒①に同じ
⑧F1 Score :1.0に近いほど良好
⇒⑥、⑦の複合指標
⇒2×(⑥×⑦)/(⑥+⑦)
検証用データ予測で得たクラス
○ ×
正解の
クラス
○ A件 C件
× B件 D件
正解が「○」
のデータ
推測で「○」と
されたデータ
A件C件 B件
D件
予測結果例主な評価指標

Confusion Matrix for カルガモ
カルガモが写っているの
に、
モデルは推定できなかっ
た
▶モデルの見逃し
あり[実
際]
なし[実
際]
あり[予
測]
XX XX
なし[予
測]
XX XX

Confusion Matrix for カルガモ
あり[実
際]
なし[実
際]
あり[予
測]
XX XX
なし[予
測]
XX XX
カルガモでないもの
に、
カルガモと推定
▶モデルの過検知？

混同行列 (Confusion Matrix)
あり [実際] なし [実際]
あり [予測] 14 0
なし [予測] 2 9
なしと予測（緑線の下）
実際はあり（緑線の下の赤2
つ）
▶モデルの見逃し

何を優先するかは、一概に決められない!
再現率(Recall)
適合率
(Precision)
ヒット数↑
ノイズ ↑
精度↑
漏れ↑
再現率、適合率の最適な
ブレイクポイント

#azurejp
機械学習を行うのに必要なもの
大量のデータ
データ
に対する知見
データ分析の
知識・経験
データ分析
ツール・基盤× × ×
大量の分析用データを
保持している
分析用データの中身を
理解している
分析内容やデータ
に適してアルゴリ
ズムを把握してい
る
大量データを分
析できるツール
を持ち
使いこなせる
最も重要

目的達成の手段: Custom Vision Service

#azurejp
Cognitive
Services
Custom
AI Models
Custom Services
Bring your Own Data
Flexibility
どこから開始するか
Managed

Deep Learning Lab 実績（7 月頭時点）

Deep Learning Lab Web のご紹介

初心者歓迎 機械学習Chalk Talk (de:codeリバイバル) in Osaka -

More Related Content

What's hot

Similar to 初心者歓迎 機械学習Chalk Talk (de:codeリバイバル) in Osaka -

More from Daiyu Hatakeyama

Recently uploaded