SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our User Agreement and Privacy Policy.
SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our Privacy Policy and User Agreement for details.
Successfully reported this slideshow.
Activate your 30 day free trial to unlock unlimited reading.
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
4.
データセット (学習用のデータ) の読み込み
# the data, split between train and test sets
# Scale images to the [0, 1] range
# Make sure images have shape (28, 28, 1)
# convert class vectors to binary class matrices
44.
Data
ML
Code
Configuration
Data Collection
Data
Verification
Feature
Extraction
Machine
Resource
Management
Analysis Tools
Process
Management Tools
Serving
Infrastructure
Monitoring
“Hidden Technical Debt in Machine Learning Systems,” Google NIPS 2015
45.
DeviceID OEM Name SSD (GB)
CPU Clock
(GHz) Region OS Install Date
1 Hewlett Packard 500 3.2 US 12/12/2016
2 HP 1000 1233 US 05/02/2017
3 Hewlett-Packard 250 -7.8 USA 05/32/2017
4 hp 217 4.2 MEA 04/10/2016
5 Hewlet Packard NA 4.1 Latam 05/15/2087
6 DELL 250 0 Japan 03/13/2017
7 dell NULL 9.2 Japan 04-17-2016
8 “” 500 3.5 China 2015.02.141
9 Hewlett pakerd 500 2.8 China 3/2
答え: No… なぜなのか見ていきましょう
47.
4. 一貫性の無いデータ型や書
式
• アルゴリズムがデータ型や書式を誤解
釈しやすい
• 例: OS Install Date (日付の代わりに文字
列), OS Install Date (複数の書式)
5. 間違ったデータ
• 誤った結果になる
• 例: CPU Clock (マイナス, 存在しない値),
OS Install Date (不完全, 存在しない値)
6. 範囲
• 対象としたい範囲に絞る (*)
• 例: Region == “US”
…
CPU Clock
(GHz) Region OS Install Date
… 3.2 US 12/12/2016
… 1233 US 05/02/2017
… -7.8 USA 05/32/2017
… 4.2 MEA 04/10/2016
… 4.1 Latam 05/15/2087
… 0 Japan 03/13/2016
… 9.2 Japan 04-17-2016
… 3.5 China 2015.02.141
… 2.8 China 3/2
*注意: 範囲選択を注意して行わないと、モデルの安定性に影響がある
48.
可視化の代表例
• 度数分布表 (Histogram)
• パーセンタイル: 特定目的の範囲毎の
値
• 四分位数:分布を4つの等しい部分に分
割する
• 中央値: (ソートされた) 分布の中央値
• 外れ値を識別するための箱ひげ図
(BoxPlot) を作成する
largest
value
smallest
value
Histogram
Boxplot
Median
Outliers
目的: データのパターンや課題をチェックする
49.
Positive (right) skew
データの傾きをチェック
(ロングテール)
Mean
Median
Tip: (Generally) If mean is right of
median, data is right skewed.
あなたのデータはどんな形状をしていますか?
• よくあるパターンなのか、異なるのか?
• 処理する価値があるのか?
Mean (average) = 0
バイモーダル分布
= 2
m = 0
Mean (average) 凡そ Median
最頻値
(最も数が多い値)
正規分布(Gaussian or “Bell curve”)
60.
実装
• 深層学習でないとAIでない vs. 深層学習は高コストで最終手段
• 目新しさで深層学習を使う vs. 課題解決のために役立つ技術を探
す
• 優秀なエンジニアがいないとやらない vs. 自分たちでも出来る方
法を考える
• 技術の完成度が上がるまで手を出さない vs. まずは試してみる
• モデルの精度にこだわる vs. 精度が低くても役に立つところを探
す
62.
• AI や 機械学習の最新の
トレーニング
• 概要・基礎・チュートリアル
• 自分に適した、トレーニングコースの作成
• AI Business School
• Conversational AI
• AI Services
• Machine Learning
• Autonomous System
• Responsible AI
aischool.microsoft.com