データ分析勉強会
~データサイエンスと分析プロジェクト~
アジェンダ
• 序論 データサイエンスとは
• 第Ⅰ部 データ分析プロジェクトを知る
• 第Ⅱ部 効率の良い勉強方法
2
序論
~データサイエンスとは~
3
データサイエンスとは
データに関する研究を行う学問
データサイエンスの明確な定義はないが
必要なスキルは定義されている
4
必要なスキル
画像元:http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram 5
必要なスキル
画像元:http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
情報工学
数学
統計学
ビジネス
専門分野
6
必要なスキル
画像元:http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
情報工学
数学
統計学
ビジネス
専門分野
3領域全て
7
必要なスキル
データサイエンティストは
3領域のスキルを必要とされている
8
必要なスキル
データサイエンティストは
3領域のスキルを必要とされている
実際、3領域の習得は困難
9
必要なスキル
データサイエンティストは
3領域のスキルを必要とされている
実際、3領域の習得は困難
役割分担して、チームで取り組む
10
必要なスキル
注意!
11
注意!
画像元:http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram 12
注意!
画像元:http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
自殺行為
誤解注意
13
時代遅れ?
自殺行為!
画像元:http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
自殺行為
14
自殺行為!Danger Zone!
~Hacking Skills + Substantive Expertise~
数理統計学を知らない人が分析方法を指示すると起きる
15
自殺行為!Danger Zone!
~Hacking Skills + Substantive Expertise~
数理統計学を知らない人が分析方法を指示すると起きる
○○市場の予測がしたい!
AIでちょっとやってよ!
いただいたデータで分析した所、
精度は60%が限界ですね
精度は80%以上出してほしい
次はDeep Learningでやってみてよ!
AIといえばDeep Learning!
16
自殺行為!Danger Zone!
~Hacking Skills + Substantive Expertise~
17
精度の保証はできない
※最初にハードルを下げましょう
誤解注意!
画像元:http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
誤解注意
18
誤解注意!Machine Learning
~Hacking Skills + Math & Statistics Knowledge~
機械学習させれば正しい答えが得られる訳ではない
19
誤解注意!Machine Learning
~Hacking Skills + Math & Statistics Knowledge~
機械学習させれば正しい答えが得られる訳ではない
学習データを学習して作ったモデルに従って答えを返す
20
誤解注意!Machine Learning
~Hacking Skills + Math & Statistics Knowledge~
機械学習させれば正しい答えが得られる訳ではない
学習データを学習して作ったモデルに従って答えを返す
学習データにノイズが含まれていると、
ノイズの影響もしっかり受ける
21
誤解注意!Machine Learning
~Hacking Skills + Math & Statistics Knowledge~
22
モデル作成イメージ
誤解注意!Machine Learning
~Hacking Skills + Math & Statistics Knowledge~
23
モデル作成イメージ
学習データ
異常値?
誤解注意!Machine Learning
~Hacking Skills + Math & Statistics Knowledge~
24
モデル作成イメージ
学習データ
予想モデル
(線形回帰)
異常値?
誤解注意!Machine Learning
~Hacking Skills + Math & Statistics Knowledge~
25
モデル作成イメージ
学習データ
学習済みモデルイメージ
異常値? 異常値の
影響受ける
予想モデル
(線形回帰)
モデル
(線形回帰)
時代遅れ?
画像元:http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram 26
時代遅れ?
27
時代遅れ?Traditional Research
~Math & Statistics Knowledge + Substantive Expertise~
標本 母集団
標本から母集団を推定
推定した予測の
不確実性を仮説検定
従来の統計学では力不足?
28
時代遅れ?Traditional Research
~Math & Statistics Knowledge + Substantive Expertise~
従来の統計学では力不足?
標本 母集団
標本から母集団を推定
推定した予測の
不確実性を仮説検定
ビッグデータの登場!
標本
ビッグデータ
母集団
計算機の処理能力も向上し、
標本でモデル作成が可能
標本を母集団とみなせる
29
時代遅れ?Traditional Research
~Math & Statistics Knowledge + Substantive Expertise~
従来の統計学では力不足?
標本 母集団
標本から母集団を推定
推定した予測の
不確実性を仮説検定
ビッグデータの登場!
標本
ビッグデータ
母集団
計算機の処理能力も向上し、
標本でモデル作成が可能
アルゴリズムが重要
標本を母集団とみなせる
30
• データサイエンティストに必要なスキルは定義さ
れている
• データ分析はチームで取り組む
• 機械学習は学習データに依存するモデルを作る
• ビッグデータの登場で、従来の統計学では力不足
• 数理統計学の知識がない人が分析方法の指示を出
すとみんな不幸になる
序論まとめ
第Ⅰ部
~データ分析プロジェクトを知る~
31
データ分析プロジェクトを知る
データ分析プロジェクトの目的は意思決定の支援
▶データを正しく理解し、読み取る力が必要になる
32
データ分析プロジェクトを知る
データ分析プロジェクトの目的は意思決定の支援
▶データを正しく理解し、読み取る力が必要になる
たいてい1度の分析で結果は出ない
分析サイクルを回す必要がある
33
データ分析プロジェクトを知る
データ分析プロジェクトの目的は意思決定の支援
▶データを正しく理解し、読み取る力が必要になる
たいてい1度の分析で結果は出ない
分析サイクルを回す必要がある
どの業界においても共通となる分析フェーズ
CRISP-DMに従ってサイクルを回す 34
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
どの産業においても
共通の分析フェーズ
35
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
ビジネスの理解
課題設定
36
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
課題解決するため
のデータを理解
37
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
データが揃っていれば、
モデルを作るための
データ準備
38
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
データ準備ができたら、
モデル作成
39
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
モデルを評価
※精度が良いとは
限らない
40
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
精度が良ければ
デプロイ・納品
41
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
次の課題設定
42
第Ⅱ部
~効率の良い勉強方法~
43
どのような勉強方法が効率が良いのか?
データ分析のフェーズを1通り
経験できる勉強方法が良い
44
分析フェーズを経験するには?
分析プロジェクトに参加する
45
分析フェーズを経験するには?
分析プロジェクトに参加する
簡単にできない
46
分析フェーズを経験するには?
Kaggleに挑戦する
分析プロジェクトに参加する
簡単にできない
47
Kaggleとは?
データサイエンスのコンテスト
48
Kaggleで出来ること
ビジネス理解、
課題設定以外できる
49
Kaggleで出来ること
課題を解くための
データを理解
50
Kaggleで出来ること
欠損値、外れ値等、
データクレンジング
51
Kaggleで出来ること
統計、機械学習
モデル作成
52
Kaggleで出来ること
作成したモデルを
提出すると
採点される
53
Kaggleで出来ること
優勝し、モデル納品
すると報酬獲得
54
何故、Kaggleなのか?
使用するデータを判断する
練習もできるから
55
何故、Kaggleなのか?
使用するデータを判断する
練習もできるから
機械学習等の参考書は
良いモデルができるデータ
でモデルを作っている
56
何故、Kaggleなのか?
使用するデータを判断する
練習もできるから
機械学習等の参考書は
良いモデルができるデータ
でモデルを作っている
アプローチの
理解が目的
57
機械学習等の勉強はどうするば良いか?
アプローチを一つ選択
モデル作成、改善
使用するデータによる差を理解
58
機械学習等の勉強はどうするば良いか?
アプローチを一つ選択
モデル作成、改善
使用するデータによる差を理解
59
アプローチを1つ選択
とりあえずアプローチを全部勉強は
効率が悪い
60
アプローチを1つ選択
とりあえずアプローチを全部勉強は
効率が悪い
使用するアプローチは
目的に応じて使い分ける
61
機械学習等の勉強はどうするば良いか?
アプローチを一つ選択
モデル作成、改善
使用するデータによる差を理解
62
モデル作成、改善
モデルは作って終わりではなく、
改善する必要がある
63
モデル作成、改善
モデルは作って終わりではなく、
改善する必要がある
ハイパーパラメータと呼ばれる
手動で決めるパラメータもある
64
機械学習等の勉強はどうするば良いか?
アプローチを一つ選択
モデル作成、改善
使用するデータによる差を理解
65
使用するデータによる差の理解
全てのデータを使用すれば
最善のモデルを作れるわけではない
66
使用するデータによる差の理解
全てのデータを使用すれば
最善のモデルを作れるわけではない
導き出す答えに影響する
データを見つけ出す必要がある
67
作ったモデルは良いのか?悪いのか?
精度の良いモデルの基準は?
90%以上?
68
作ったモデルは良いのか?悪いのか?
精度の良いモデルの基準は?
90%以上?
モデルの精度は
下限を設定できる
69
モデル精度のカラクリを知る
予測/観測 1(Positive) 0(Negative)
1(Positive) True Positive False Positive
0(Negative) False Negative True Negative
モデルの精度は予測と観測が一致する
割合で決まる
70
モデル精度のカラクリを知る
予測/観測 1(Positive) 0(Negative)
1(Positive) 予測成功 予測失敗
0(Negative) 見落とし 予測成功
モデルの精度は予測と観測が一致する
割合で決まる
71
モデル精度のカラクリを知る
モデルの精度の下限は
どのように設定でできるのか?
72
モデル精度のカラクリを知る
モデルの精度の下限は
どのように設定でできるのか?
予測を全て0か1にした時の
精度が下限になる
73
モデル精度のカラクリを知る
100人の顧客が優良顧客かどうか判別するモデ
ルを作る。利用料が多い10%を優良顧客と定義
する。
予測を全て0(優良じゃない)か1(優良)
にした時の精度が下限になる
例
74
モデル精度のカラクリを知る
予測/観測 1(Positive) 0(Negative)
1(Positive) 10 90
0(Negative) 0 0
全て1(優良)の場合
精度10%
75
モデル精度のカラクリを知る
予測/観測 1(Positive) 0(Negative)
1(Positive) 0 0
0(Negative) 10 90
全て0(優良じゃない)の場合
精度90%←下限
76
• 同じアプローチでできる別のコンテストに挑戦する
• 同じ問題を別のアプローチで解く
• グラフ描画等、可視化する
次のステップは?
77
まとめ
データサイエンスの勉強するなら
Kaggleに挑戦しよう
モデル作成は1つのアプローチに
絞って勉強する
モデル精度の下限は設定できる
78
完
79

データ分析勉強会