SlideShare a Scribd company logo
1 of 53
データサイエンス勉強会
~効率の良い勉強方法~
アジェンダ
• 第Ⅰ部 データ分析プロジェクトを知る
• 第Ⅱ部 効率の良い勉強方法
第Ⅰ部
~データ分析プロジェクトを知る~
データ分析プロジェクトを知る
データ分析プロジェクトの目的は意思決定の支援
▶データを正しく理解し、読み取る力が必要になる
データ分析プロジェクトを知る
データ分析プロジェクトの目的は意思決定の支援
▶データを正しく理解し、読み取る力が必要になる
たいてい1度の分析で結果は出ない
分析サイクルを回す必要がある
データ分析プロジェクトを知る
データ分析プロジェクトの目的は意思決定の支援
▶データを正しく理解し、読み取る力が必要になる
たいてい1度の分析で結果は出ない
分析サイクルを回す必要がある
どの業界においても共通となる分析フェーズ
CRISP-DMに従ってサイクルを回す
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
どの産業においても
共通の分析フェーズ
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
ビジネスの理解
課題設定
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
課題解決するため
のデータを理解
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
データが揃っていれば、
モデルを作るための
データ準備
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
データ準備ができたら、
モデル作成
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
モデルを評価
※精度が良いとは
限らない
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
精度が良ければ
デプロイ・納品
CRISP-DMとは?
CRoss-Industry Standard Process for Data Mining
次の課題設定
第Ⅱ部
~効率の良い勉強方法~
どのような勉強方法が効率が良いのか?
データ分析のフェーズを1通り
経験できる勉強方法が良い
分析フェーズを経験するには?
分析プロジェクトに参加する
分析フェーズを経験するには?
分析プロジェクトに参加する
簡単にできない
分析フェーズを経験するには?
Kaggleに挑戦する
分析プロジェクトに参加する
簡単にできない
Kaggleとは?
データサイエンスのコンテスト
Kaggleで出来ること
ビジネス理解、
課題設定以外できる
Kaggleで出来ること
課題を解くための
データを理解
Kaggleで出来ること
欠損値、外れ値等、
データクレンジング
Kaggleで出来ること
統計、機械学習
モデル作成
Kaggleで出来ること
作成したモデルを
提出すると
採点される
Kaggleで出来ること
優勝し、モデル納品
すると報酬獲得
何故、Kaggleなのか?
使用するデータを判断する
練習もできるから
何故、Kaggleなのか?
使用するデータを判断する
練習もできるから
機械学習等の参考書は
良いモデルができるデータ
でモデルを作っている
何故、Kaggleなのか?
使用するデータを判断する
練習もできるから
機械学習等の参考書は
良いモデルができるデータ
でモデルを作っている
アプローチの
理解が目的
機械学習等の勉強はどうするば良いか?
アプローチを一つ選択
モデル作成、改善
使用するデータによる差を理解
機械学習等の勉強はどうするば良いか?
アプローチを一つ選択
モデル作成、改善
使用するデータによる差を理解
アプローチを1つ選択
とりあえずアプローチを全部勉強は
効率が悪い
アプローチを1つ選択
とりあえずアプローチを全部勉強は
効率が悪い
使用するアプローチは
目的に応じて使い分ける
機械学習等の勉強はどうするば良いか?
アプローチを一つ選択
モデル作成、改善
使用するデータによる差を理解
モデル作成、改善
モデルは作って終わりではなく、
改善する必要がある
モデル作成、改善
モデルは作って終わりではなく、
改善する必要がある
ハイパーパラメータと呼ばれる
手動で決めるパラメータもある
機械学習等の勉強はどうするば良いか?
アプローチを一つ選択
モデル作成、改善
使用するデータによる差を理解
使用するデータによる差の理解
全てのデータを使用すれば
最善のモデルを作れるわけではない
使用するデータによる差の理解
全てのデータを使用すれば
最善のモデルを作れるわけではない
導き出す答えに影響する
データを見つけ出す必要がある
作ったモデルは良いのか?悪いのか?
精度の良いモデルの基準は?
90%以上?
作ったモデルは良いのか?悪いのか?
精度の良いモデルの基準は?
90%以上?
モデルの精度は
下限を設定できる
モデル精度のカラクリを知る
予測/観測 1(Positive) 0(Negative)
1(Positive) True Positive False Positive
0(Negative) False Negative True Negative
モデルの精度は予測と観測が一致する
割合で決まる
モデル精度のカラクリを知る
予測/観測 1(Positive) 0(Negative)
1(Positive) 予測成功 予測失敗
0(Negative) 見落とし 予測成功
モデルの精度は予測と観測が一致する
割合で決まる
モデル精度のカラクリを知る
モデルの精度の下限は
どのように設定でできるのか?
モデル精度のカラクリを知る
モデルの精度の下限は
どのように設定でできるのか?
予測を全て0か1にした時の
精度が下限になる
モデル精度のカラクリを知る
100人の顧客が優良顧客かどうか判別するモデ
ルを作る。利用料が多い10%を優良顧客と定義
する。
予測を全て0(優良じゃない)か1(優良)
にした時の精度が下限になる
例
モデル精度のカラクリを知る
予測/観測 1(Positive) 0(Negative)
1(Positive) 10 90
0(Negative) 0 0
全て1(優良)の場合
精度10%
モデル精度のカラクリを知る
予測/観測 1(Positive) 0(Negative)
1(Positive) 0 0
0(Negative) 10 90
全て0(優良じゃない)の場合
精度90%←下限
Kaggleに挑戦すれば
分析フェーズ(一部除く)を
経験できる
Kaggleで出来ないことは?
CRISP-DMのサイクルを回せない
課題設定不可
施策提案不可
データの追加不可
• 同じアプローチでできる別のコンテストに挑戦する
• 同じ問題を別のアプローチで解く
• グラフ描画等、可視化する
次のステップは?
まとめ
データサイエンスの勉強するなら
Kaggleに挑戦しよう
モデル作成は1つのアプローチに
絞って勉強する
モデル精度の下限は設定できる
完

More Related Content

Similar to データサイエンス勉強会_効率の良い勉強方法

Designing Brand Identity - プロセス編1
Designing Brand Identity - プロセス編1Designing Brand Identity - プロセス編1
Designing Brand Identity - プロセス編1Soyeon Lee
 
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直schoowebcampus
 
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけてAgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけてShuji Morisaki
 
20110804 セミナー主旨とセッションのご案内 君塚
20110804 セミナー主旨とセッションのご案内 君塚20110804 セミナー主旨とセッションのご案内 君塚
20110804 セミナー主旨とセッションのご案内 君塚loftwork
 
確率論及統計論輪講 精度より成果
確率論及統計論輪講 精度より成果確率論及統計論輪講 精度より成果
確率論及統計論輪講 精度より成果Kiyoshi Ogawa
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析CROSSHACK, Inc.
 
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料The Japan DataScientist Society
 
How to improve performance
How to improve performanceHow to improve performance
How to improve performanceAtsuko Fukui
 
20170221 cnet live講演資料
20170221 cnet live講演資料20170221 cnet live講演資料
20170221 cnet live講演資料Retrieva inc.
 
「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018
「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018
「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018Yasutaka Hamada
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポートnagix
 
本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法takashi sasaki
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとはMakoto Shimizu
 
Process - Shipley Proposal Guideの「Process」の章を読む
Process - Shipley Proposal Guideの「Process」の章を読む Process - Shipley Proposal Guideの「Process」の章を読む
Process - Shipley Proposal Guideの「Process」の章を読む Naoki Ishimitsu
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録syou6162
 

Similar to データサイエンス勉強会_効率の良い勉強方法 (20)

Designing Brand Identity - プロセス編1
Designing Brand Identity - プロセス編1Designing Brand Identity - プロセス編1
Designing Brand Identity - プロセス編1
 
Endto end
Endto endEndto end
Endto end
 
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
 
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけてAgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
 
20110804 セミナー主旨とセッションのご案内 君塚
20110804 セミナー主旨とセッションのご案内 君塚20110804 セミナー主旨とセッションのご案内 君塚
20110804 セミナー主旨とセッションのご案内 君塚
 
Sample deck
Sample deckSample deck
Sample deck
 
確率論及統計論輪講 精度より成果
確率論及統計論輪講 精度より成果確率論及統計論輪講 精度より成果
確率論及統計論輪講 精度より成果
 
2022リサーチ入門2リサーチ戦略と調査テーマの理解1
2022リサーチ入門2リサーチ戦略と調査テーマの理解12022リサーチ入門2リサーチ戦略と調査テーマの理解1
2022リサーチ入門2リサーチ戦略と調査テーマの理解1
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
 
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
 
How to improve performance
How to improve performanceHow to improve performance
How to improve performance
 
20170221 cnet live講演資料
20170221 cnet live講演資料20170221 cnet live講演資料
20170221 cnet live講演資料
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018
「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018
「なりたい自分」になろう - 自分探しエンジニアの生存戦略 - インフラエンジニアのためのキャリアセミナー2018
 
Digital strategy in Japanese
Digital strategy in JapaneseDigital strategy in Japanese
Digital strategy in Japanese
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポート
 
本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとは
 
Process - Shipley Proposal Guideの「Process」の章を読む
Process - Shipley Proposal Guideの「Process」の章を読む Process - Shipley Proposal Guideの「Process」の章を読む
Process - Shipley Proposal Guideの「Process」の章を読む
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
 

More from Kikuya Takumi

ゲーム理論入門#1
ゲーム理論入門#1ゲーム理論入門#1
ゲーム理論入門#1Kikuya Takumi
 
フェルミ推定勉強会
フェルミ推定勉強会フェルミ推定勉強会
フェルミ推定勉強会Kikuya Takumi
 
イシューからはじめる行動計画
イシューからはじめる行動計画イシューからはじめる行動計画
イシューからはじめる行動計画Kikuya Takumi
 
データサイエンス勉強会~機械学習_強化学習による最適戦略の学習
データサイエンス勉強会~機械学習_強化学習による最適戦略の学習データサイエンス勉強会~機械学習_強化学習による最適戦略の学習
データサイエンス勉強会~機械学習_強化学習による最適戦略の学習Kikuya Takumi
 
Coursera machine learning week6
Coursera machine learning week6Coursera machine learning week6
Coursera machine learning week6Kikuya Takumi
 

More from Kikuya Takumi (7)

Game theory 2
Game theory 2Game theory 2
Game theory 2
 
ゲーム理論入門#1
ゲーム理論入門#1ゲーム理論入門#1
ゲーム理論入門#1
 
フェルミ推定勉強会
フェルミ推定勉強会フェルミ推定勉強会
フェルミ推定勉強会
 
イシューからはじめる行動計画
イシューからはじめる行動計画イシューからはじめる行動計画
イシューからはじめる行動計画
 
データサイエンス勉強会~機械学習_強化学習による最適戦略の学習
データサイエンス勉強会~機械学習_強化学習による最適戦略の学習データサイエンス勉強会~機械学習_強化学習による最適戦略の学習
データサイエンス勉強会~機械学習_強化学習による最適戦略の学習
 
Heroku meetup#15 lt
Heroku meetup#15 ltHeroku meetup#15 lt
Heroku meetup#15 lt
 
Coursera machine learning week6
Coursera machine learning week6Coursera machine learning week6
Coursera machine learning week6
 

データサイエンス勉強会_効率の良い勉強方法