SlideShare a Scribd company logo
第5回 Zansa勉強会


                 データ
                マイニング

2012年3月27日火曜日
名前           バックボーン
      伊藤 徹郎       経済・ファイナンス
      twitter ID    Age
      @tetsuroito   26歳

      所属
      株式会社ALBERT データ分析部

      データマイニングの理想と現実の間で悩み、
      2ヶ月前に金融系の会社から転職しました。
      データアナリスト見習いです。
2012年3月27日火曜日
株式会社ALBERTについて
      私たちは「分析力をコアとする情報最適化企業」です!


                    ALBERTの事業領域

                    CRMソリューションの開発・提供

                    レコメンドエンジンの開発・提供

                    行動ターゲティング広告システムの
                    開発・提供




2012年3月27日火曜日
アジェンダ


     1、なぜデータ分析が必要なのか?



     2、データマイニングの理想と現実



     3、分析事例紹介


2012年3月27日火曜日
なぜデータ分析が必要なのか?

2012年3月27日火曜日
なぜデータ分析が必要なのか? 
      Q.どちらの会社で働きたい?

           A社                B社




                平均年齢 30.8歳   平均年齢 31.8歳
                平均年収 807万円   平均年収 620万円
2012年3月27日火曜日
なぜデータ分析が必要なのか? 

            こういう分布があったらどうでしょう?




2012年3月27日火曜日
平均に       されてはいけない

2012年3月27日火曜日
基本統計量をしっかり確認しましょう
         平均               尖度

         分散               歪度

         中央値              範囲

         最頻値              最大

         標準偏差             最小

                  分析対象の標本数の確認
                散布図やヒストグラムの確認も重要!
2012年3月27日火曜日
なぜデータ分析が必要なのか? 


     きちんとしたビジネス上の
     意思決定を行うために、
     データの分析が必要です。


2012年3月27日火曜日
データ分析の心構え


     1、分析する対象についての理解



     2、分析手法についての理解



     3、分析結果に対する的確な判断


2012年3月27日火曜日
分析力の高い組織とは




                   出典:http://www.albert2005.co.jp/blog/archives/201203/05_140501.html
2012年3月27日火曜日
データマイニング理想と現実

2012年3月27日火曜日
データマイニングの理想

                 購買データを用いて
                バスケット分析を用いたら
            おむつとビールの併売傾向がわかった!




                売り場を併設して、売上UP!
2012年3月27日火曜日
データマイニングの現実

                 購買データを用いて
                バスケット分析を用いたら
            おむつとビールの併売傾向がわかった!
                そんなに簡単に
      パターン発見などできません!


                売り場を併設して、売上UP!
2012年3月27日火曜日
データマイニングあるある
       ケース1
       コンビニの売上データを分析

                      思考錯誤の結果
                天気データを用いて重回帰分析を行ったところ
                  雨の日に傘が売れていると判明した!



                 普通に考えて当たり前ですね。


2012年3月27日火曜日
データマイニングあるある
       ケース2
       家電量販店の売上データと顧客データを分析

                  ABC分析で顧客を分類し、
                アソシエーション分析を行った結果、
                  10代、20代→非優良顧客
                   30代以上→優良顧客
                   となることがわかった!


                なんとなく予想つきますよね。
2012年3月27日火曜日
データマイニングの現実




         データマイニングは試行錯誤の連続です。

2012年3月27日火曜日
実務で重要なデータクレンジング
                        データの前処理の有無が
                         結果に大きく左右




                そのまま統計解析できるデータは皆無
2012年3月27日火曜日
データクレンジングの5ステップ
      1、データ形式を統一する

      2、欠損値を補う(補完する)

      3、データの値を   える(正規化)

      4、異常値を処理する

      5、特徴選択(変数の数を決定する)

2012年3月27日火曜日
分析事例紹介

2012年3月27日火曜日
顧客の分類手法 顧客のセグメント

                デシル分析        RFM分析        クラスター分析

           顧客を10グループに等分     顧客を3つの指標ごとに   類似した顧客を数グループに
            (売上額の順位など)       数グループに分ける         分ける




                              R:最新購入日
                                          各クラスタリング手法によって
                顧客ごとの売上合計      F:購入頻度
                                               様々
                              M:購入合計額



                                            自由度が高い反面
         現状の把握が大まかにわかる      小売業では効果的な手法    分類の意味づけなどを
                                             行う必要がある



                  低           難易度                高
2012年3月27日火曜日
K-means法




       1.各点にランダムにクラスタを割り当てる
       2.クラスタの重心を計算する。
       3.点のクラスタを、一番近い重心のクラスタに変更する
       4.変化がなければ終了。変化がある限りは 2に戻る。



2012年3月27日火曜日
クラスタリング事例




                  出典:http://www.slideshare.net/hamadakoichi/mahout-canopy-clustering-tokyowebmining-9


2012年3月27日火曜日
クラスタリング事例




                  出典:http://www.slideshare.net/hamadakoichi/mahout-canopy-clustering-tokyowebmining-9


2012年3月27日火曜日
分析事例紹介(会場のみ)

2012年3月27日火曜日

More Related Content

Similar to 20120326 zansa勉強会発表資料 (公開用) 02 04-38

tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
Preferred Networks
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
CROSSHACK, Inc.
 
Gloal retail it_leadership_forum_20121113_trial_company_presentation_rev01
Gloal retail it_leadership_forum_20121113_trial_company_presentation_rev01Gloal retail it_leadership_forum_20121113_trial_company_presentation_rev01
Gloal retail it_leadership_forum_20121113_trial_company_presentation_rev01Shinji Nishikawa
 
Padocview anonimous2
Padocview anonimous2Padocview anonimous2
Padocview anonimous2
Masato Nakai
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
Teruyuki Sakaue
 
定性的セグメンテーションと定量的セグメンテーションをつなぐ 定性調査と社会知ネットワーク(ベイジアンネットワーク)の活用
定性的セグメンテーションと定量的セグメンテーションをつなぐ 定性調査と社会知ネットワーク(ベイジアンネットワーク)の活用定性的セグメンテーションと定量的セグメンテーションをつなぐ 定性調査と社会知ネットワーク(ベイジアンネットワーク)の活用
定性的セグメンテーションと定量的セグメンテーションをつなぐ 定性調査と社会知ネットワーク(ベイジアンネットワーク)の活用Ken Yasumatsu
 
45分で理解する_マーケティング・システム入門_斉藤之雄
45分で理解する_マーケティング・システム入門_斉藤之雄45分で理解する_マーケティング・システム入門_斉藤之雄
45分で理解する_マーケティング・システム入門_斉藤之雄
Yukio Saito
 
プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回
プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回
プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回
LABO ASIA
 
マーケティング視点で捉えるアクセス解析 株式会社真摯
マーケティング視点で捉えるアクセス解析 株式会社真摯マーケティング視点で捉えるアクセス解析 株式会社真摯
マーケティング視点で捉えるアクセス解析 株式会社真摯
Yasuki Ichishima
 
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた. .
 

Similar to 20120326 zansa勉強会発表資料 (公開用) 02 04-38 (12)

tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
 
Gloal retail it_leadership_forum_20121113_trial_company_presentation_rev01
Gloal retail it_leadership_forum_20121113_trial_company_presentation_rev01Gloal retail it_leadership_forum_20121113_trial_company_presentation_rev01
Gloal retail it_leadership_forum_20121113_trial_company_presentation_rev01
 
Padocview anonimous2
Padocview anonimous2Padocview anonimous2
Padocview anonimous2
 
輪読会2012 05 22_matsuoka
輪読会2012 05 22_matsuoka輪読会2012 05 22_matsuoka
輪読会2012 05 22_matsuoka
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
 
定性的セグメンテーションと定量的セグメンテーションをつなぐ 定性調査と社会知ネットワーク(ベイジアンネットワーク)の活用
定性的セグメンテーションと定量的セグメンテーションをつなぐ 定性調査と社会知ネットワーク(ベイジアンネットワーク)の活用定性的セグメンテーションと定量的セグメンテーションをつなぐ 定性調査と社会知ネットワーク(ベイジアンネットワーク)の活用
定性的セグメンテーションと定量的セグメンテーションをつなぐ 定性調査と社会知ネットワーク(ベイジアンネットワーク)の活用
 
45分で理解する_マーケティング・システム入門_斉藤之雄
45分で理解する_マーケティング・システム入門_斉藤之雄45分で理解する_マーケティング・システム入門_斉藤之雄
45分で理解する_マーケティング・システム入門_斉藤之雄
 
プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回
プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回
プロのコンサルタントとビジネスプランを作る! 「LABO ASIA」第2ターム第2回
 
マーケティング視点で捉えるアクセス解析 株式会社真摯
マーケティング視点で捉えるアクセス解析 株式会社真摯マーケティング視点で捉えるアクセス解析 株式会社真摯
マーケティング視点で捉えるアクセス解析 株式会社真摯
 
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた
 

More from tetsuro ito

[Up用]rでqr
[Up用]rでqr[Up用]rでqr
[Up用]rでqr
tetsuro ito
 
20170912 data analyst meetup tokyo vol.5
20170912 data analyst meetup tokyo vol.5 20170912 data analyst meetup tokyo vol.5
20170912 data analyst meetup tokyo vol.5
tetsuro ito
 
DataOps in Moneyforward
DataOps in Moneyforward DataOps in Moneyforward
DataOps in Moneyforward
tetsuro ito
 
20170207 bigdata analytics_tokyo講演資料
20170207 bigdata analytics_tokyo講演資料20170207 bigdata analytics_tokyo講演資料
20170207 bigdata analytics_tokyo講演資料
tetsuro ito
 
20161029 dots machine learning in money forward
20161029 dots machine learning in money forward20161029 dots machine learning in money forward
20161029 dots machine learning in money forward
tetsuro ito
 
20160906 bq sushi
20160906 bq sushi20160906 bq sushi
20160906 bq sushi
tetsuro ito
 
TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化
tetsuro ito
 
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
tetsuro ito
 
20150303続パタ5章後半
20150303続パタ5章後半20150303続パタ5章後半
20150303続パタ5章後半
tetsuro ito
 
PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)
tetsuro ito
 
20140614 tokyo r lt
20140614 tokyo r lt 20140614 tokyo r lt
20140614 tokyo r lt tetsuro ito
 
20140329 tokyo r lt 「カーネルとsvm」
20140329 tokyo r lt 「カーネルとsvm」20140329 tokyo r lt 「カーネルとsvm」
20140329 tokyo r lt 「カーネルとsvm」tetsuro ito
 
20140204はじパタlt
20140204はじパタlt20140204はじパタlt
20140204はじパタlt
tetsuro ito
 
Japan.r 2013 「実ビジネスデータへのrの活用とその限界」
Japan.r 2013 「実ビジネスデータへのrの活用とその限界」Japan.r 2013 「実ビジネスデータへのrの活用とその限界」
Japan.r 2013 「実ビジネスデータへのrの活用とその限界」
tetsuro ito
 
はじパタ8章 svm
はじパタ8章 svmはじパタ8章 svm
はじパタ8章 svmtetsuro ito
 
Tokyo R LT 20131109
Tokyo R LT 20131109Tokyo R LT 20131109
Tokyo R LT 20131109
tetsuro ito
 
はじパタ2章
はじパタ2章はじパタ2章
はじパタ2章tetsuro ito
 
第31回TokyoR LT資料
第31回TokyoR LT資料第31回TokyoR LT資料
第31回TokyoR LT資料tetsuro ito
 
集合知プログラミング5章発表
集合知プログラミング5章発表集合知プログラミング5章発表
集合知プログラミング5章発表tetsuro ito
 
集合知プログラミング11章
集合知プログラミング11章集合知プログラミング11章
集合知プログラミング11章tetsuro ito
 

More from tetsuro ito (20)

[Up用]rでqr
[Up用]rでqr[Up用]rでqr
[Up用]rでqr
 
20170912 data analyst meetup tokyo vol.5
20170912 data analyst meetup tokyo vol.5 20170912 data analyst meetup tokyo vol.5
20170912 data analyst meetup tokyo vol.5
 
DataOps in Moneyforward
DataOps in Moneyforward DataOps in Moneyforward
DataOps in Moneyforward
 
20170207 bigdata analytics_tokyo講演資料
20170207 bigdata analytics_tokyo講演資料20170207 bigdata analytics_tokyo講演資料
20170207 bigdata analytics_tokyo講演資料
 
20161029 dots machine learning in money forward
20161029 dots machine learning in money forward20161029 dots machine learning in money forward
20161029 dots machine learning in money forward
 
20160906 bq sushi
20160906 bq sushi20160906 bq sushi
20160906 bq sushi
 
TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化
 
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
 
20150303続パタ5章後半
20150303続パタ5章後半20150303続パタ5章後半
20150303続パタ5章後半
 
PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)
 
20140614 tokyo r lt
20140614 tokyo r lt 20140614 tokyo r lt
20140614 tokyo r lt
 
20140329 tokyo r lt 「カーネルとsvm」
20140329 tokyo r lt 「カーネルとsvm」20140329 tokyo r lt 「カーネルとsvm」
20140329 tokyo r lt 「カーネルとsvm」
 
20140204はじパタlt
20140204はじパタlt20140204はじパタlt
20140204はじパタlt
 
Japan.r 2013 「実ビジネスデータへのrの活用とその限界」
Japan.r 2013 「実ビジネスデータへのrの活用とその限界」Japan.r 2013 「実ビジネスデータへのrの活用とその限界」
Japan.r 2013 「実ビジネスデータへのrの活用とその限界」
 
はじパタ8章 svm
はじパタ8章 svmはじパタ8章 svm
はじパタ8章 svm
 
Tokyo R LT 20131109
Tokyo R LT 20131109Tokyo R LT 20131109
Tokyo R LT 20131109
 
はじパタ2章
はじパタ2章はじパタ2章
はじパタ2章
 
第31回TokyoR LT資料
第31回TokyoR LT資料第31回TokyoR LT資料
第31回TokyoR LT資料
 
集合知プログラミング5章発表
集合知プログラミング5章発表集合知プログラミング5章発表
集合知プログラミング5章発表
 
集合知プログラミング11章
集合知プログラミング11章集合知プログラミング11章
集合知プログラミング11章
 

20120326 zansa勉強会発表資料 (公開用) 02 04-38

  • 1. 第5回 Zansa勉強会 データ マイニング 2012年3月27日火曜日
  • 2. 名前           バックボーン 伊藤 徹郎       経済・ファイナンス twitter ID Age @tetsuroito 26歳 所属 株式会社ALBERT データ分析部 データマイニングの理想と現実の間で悩み、 2ヶ月前に金融系の会社から転職しました。 データアナリスト見習いです。 2012年3月27日火曜日
  • 3. 株式会社ALBERTについて 私たちは「分析力をコアとする情報最適化企業」です! ALBERTの事業領域 CRMソリューションの開発・提供 レコメンドエンジンの開発・提供 行動ターゲティング広告システムの 開発・提供 2012年3月27日火曜日
  • 4. アジェンダ 1、なぜデータ分析が必要なのか? 2、データマイニングの理想と現実 3、分析事例紹介 2012年3月27日火曜日
  • 6. なぜデータ分析が必要なのか?  Q.どちらの会社で働きたい? A社 B社 平均年齢 30.8歳 平均年齢 31.8歳 平均年収 807万円 平均年収 620万円 2012年3月27日火曜日
  • 7. なぜデータ分析が必要なのか?  こういう分布があったらどうでしょう? 2012年3月27日火曜日
  • 8. 平均に されてはいけない 2012年3月27日火曜日
  • 9. 基本統計量をしっかり確認しましょう 平均 尖度 分散 歪度 中央値 範囲 最頻値 最大 標準偏差 最小 分析対象の標本数の確認 散布図やヒストグラムの確認も重要! 2012年3月27日火曜日
  • 10. なぜデータ分析が必要なのか?  きちんとしたビジネス上の 意思決定を行うために、 データの分析が必要です。 2012年3月27日火曜日
  • 11. データ分析の心構え 1、分析する対象についての理解 2、分析手法についての理解 3、分析結果に対する的確な判断 2012年3月27日火曜日
  • 12. 分析力の高い組織とは 出典:http://www.albert2005.co.jp/blog/archives/201203/05_140501.html 2012年3月27日火曜日
  • 14. データマイニングの理想 購買データを用いて バスケット分析を用いたら おむつとビールの併売傾向がわかった! 売り場を併設して、売上UP! 2012年3月27日火曜日
  • 15. データマイニングの現実 購買データを用いて バスケット分析を用いたら おむつとビールの併売傾向がわかった! そんなに簡単に パターン発見などできません! 売り場を併設して、売上UP! 2012年3月27日火曜日
  • 16. データマイニングあるある ケース1 コンビニの売上データを分析 思考錯誤の結果 天気データを用いて重回帰分析を行ったところ 雨の日に傘が売れていると判明した! 普通に考えて当たり前ですね。 2012年3月27日火曜日
  • 17. データマイニングあるある ケース2 家電量販店の売上データと顧客データを分析 ABC分析で顧客を分類し、 アソシエーション分析を行った結果、 10代、20代→非優良顧客 30代以上→優良顧客 となることがわかった! なんとなく予想つきますよね。 2012年3月27日火曜日
  • 18. データマイニングの現実 データマイニングは試行錯誤の連続です。 2012年3月27日火曜日
  • 19. 実務で重要なデータクレンジング データの前処理の有無が 結果に大きく左右 そのまま統計解析できるデータは皆無 2012年3月27日火曜日
  • 20. データクレンジングの5ステップ 1、データ形式を統一する 2、欠損値を補う(補完する) 3、データの値を える(正規化) 4、異常値を処理する 5、特徴選択(変数の数を決定する) 2012年3月27日火曜日
  • 22. 顧客の分類手法 顧客のセグメント デシル分析 RFM分析 クラスター分析 顧客を10グループに等分 顧客を3つの指標ごとに 類似した顧客を数グループに (売上額の順位など) 数グループに分ける 分ける R:最新購入日 各クラスタリング手法によって 顧客ごとの売上合計 F:購入頻度 様々 M:購入合計額 自由度が高い反面 現状の把握が大まかにわかる 小売業では効果的な手法 分類の意味づけなどを 行う必要がある 低 難易度 高 2012年3月27日火曜日
  • 23. K-means法 1.各点にランダムにクラスタを割り当てる 2.クラスタの重心を計算する。 3.点のクラスタを、一番近い重心のクラスタに変更する 4.変化がなければ終了。変化がある限りは 2に戻る。 2012年3月27日火曜日
  • 24. クラスタリング事例 出典:http://www.slideshare.net/hamadakoichi/mahout-canopy-clustering-tokyowebmining-9 2012年3月27日火曜日
  • 25. クラスタリング事例 出典:http://www.slideshare.net/hamadakoichi/mahout-canopy-clustering-tokyowebmining-9 2012年3月27日火曜日