Successfully reported this slideshow.
Your SlideShare is downloading. ×

分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 64 Ad

分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一

ーーーーーーーーーーーーーーーーーーーーーーー
schoo WEB-campusは「WEBに誕生した、学校の新しいカタチ」。
WEB生放送の授業を無料で配信しています。
▼こちらから授業に参加すると、先生への質問や、ユーザーとのチャット、資料の拡大表示等が可能です。
https://schoo.jp/class/221/room
ーーーーーーーーーーーーーーーーーーーーーーー

ーーーーーーーーーーーーーーーーーーーーーーー
schoo WEB-campusは「WEBに誕生した、学校の新しいカタチ」。
WEB生放送の授業を無料で配信しています。
▼こちらから授業に参加すると、先生への質問や、ユーザーとのチャット、資料の拡大表示等が可能です。
https://schoo.jp/class/221/room
ーーーーーーーーーーーーーーーーーーーーーーー

Advertisement
Advertisement

More Related Content

Slideshows for you (20)

Viewers also liked (20)

Advertisement

Similar to 分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一 (20)

More from schoowebcampus (20)

Advertisement

分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一

  1. 1. 【分析のリアルがここに!現場で使える分析講座】 第1回_̲実務家向け統計講座   吉永  恵⼀一  (Keiichi  Yoshinaga)  
  2. 2. 1回⽬目_̲実務家向け統計講座のアジェンダ   1.実務におけるデータ分析 2.現状把握で用いる統計
  3. 3. コンサルティング会社、マーケティングリサーチ会社などを経て、 2010年 株式会社リクルート MIT入社(現リクルートテクノロジーズ)   【As a Data Scientist】 ・CV予測アルゴリズムの開発 ・広告予算最適化モジュールの開発 2012年 住宅カンパニーへ移動(現リクルート住まいカンパニー) 【As a Marketer】 ・データ・マネジメントの企画・立案 ※詳細は次ページ  -予測・シミュレーションを用いたCM投資額の策定 -最適化技術を用いた広告ポートフォリオの策定 -パーソナライズ・リコメンデーションの実装 -コンジョイント調査を用いたWEBサイト改善のプランニング 2013年 株式会社 分析屋本舗を起業 【As a Entrepreneur】 ・需要予測や広告予算最適化、分析者養成を核とした業務支援サービス ⾃自⼰己紹介  
  4. 4. 実務家は、何をどの程度度知っていればよいのか?   <世の中に出ている様々な書籍>   <分析にまつわる専⾨門⽤用語>   <分析に⽤用いる様々な数式>   上記の知識を全て網羅的に知っていなくても、実務家は、   必要最低限の統計知識と分析の考え方を身に付ければ十分戦える!! ?  ?  ?  
  5. 5. 噛み合わない実務家と分析者の会話例例   現在、2つのクリエイティブ案のどちらを採用するか   悩んでいるのですが、A案とB案のどちらがよいか   調べて報告してください。 わかりました。では、カスタマー調査やフィジビリティ・ テストを実施して、結果を報告いたします。 差が有意ってどういう意味ですか?   結局、Aにするといくら儲かって、Bにすると どれくらい機会損失するの? 調査やテストの結果を検定してみると、AとBとの差が 統計的に有意なので、Aを採用すべきだと思います。 有意差というのは、 2つの母数に差がないという帰 無仮説が棄却された場合に言うもので。。。それに よって、いくら儲かるかは、わかりません。。。
  6. 6. 実務家と分析者の役割  1/2   エンジン開発 分析アルゴリズム開発 クルマの運転 分析結果の活用 分析者 実務家 クルマのエンジンの詳しいメカニズムを知っていなくても、クルマの   運転ができるように、実務家は、分析の詳細なアルゴリズム   (How  To  Do)を知っていなくても、分析結果を何に活⽤用するのか   (What  To  Do)に注⼒力力すればよい。   ただし、エンジンの必要最低限の知識識がないと、アクセルやブレーキの   踏み⽅方やタイミングを⾒見見誤る。  
  7. 7. 実務家と分析者の役割  2/2   実務   分析   重なるところが本⽇日の授業内容  
  8. 8. 全3回の講義内容の紹介   1回⽬目   実務家向け   統計講座   統計という名の武器を ⾝身に付ける   2回⽬目   分析設計   講座   ビジネス課題を分析   課題へ落落とし込む   3回⽬目   ケース   スタディ   1,2回の知識識やスキル で課題を体感する  
  9. 9. 1回⽬目_̲実務家向け統計講座の特徴   わかり やすさ 正確さ 表現 数式 実務的 学問的 わかりやすさ>正確さ   表現>数式   実務的>学問的  
  10. 10. 実務におけるデータ分析
  11. 11. Sales   Time   【誕⽣生期】   【成⻑⾧長期】   【成熟期】   【衰退期】   ・認知拡⼤大   ・会員獲得   ・トライアル喚起   ・リピート促進   ・クロスセル   ・アップセル   ・インセンティブ   ・サービス差別化   ・囲い込み   ・ブランドスイッチ   ・ロイヤル化   ・離離反防⽌止   ・サービス⾒見見直し   ・サービス収束   ビジネスサイクルとデータ分析  
  12. 12. データ分析を⽤用いた意思決定サイクル   ①現状把握   ②未来予測   ③シミュレート   ④最適化   time   CV   time   CV   alliance   12000   banner   6000  listing   12000   SEO   12000   affiliate   6,000  
  13. 13. ①現状把握   ②未来予測   ③シミュレート   ④最適化   現状把握とは?  1/5   体調不不良良に   気付く   病名を   特定する   薬や注射で   治療療する   治療療の   効果を測る  
  14. 14. ①現状把握   ②未来予測   ③シミュレート   ④最適化   現状把握とは?  2/5   KPI不不調に   気付く   原因を   特定する   施策で   改善を図る   改善の   効果を測る  
  15. 15. ①現状把握   ②未来予測   ③シミュレート   ④最適化   現状把握とは?  3/5   利利⽤用経験   ツイート   CPA   CTR   売上   CV   PV   現利利⽤用   助成想起   純粋想起   ブランド   知覚   CVR   検索索数   CPC   UU   ブログ   利利益   ⼝口コミ  
  16. 16. ①現状把握   ②未来予測   ③シミュレート   ④最適化   現状把握とは?  4/5  
  17. 17. ①現状把握   ②未来予測   ③シミュレート   ④最適化   現状把握とは?  5/5   SUUMO
  18. 18. ①現状把握   ②未来予測   ③シミュレート   ④最適化   予測とは?   未来を確率率率的に推し量量ること   予測   予⾔言   予知   予告   予想  
  19. 19. ①現状把握   ②未来予測   ③シミュレート   ④最適化   天気予報における降降⽔水確率率率   ⾬雨が降降るかどうかを確率率率的に推し量量る  
  20. 20. ①現状把握   ②未来予測   ③シミュレート   ④最適化   2つの予測アプローチ   ノンパラメトリック   アプローチ   予測を当たるかどうかを 重視し、中身がブラック ボックスでもよい パラメトリック   アプローチ   どの要因がどれくらい   効いているのかを   踏まえて予測する
  21. 21. ①現状把握   ②未来予測   ③シミュレート   ④最適化   パラメトリック・アプローチの原理理   現象   現象の再現   モデル   現象をモデル化   現象を再現  
  22. 22. ①現状把握   ②未来予測   ③シミュレート   ④最適化   パラメータ推定の論論理理   listing CV listing 売 上 y= a x+ b listing CV y= a x+ b listing 売 上 listing CV
  23. 23. 予測値 実測値 予測区間 ①現状把握   ②未来予測   ③シミュレート   ④最適化   予測結果   ○○%の確率率率的で予測区間の中に値が⼊入る  
  24. 24. ①現状把握   ②未来予測   ③シミュレート   ④最適化   シミュレーションとは?   ?   ?   ?  
  25. 25. ①現状把握   ②未来予測   ③シミュレート   ④最適化   数式に値を代⼊入   シミュレーションを実施する際には、『もしも●●だったら、△△に   なる』ということを数式で表現する必要があります。   下記の式にlistingのコスト、SEOのコスト、bannerのコストを   代⼊入すると、CV数を推定することができます。   Ex1.)listingのコストが100、SEOのコストが200、bannerのコスト が50の場合、   と推定されました。  
  26. 26. ①現状把握   ②未来予測   ③シミュレート   ④最適化   シミュレーション=What  IFの分析   シミュレーションとは、現状の様々な要因が変動した場合の状況の   変動をみる⾏行行為です。   Ex.1)もしもGRPが500から1000に変動したら、                                 CV数は800から1200になるでしょう   Ex.2)もしもブランドAの価格を250円から230円に値下げしたら、               ブランドAのマーケットシェアは30%から35%に増え、                 ブランドBのシェアは40%から33%に減るでしょう   要因の変動 状況の変動 要因の変動 状況の変動
  27. 27. ①現状把握   ②未来予測   ③シミュレート   ④最適化   プライシング・サイエンス   A B C D 【価格シミュレーションの例例】   各ブランドの   販売価格 ブランド   シェア S
  28. 28. ①現状把握   ②未来予測   ③シミュレート   ④最適化   最適化とは?   Ac&on↑ Cost↓ コストは最⼩小化したい、アクションは最⼤大化したい   という相反するニーズの均衡点を導き出すこと  
  29. 29. ①現状把握   ②未来予測   ③シミュレート   ④最適化   2つの最適化問題   Cost CV 1000 0 制 約 条 件 5000 制約条件
  30. 30. お菓⼦子の詰め放題も、最適化問題   目的 制約条件 総額の最大化 袋のキャパ お菓子の体積 ①現状把握   ②未来予測   ③シミュレート   ④最適化  
  31. 31. ①現状把握   ②未来予測   ③シミュレート   ④最適化   利利益の最⼤大化問題  
  32. 32. ①現状把握   ②未来予測   ③シミュレート   ④最適化   最適解探索索のイメージ(内点法、単体法)  
  33. 33. 100万 200万 300万 400万 500万 リスティング バナー CV コスト リスティング:500万円、バナー:0万円⇒CV:100件   100 80 60 40 20 リスティング:400万円、バナー:100万円⇒CV:110件   リスティング:250万円、バナー:250万円⇒CV:112件   リスティング:300万円、バナー:200万円⇒CV:115件   トータル500万円で最大のCVを得るためには、リスティングと バナーにいくらづつ投資するのが最適か? 広告最適化のイメージ  
  34. 34. 予算の最適化問題   目的 制約条件 CVの最大化 総予算のキャパ 各広告投下   金額のキャパ ①現状把握   ②未来予測   ③シミュレート   ④最適化   CM   ネット広告   紙広告  ラジオ広告   マス広告 ネット広告
  35. 35. 現状把握で用いる統計
  36. 36. データとは、情報を生み出すための素材!!   データの抽象度を高め、数量化されたデータを統計データと呼ぶ。   統計データを様々な角度から読み解くことで、有益な情報を取得する。 数量化 売上貢献が⾼高い優良良顧客のプロファイルは?   競合にスイッチしやすい                   バラエティシーカーの割合は?   CVを最⼤大化させる広告の配分はどれくらい?   データとは?  1/2  
  37. 37. データとは?  2/2   データは、そのデータ固有の特徴(構造)と   その特徴をぼやかせる不不確かさ(誤差)から成り⽴立立っている  
  38. 38. データの種類   <実例例>   <定義>  
  39. 39. データの尺度度   尺度度   数 量量 デ ー タ   カ テ ゴ リ デ ー タ   名義尺度度   順序尺度度   種類   特徴   名義化された集合に含まれる要素を数える   ⼀一対⼀一変換が可能である   順序を表しており、間隔は問題にしていない   単調増加または減少変換が可能である   間隔尺度度   ⽐比率率率尺度度   原点0は量量がないことを意味しない   等間隔性が保証されているので、加減計算ができる   原点0が⼀一義的に決まる間隔尺度度である   四則演算を適⽤用できる  
  40. 40. ※ カテゴリデータの場合はバーチャートや円グラフなどを作成する データの特徴を掴む3ステップ ƒ(χ) χ最小値 最大値 最頻値 平均 中央値 データの特徴のつかみ⽅方  
  41. 41. ヒストグラムとは?   ヒストグラムとは、データのバラツキの分布状態を棒グラフで表⽰示   したものであり、以下のような種類がある  
  42. 42. 代表値(分布の中⼼心)と散布度度(分布の幅の⼤大きさ)を⾒見見る   ヒストグラムを⾒見見るポイント  
  43. 43. 統計量量とは、データの特徴を数学的に要約したものである   データ個数   データ分布を要約した数値(データの重⼼心)   データの散らばり度度合いを表した数値   データ分布の⾮非対称性や範囲のズレを⽰示した数値   2つ以上のデータの関係を⽰示した数値   統計量量とは?  
  44. 44. 代表値(平均値、中央値、最頻値)   M=(∑X)÷N   ƒ(χ) χ 平均 標準偏差
  45. 45. 代表値(平均値、中央値、最頻値)   ƒ(χ) χ 平均 中央値 第1四分位
 (25%) 第2四分位
 (50%) 第3四分位
 (75%) (N+1)×1/2番⽬目にくる値  
  46. 46. 代表値(平均値、中央値、最頻値)   最も頻度度が⾼高いカテゴリの値  
  47. 47. 散布度度(分散、標準偏差)  
  48. 48. 平均値の罠  1/2   データが正規分布している場合に、平均値が代表値として機能する。   この場合は、中央値も平均値と合わせて⾒見見ることが必要。  
  49. 49. 平均値の罠  2/2   データの分布が異異なる場合、平均値のみの⽐比較による意思決定は、   判断を⾒見見誤るリスクがある。必ず、データの分布を確認し、   その分布に合った統計量量を算出しよう!   N χ 平均 N χ 平均 サービスAの 一日当たりCV数 サービスBの 一日当たりCV数
  50. 50. データ同⼠士の関係性の分析   【主な⽬目的】   特定の集団の特⾊色や傾向を調べる   クロス分析   相関分析   【主な⽬目的】   データ間の関連の強さを調べる   【カテゴリデータ×カテゴリデータの場合】   【カテゴリデータ×数量量データの場合】   【数量量データ×数量量データの場合】   身長 体重 【未既婚】 【平均年収】 相関係数:データの関連の強さをー1〜~1の間で表した数値   統計的な意味   2つの変数に関するデータのバラツキの⼤大きさと関係の⽅方向性 (  散布図上での点の散らばり⽅方  )  を⽰示す指標   ⇒標準化された共分散   ※  因果関係ではないことに注意!!  
  51. 51. 散布図から⾒見見る相関関係  1/2   正の完全相関   正の強い相関   正の弱い相関   無相関   負の強い相関   曲線相関   rxy=1.0 rxy=0.8 rxy=0.3 rxy=0.0 rxy=-0.8 rxy=0.0
  52. 52. 散布図から⾒見見る相関関係  2/2   正の強相関   rxy=0.9 正の強相関   rxy=0.9 どちらも、相関係数を⾒見見ただけでは、0.9と⾮非常に⾼高い値ですが、   実際は、右図は特定の値に集中していることが確認されている。   データ同⼠士がどのような関係性にあるのかは必ず視覚的に確認しよう。  
  53. 53. 数字から⾒見見る相関関係  
  54. 54. 休息時間と   就寝前の⾎血圧   負の相関   正の相関   夫の年年齢と   妻の年年齢   ⾷食事の量量と   体重   気温とエアコン   の販売台数   気温と   航空事故発⽣生率率率   台⾵風の頻度度と   靴の売れ⾏行行き   相関なし   テレビ普及率率率と   犯罪率率率   ???   養⽑毛剤の値段と   抜け⽑毛の数   タミフル接取と   精神異異常   喫煙本数と   がん発⽣生率率率   相関のあれこれ   相関と因果は別。因果は、分析する側が仮定するものであって、   分析から⾃自動的に出てこない。  
  55. 55. 相関関係   都市化の進⾏行行具合  コウノトリの巣の数   新⽣生児の数   ≒都市化が進んだ町では出⽣生率率率が低下する   コウノトリの巣が減少した町では出⽣生率率率が低下する   観測された相関関係が擬似相関であった場合、⼤大きな誤解を招いて しまう危険がある。ただし、「擬似相関=使えない情報」ではなく、 ⽬目的に応じた正しい解釈をすることが重要となる。   相関を⾒見見る注意点  
  56. 56. 正の相関   rxy=0.7 rxy=0.5 rxy=0.9 男性   ⼥女女性   男性が⼥女女性に⽐比べて相関が低いので、   全体を低めている原因になっている   分割相関  
  57. 57. 変数をセグメントごとに分割して、   真の相関を⾒見見る分析⼿手法   相関係数は外れ値の影響を受けやすい!   ⇒1つの外れ値で正負の符号が逆転することも   第3の変数の影響を排除して、   真の相関を⾒見見る分析⼿手法   線形なのか、⾮非線形なのか?   ⇒相関係数は変数間の線形関係が前提   相関を⾒見見る⽬目的に⽴立立ち返り、相関の意味を   ⾃自問⾃自答し、因果関係は担当者が判断する   相関関係を正しく⾒見見るコツ  
  58. 58. 現状把握のまとめ  
  59. 59. おわりに
  60. 60. データを基にしたコミュニケーション   Make  It  Simple!   分析者  実務家   意思決定者   意思決定を誤らない情報   を確かな⽅方法論論で!  
  61. 61. 次回の講座に向けて   分析者  実務家   意思決定者   ビジネス課題の分析課題   への落落とし込み!!  
  62. 62. 【再掲】全3回の講義内容の紹介   1回⽬目   実務家向け   統計講座   統計という名の武器を ⾝身に付ける   2回⽬目   分析設計   講座   ビジネス課題を分析   課題へ落落とし込む   3回⽬目   ケース   スタディ   1,2回の知識識やスキル で課題を体感する  
  63. 63. 次回講義に向けた宿題   1.統計量を復習しておこう! 2.自分で一つビジネス課題を 見つけておこう!
  64. 64. ご清聴、ありがとうございました。  

×