【分析のリアルがここに!現場で使える分析講座】
第1回_̲実務家向け統計講座	
  
吉永  恵⼀一  (Keiichi	
  Yoshinaga)	
  
1回⽬目_̲実務家向け統計講座のアジェンダ	
  
1.実務におけるデータ分析
2.現状把握で用いる統計
コンサルティング会社、マーケティングリサーチ会社などを経て、	
2010年 株式会社リクルート MIT入社(現リクルートテクノロジーズ)	
  
【As a Data Scientist】	
・CV予測アルゴリズムの開発	
・広告予算最適化モジュールの開発	
2012年 住宅カンパニーへ移動(現リクルート住まいカンパニー)	
【As a Marketer】	
・データ・マネジメントの企画・立案 ※詳細は次ページ	
 -予測・シミュレーションを用いたCM投資額の策定	
-最適化技術を用いた広告ポートフォリオの策定	
-パーソナライズ・リコメンデーションの実装	
-コンジョイント調査を用いたWEBサイト改善のプランニング	
2013年 株式会社 分析屋本舗を起業	
【As a Entrepreneur】	
・需要予測や広告予算最適化、分析者養成を核とした業務支援サービス	
⾃自⼰己紹介	
  
実務家は、何をどの程度度知っていればよいのか?	
  
<世の中に出ている様々な書籍>	
   <分析にまつわる専⾨門⽤用語>	
   <分析に⽤用いる様々な数式>	
  
上記の知識を全て網羅的に知っていなくても、実務家は、	
  
必要最低限の統計知識と分析の考え方を身に付ければ十分戦える!!	
?	
  ?	
  ?	
  
噛み合わない実務家と分析者の会話例例	
  
現在、2つのクリエイティブ案のどちらを採用するか	
  
悩んでいるのですが、A案とB案のどちらがよいか	
  
調べて報告してください。	
わかりました。では、カスタマー調査やフィジビリティ・
テストを実施して、結果を報告いたします。	
差が有意ってどういう意味ですか?	
  
結局、Aにするといくら儲かって、Bにすると
どれくらい機会損失するの?	
調査やテストの結果を検定してみると、AとBとの差が
統計的に有意なので、Aを採用すべきだと思います。	
有意差というのは、 2つの母数に差がないという帰
無仮説が棄却された場合に言うもので。。。それに
よって、いくら儲かるかは、わかりません。。。
実務家と分析者の役割	
  1/2	
  
エンジン開発 分析アルゴリズム開発
クルマの運転 分析結果の活用
分析者
実務家
クルマのエンジンの詳しいメカニズムを知っていなくても、クルマの	
  
運転ができるように、実務家は、分析の詳細なアルゴリズム	
  
(How	
  To	
  Do)を知っていなくても、分析結果を何に活⽤用するのか	
  
(What	
  To	
  Do)に注⼒力力すればよい。	
  
ただし、エンジンの必要最低限の知識識がないと、アクセルやブレーキの	
  
踏み⽅方やタイミングを⾒見見誤る。	
  
実務家と分析者の役割	
  2/2	
  
実務	
   分析	
  
重なるところが本⽇日の授業内容	
  
全3回の講義内容の紹介	
  
1回⽬目	
  
実務家向け	
  
統計講座	
  
統計という名の武器を
⾝身に付ける	
  
2回⽬目	
  
分析設計	
  
講座	
  
ビジネス課題を分析	
  
課題へ落落とし込む	
  
3回⽬目	
  
ケース	
  
スタディ	
  
1,2回の知識識やスキル
で課題を体感する	
  
1回⽬目_̲実務家向け統計講座の特徴	
  
わかり
やすさ	
正確さ	
表現	
数式	
実務的	
学問的	
わかりやすさ>正確さ	
   表現>数式	
   実務的>学問的	
  
実務におけるデータ分析
Sales	
  
Time	
  
【誕⽣生期】	
   【成⻑⾧長期】	
   【成熟期】	
   【衰退期】	
  
・認知拡⼤大	
  
・会員獲得	
  
・トライアル喚起	
  
・リピート促進	
  
・クロスセル	
  
・アップセル	
  
・インセンティブ	
  
・サービス差別化	
  
・囲い込み	
  
・ブランドスイッチ	
  
・ロイヤル化	
  
・離離反防⽌止	
  
・サービス⾒見見直し	
  
・サービス収束	
  
ビジネスサイクルとデータ分析	
  
データ分析を⽤用いた意思決定サイクル	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
time	
  
CV	
  
time	
  
CV	
  
alliance	
  
12000	
  
banner	
  
6000	
  listing	
  
12000	
  
SEO	
  
12000	
  
affiliate	
  
6,000	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
現状把握とは?	
  1/5	
  
体調不不良良に	
  
気付く	
  
病名を	
  
特定する	
  
薬や注射で	
  
治療療する	
  
治療療の	
  
効果を測る	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
現状把握とは?	
  2/5	
  
KPI不不調に	
  
気付く	
  
原因を	
  
特定する	
  
施策で	
  
改善を図る	
  
改善の	
  
効果を測る	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
現状把握とは?	
  3/5	
  
利利⽤用経験	
  
ツイート	
  
CPA	
  
CTR	
  
売上	
  
CV	
  
PV	
  
現利利⽤用	
  
助成想起	
  
純粋想起	
  
ブランド	
  
知覚	
  
CVR	
  
検索索数	
  
CPC	
  
UU	
  
ブログ	
   利利益	
   ⼝口コミ	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
現状把握とは?	
  4/5	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
現状把握とは?	
  5/5	
  
SUUMO
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
予測とは?	
  
未来を確率率率的に推し量量ること	
  
予測	
  
予⾔言	
  
予知	
  
予告	
  
予想	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
天気予報における降降⽔水確率率率	
  
⾬雨が降降るかどうかを確率率率的に推し量量る	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
2つの予測アプローチ	
  
ノンパラメトリック	
  
アプローチ	
  
予測を当たるかどうかを
重視し、中身がブラック
ボックスでもよい	
パラメトリック	
  
アプローチ	
  
どの要因がどれくらい	
  
効いているのかを	
  
踏まえて予測する
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
パラメトリック・アプローチの原理理	
  
現象	
  
現象の再現	
  
モデル	
  
現象をモデル化	
  
現象を再現	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
パラメータ推定の論論理理	
  
listing	
CV	
listing
売
上
y= a x+ b
listing
CV
y= a x+ b
listing
売
上
listing
CV
予測値	
実測値	
予測区間	
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
予測結果	
  
○○%の確率率率的で予測区間の中に値が⼊入る	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
シミュレーションとは?	
  
?	
   ?	
   ?	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
数式に値を代⼊入	
  
シミュレーションを実施する際には、『もしも●●だったら、△△に	
  
なる』ということを数式で表現する必要があります。	
  
下記の式にlistingのコスト、SEOのコスト、bannerのコストを	
  
代⼊入すると、CV数を推定することができます。	
  
Ex1.)listingのコストが100、SEOのコストが200、bannerのコスト
が50の場合、	
  
と推定されました。	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
シミュレーション=What	
  IFの分析	
  
シミュレーションとは、現状の様々な要因が変動した場合の状況の	
  
変動をみる⾏行行為です。	
  
Ex.1)もしもGRPが500から1000に変動したら、	
  
                              CV数は800から1200になるでしょう	
  
Ex.2)もしもブランドAの価格を250円から230円に値下げしたら、	
  
            ブランドAのマーケットシェアは30%から35%に増え、	
  
              ブランドBのシェアは40%から33%に減るでしょう	
  
要因の変動	
状況の変動	
要因の変動	
状況の変動
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
プライシング・サイエンス	
  
A	
 B	
 C	
 D	
【価格シミュレーションの例例】	
  
各ブランドの	
  
販売価格	
ブランド	
  
シェア	
S
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
最適化とは?	
  
Ac&on↑	
Cost↓	
コストは最⼩小化したい、アクションは最⼤大化したい	
  
という相反するニーズの均衡点を導き出すこと	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
2つの最適化問題	
  
Cost	
CV	
1000	
0	
制
約
条
件
	
5000	
制約条件
お菓⼦子の詰め放題も、最適化問題	
  
目的	
制約条件	
総額の最大化	
袋のキャパ	
 お菓子の体積	
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
利利益の最⼤大化問題	
  
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
最適解探索索のイメージ(内点法、単体法)	
  
100万	
 200万	
 300万	
 400万	
 500万	
リスティング	
バナー	
CV	
コスト	
リスティング:500万円、バナー:0万円⇒CV:100件	
  
100	
80	
60	
40	
20	
リスティング:400万円、バナー:100万円⇒CV:110件	
  
リスティング:250万円、バナー:250万円⇒CV:112件	
  
リスティング:300万円、バナー:200万円⇒CV:115件	
  
トータル500万円で最大のCVを得るためには、リスティングと
バナーにいくらづつ投資するのが最適か?	
広告最適化のイメージ	
  
予算の最適化問題	
  
目的	
制約条件	
CVの最大化	
総予算のキャパ	
 各広告投下	
  
金額のキャパ	
①現状把握	
   ②未来予測	
   ③シミュレート	
   ④最適化	
  
CM	
   ネット広告	
  
紙広告	
  ラジオ広告	
  
マス広告	
 ネット広告
現状把握で用いる統計
データとは、情報を生み出すための素材!!	
  
データの抽象度を高め、数量化されたデータを統計データと呼ぶ。	
  
統計データを様々な角度から読み解くことで、有益な情報を取得する。	
数量化	
売上貢献が⾼高い優良良顧客のプロファイルは?	
  
競合にスイッチしやすい	
  
                バラエティシーカーの割合は?	
  
CVを最⼤大化させる広告の配分はどれくらい?	
  
	
データとは?	
  1/2	
  
データとは?	
  2/2	
  
データは、そのデータ固有の特徴(構造)と	
  
その特徴をぼやかせる不不確かさ(誤差)から成り⽴立立っている	
  
データの種類	
  
<実例例>	
  
<定義>	
  
データの尺度度	
  
尺度度	
  
数
量量
デ
ー
タ
	
  
カ
テ
ゴ
リ
デ
ー
タ
	
  
名義尺度度	
  
順序尺度度	
  
種類	
   特徴	
  
名義化された集合に含まれる要素を数える	
  
⼀一対⼀一変換が可能である	
  
順序を表しており、間隔は問題にしていない	
  
単調増加または減少変換が可能である	
  
間隔尺度度	
  
⽐比率率率尺度度	
  
原点0は量量がないことを意味しない	
  
等間隔性が保証されているので、加減計算ができる	
  
原点0が⼀一義的に決まる間隔尺度度である	
  
四則演算を適⽤用できる	
  
※ カテゴリデータの場合はバーチャートや円グラフなどを作成する	
データの特徴を掴む3ステップ	
ƒ(χ)
χ最小値	
 最大値	
最頻値	
平均	
中央値	
データの特徴のつかみ⽅方	
  
ヒストグラムとは?	
  
ヒストグラムとは、データのバラツキの分布状態を棒グラフで表⽰示	
  
したものであり、以下のような種類がある	
  
代表値(分布の中⼼心)と散布度度(分布の幅の⼤大きさ)を⾒見見る	
  
ヒストグラムを⾒見見るポイント	
  
統計量量とは、データの特徴を数学的に要約したものである	
  
データ個数	
  
データ分布を要約した数値(データの重⼼心)	
  
データの散らばり度度合いを表した数値	
  
データ分布の⾮非対称性や範囲のズレを⽰示した数値	
  
2つ以上のデータの関係を⽰示した数値	
  
統計量量とは?	
  
代表値(平均値、中央値、最頻値)	
  
M=(∑X)÷N	
  
ƒ(χ)
χ
平均	
標準偏差
代表値(平均値、中央値、最頻値)	
  
ƒ(χ)
χ
平均	
中央値	
第1四分位

(25%)	
第2四分位

(50%)	
第3四分位

(75%)	
(N+1)×1/2番⽬目にくる値	
  
代表値(平均値、中央値、最頻値)	
  
最も頻度度が⾼高いカテゴリの値	
  
散布度度(分散、標準偏差)	
  
平均値の罠	
  1/2	
  
データが正規分布している場合に、平均値が代表値として機能する。	
  
この場合は、中央値も平均値と合わせて⾒見見ることが必要。	
  
平均値の罠	
  2/2	
  
データの分布が異異なる場合、平均値のみの⽐比較による意思決定は、	
  
判断を⾒見見誤るリスクがある。必ず、データの分布を確認し、	
  
その分布に合った統計量量を算出しよう!	
  
N
χ
平均	
N
χ
平均	
サービスAの
一日当たりCV数	
サービスBの
一日当たりCV数
データ同⼠士の関係性の分析	
  
【主な⽬目的】	
  
特定の集団の特⾊色や傾向を調べる	
  
クロス分析	
   相関分析	
  
【主な⽬目的】	
  
データ間の関連の強さを調べる	
  
【カテゴリデータ×カテゴリデータの場合】	
  
【カテゴリデータ×数量量データの場合】	
  
【数量量データ×数量量データの場合】	
  
身長	
体重	
【未既婚】
【平均年収】
相関係数:データの関連の強さをー1〜~1の間で表した数値	
  
統計的な意味	
  
2つの変数に関するデータのバラツキの⼤大きさと関係の⽅方向性
(	
  散布図上での点の散らばり⽅方	
  )	
  を⽰示す指標	
  
⇒標準化された共分散	
  
※  因果関係ではないことに注意!!	
  
散布図から⾒見見る相関関係	
  1/2	
  
正の完全相関	
   正の強い相関	
   正の弱い相関	
  
無相関	
   負の強い相関	
   曲線相関	
  
rxy=1.0 rxy=0.8 rxy=0.3
rxy=0.0 rxy=-0.8 rxy=0.0
散布図から⾒見見る相関関係	
  2/2	
  
正の強相関	
  
rxy=0.9
正の強相関	
  
rxy=0.9
どちらも、相関係数を⾒見見ただけでは、0.9と⾮非常に⾼高い値ですが、	
  
実際は、右図は特定の値に集中していることが確認されている。	
  
データ同⼠士がどのような関係性にあるのかは必ず視覚的に確認しよう。	
  
数字から⾒見見る相関関係	
  
休息時間と	
  
就寝前の⾎血圧	
  
負の相関	
  
正の相関	
  
夫の年年齢と	
  
妻の年年齢	
  
⾷食事の量量と	
  
体重	
  
気温とエアコン	
  
の販売台数	
  
気温と	
  
航空事故発⽣生率率率	
  
台⾵風の頻度度と	
  
靴の売れ⾏行行き	
  
相関なし	
  
テレビ普及率率率と	
  
犯罪率率率	
  
???	
  
養⽑毛剤の値段と	
  
抜け⽑毛の数	
  
タミフル接取と	
  
精神異異常	
  
喫煙本数と	
  
がん発⽣生率率率	
  
相関のあれこれ	
  
相関と因果は別。因果は、分析する側が仮定するものであって、	
  
分析から⾃自動的に出てこない。	
  
相関関係	
  
都市化の進⾏行行具合	
  コウノトリの巣の数	
   新⽣生児の数	
  
≒都市化が進んだ町では出⽣生率率率が低下する	
  
コウノトリの巣が減少した町では出⽣生率率率が低下する	
  
観測された相関関係が擬似相関であった場合、⼤大きな誤解を招いて
しまう危険がある。ただし、「擬似相関=使えない情報」ではなく、
⽬目的に応じた正しい解釈をすることが重要となる。	
  
相関を⾒見見る注意点	
  
正の相関	
  
rxy=0.7
rxy=0.5
rxy=0.9
男性	
  
⼥女女性	
  
男性が⼥女女性に⽐比べて相関が低いので、	
  
全体を低めている原因になっている	
  
分割相関	
  
変数をセグメントごとに分割して、	
  
真の相関を⾒見見る分析⼿手法	
  
相関係数は外れ値の影響を受けやすい!	
  
⇒1つの外れ値で正負の符号が逆転することも	
  
第3の変数の影響を排除して、	
  
真の相関を⾒見見る分析⼿手法	
  
線形なのか、⾮非線形なのか?	
  
⇒相関係数は変数間の線形関係が前提	
  
相関を⾒見見る⽬目的に⽴立立ち返り、相関の意味を	
  
⾃自問⾃自答し、因果関係は担当者が判断する	
  
相関関係を正しく⾒見見るコツ	
  
現状把握のまとめ	
  
おわりに
データを基にしたコミュニケーション	
  
Make	
  It	
  Simple!	
  
分析者	
  実務家	
  
意思決定者	
  
意思決定を誤らない情報	
  
を確かな⽅方法論論で!	
  
次回の講座に向けて	
  
分析者	
  実務家	
  
意思決定者	
  
ビジネス課題の分析課題	
  
への落落とし込み!!	
  
【再掲】全3回の講義内容の紹介	
  
1回⽬目	
  
実務家向け	
  
統計講座	
  
統計という名の武器を
⾝身に付ける	
  
2回⽬目	
  
分析設計	
  
講座	
  
ビジネス課題を分析	
  
課題へ落落とし込む	
  
3回⽬目	
  
ケース	
  
スタディ	
  
1,2回の知識識やスキル
で課題を体感する	
  
次回講義に向けた宿題	
  
1.統計量を復習しておこう!
2.自分で一つビジネス課題を
見つけておこう!
ご清聴、ありがとうございました。	
  

分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一