Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント

3,088 views

Published on

「サービスの利用者がどんなユーザーで構成されているのか」を問われた経験はありませんか? サービス利用者の構成がわかれば、サービスのテイスト、広告の訴求内容、商品の品揃え、改善施策の検討など、各種戦略に活かすことが出来るのでサービス運営者としては知っておきたい重要な要素です。

前半では「サービスの利用者がどんなユーザーで構成されているのか」を問われセグメントを作成する際に、どのような切り口や手順があるのかを紹介します。セグメントを効果的に作成することで、今まで気づかなかった視点が得られます。

後半では、機会学習の手段を用いたサービスの改善について見ていきます。 前半の基礎集計により導かれたユーザーの分類をサービスの改善に活かすには、様々な手法が考えられます。その中の一つ「ABテスト」を題材にして、サイト改善についての考察とクラスタリングを用いたABテストの手法について紹介します。

本講演では、「サービスの利用者がどんなユーザーで構成されているのか」を紐解き、改善に活かすために得意分野が異なる2名をお招きし、SQLを用いたアプローチ、機械学習を用いたアプローチについて、それぞれ解説していただきます。

冒頭で触れている通り、ユーザーを分類することにより、情報の出し分け、ターゲティング、内部施策の検討など、幅広い用途で活用が可能になります。本講演がサービス運営に携わる方々にとって、良いヒントとなり、サービスの改善に繋がることを願います。

Published in: Data & Analytics
  • Hello! High Quality And Affordable Essays For You. Starting at $4.99 per page - Check our website! https://vk.cc/82gJD2
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント

  1. 1. セグメント? クラスタリング? ユーザーを分類し、 サービスの改善に活かすポイント
  2. 2. ⽥宮 直⼈ ⽥中裕⼀ ⽇本アイ・ビー・エム株式会社 様々な業種へのBigDataや機械学習、 AIの利⽤の広がりを⽬的に活動を⾏う。 プライベートではOSSのコミットや コントリビュータ活動も⾏う。 フリーランス データ解析環境の設計・構築、 ログの設計、レコメンドAPIの作成など、 データに関連する業務全般を担当している。
  3. 3. ■タイトル ⽥宮 直⼈ ⽥中裕⼀
  4. 4. はじめに
  5. 5. 2⼈のアプローチの違い アナリスト SQL、Tableau エンジニア Spark ユーザーやモノをグループ分けしたい ABC分析 デシル分析 RFM分析 なにそれ? なにそれ? 階層クラスタ ⾮階層クラスタ 主成分分析
  6. 6. 2⼈のアプローチの違い アナリスト SQL、Tableau エンジニア Spark ユーザーをグループ分けしたい 2⼈のアプローチ、⾔語に違いがあった お互いの⼿法を紹介しあうと、発⾒があった これをネタに話すと⾯⽩いんじゃないか
  7. 7. セグメント
  8. 8. なぜ、セグメントを作るのか 全体 データの粒度が⼤きいため、 ⺟集団に潜む属性の特徴が可視化できない ユーザー データの粒度が細かいため、 個別個別の対応を⾏なうのが難しい セグメント データを属性別、⾏動別に分割し、 各グループの特徴を捉えることができる
  9. 9. プロダクト・ポートフォリオ・マネジメント 市 場 成 ⻑ 率 市場におけるシェア 問題児 負け⽝ ⾦のなる⽊ 花形 形式は違えど、このような形で ユーザーやモノを分類して、 それぞれの戦略を検討したい
  10. 10. セグメントを利⽤して何がしたいのか 商品のラインナップを全包囲するよりも、 より効果のある層、⺟集団の多い層に集中させたい 構成や特徴を明らかにして、戦略を⽴てたい グループの特徴、傾向がつかめれば、サイトのコンテンツの配置、 導線、広告の出稿等を最適化することができる サイト、コンテンツを最適化し、プラスの効果を出したい 効果のあるユーザーに対してのみ、クーポンを発⾏して、 キャンペーンの費⽤を抑えたい 対象ユーザーを限定し、広告費⽤を抑えたい
  11. 11. セグメントを求められたら⾏なう作業の概略 データを元に、 いくつかのグループに分けて、 ⼤きな集団に対し、 そのボリュームを把握し、 グループの特徴を調べる
  12. 12. セグメントを作成する際に⼼がけていること ボリュームが偏っても、均⼀でも構わないが、 特徴がある状態を⽬指す 漏れなく、かぶりなく MECE(Mutually Exclusive Collectively Exhaustive) 注:あくまでも⽥宮が⼼がけていることです。⼀般的なのかどうかは不明。 ⼤雑把すぎず、細かすぎず ⽬安、3つ〜7つぐらいで考えています。
  13. 13. 実際に作業してみると… データを元に、 いくつかのグループに分けて… ⼤きな集団に対し、 どうグループ分けすれば…(汗) どうやって? 何を?何で?
  14. 14. 実際に作業してみると… データを元に、 いくつかのグループに分けて… ⼤きな集団に対し、 どうグループ分けすれば…(汗) どうやって? 何を?何で?
  15. 15. 普段⾏っている3つのやり⽅ データを単純に集計する データを集計した結果を、いくつかに分ける データを意味付けし、その意味付けしたグループで集計する データベースに保存されているカテゴリデータを単純に集計する。 例:【男性・⼥性】 売上⾦額、利⽤状況などを集計して、上位n%ずつグループ分けする 例:【廃課⾦、中課⾦、微課⾦、無課⾦】 例:【ヘビーユーザー、ライトユーザー】※ログイン⽇数を元に 説明したい事象に対して、データの意味付けを⾏ない、グループ分けする 例:【新規ユーザー、リピートユーザー、カムバックユーザー】 ※登録⽇、ログイン⽇等を元に
  16. 16. カテゴリ 売上 構成⽐ 構成⽐累計 Onion 185,000 19% 19% Tomato 168,000 18% 37% Green Onion 130,000 14% 50% ... ... ... ... Lemon 36,000 4% 100% ランクA:70%〜80% ランクB:80%〜90% ランクC:90%〜100% ABC分析 ランクA ランクB ランクC
  17. 17. ヒストグラムを⽤いて分類する 1. ユーザーごとにデータを集計する 2. どのような分布になっているかを ⼤雑把に確認する。 3. これをそのままセグメントとして 使⽤しても良いが、ここから 更に意味づけをする場合も。 セレブ上流中流貧困
  18. 18. 実際に作業してみると… データを元に、 いくつかのグループに分けて… ⼤きな集団に対し、 どうグループ分けすれば…(汗) どうやって? 何を?何で?
  19. 19. STP(STP戦略、STPマーケティング) フィリップ・コトラーが提唱した 「効果的に市場を開拓するためのマーケティング⼿法」 Segmentation 市場を細分化して Targeting ターゲット層を抽出し Positioning ターゲット層に対する競争優位性を 設定する
  20. 20. Demographic ⼈⼝動態変数 年齢や性別、職業など 属性的要因で分類する Geographic 地理的変数 居住地など地理的要因で 分類する Psychographic ⼼理的変数 消費者の⼼理的特性 (趣味、消費性向など) による価値観や ライフスタイル、嗜好と いった⼈間⼼理で分類する Behavioral ⾏動変数 購買状況や使⽤頻度、 購買動機、購買パターン等 製品に対する買い⼿の知識 や態度などによって顧客を 分類する STP戦略における4つのセグメント
  21. 21. Demographic ⼈⼝動態変数 年齢や性別、職業など属性的要因で分類する ユーザー情報に誕⽣⽇や性別、職業があれば、容易に実施可能 年齢で分ける 性別で分ける データがない場合、推測したり、他社のデータと紐付けたり困難…
  22. 22. 構成⽐がわかるだけでも、営業戦略において重要な要素となり得る ペルソナとしてどのようなユーザーを設定するか検討の際にも利⽤可能
  23. 23. 年齢別区分 内訳 C層 4〜12歳の男⼥ T層 13〜19歳の男⼥ M1層 20〜34歳の男性 M2層 35〜49歳の男性 M3層 50歳以上の男性 F1層 20〜34歳の⼥性 F2層 35〜49歳の⼥性 F3層 50歳以上の⼥性 Cは⼦供を表すChildの意味 TはTeenagerの意味 Mは男性を表すMaleの意味 Fは⼥性を表すFemaleの意味 ビデオリサーチなどの視聴率調査会社や広告代理店などでは、 視聴者を下記のように区分している 趣味嗜好が多様化している状況、データが容易に集まる状況から、 昨今では最適ではないと⾔う意⾒もある。 ⼈⼝動態変数として、利⽤されている例 学⽣ 社会⼈ 既婚、未婚 ⼦持ち or ⼦なし まとめても いいのか?
  24. 24. Geographic 地理的変数 居住地など地理的要因で分類する ユーザー情報に郵便番号や住所等があれば、容易に実施可能 モバイル端末であれば、位置情報から都道府県を割り出す⽅法も 精度は落ちるが、IPから都道府県を割り出して、実施可能 精度の問題 • IPから位置情報を提供する元データの精度 • IPから割り出した位置情報の解釈 • ⾃宅 / 職場 or ⾼校・⼤学
  25. 25. IPから都道府県を割り出す MaxMind社のHPからダウンロード可能 http://dev.maxmind.com/geoip/geoip2/geolite2/
  26. 26. 都道府県を扱う際に 北海道 ⻘森県 岩⼿県 宮城県 秋⽥県 ⼭形県 福島県 東京都 神奈川県 埼⽟県 千葉県 茨城県 栃⽊県 群⾺県 ⼭梨県 新潟県 ⻑野県 … 粒度が細かい 扱いやすい形に グルーピング エリアで区切る 北海道、東北、関東、中部… 主要都市とそれ以外 東京、愛知、⼤阪、福岡、その他 東名阪
  27. 27. 2つのエリア情報が取得できる場合 居住地 宿泊地 東京 北海道 東京 ⼤阪 沖縄 福岡 隣接都道府県マスタを準備し、⾏動パターンを下記のように分類 ⾏動パターン • ⾃県 • 隣接都道府県 • 遠⽅都道府県 特徴は? ・交通⼿段(⾶⾏機、新幹線) ・宿泊プラン(価格) ・オプションパッケージ(体験) ・レンタカー付きプラン
  28. 28. Behavioral ⾏動変数 購買状況や使⽤頻度、購買動機、購買パターンなど、 製品に対する買い⼿の知識や態度などによって顧客を分類する Demographic / Geographicと異なり、1レコードに明確な条件がない データを集計し、属性を定義することで、実施が可能となる ECサイトをサンプルとして SNSをサンプルとして デシル分析 MAUの分解 RFM分析
  29. 29. ■タイトル デシル分析 ユーザーを10段階に分割して、重要度を分割する (デシル分析の「デシ」は1/10を表す) ⼿順: ユーザーを購⼊⾦額の多い順に並び替える 上位10%ずつ、デシル1〜デシル10のグループに割り当てる(ntileウィンドウ関数)
  30. 30. ■タイトル RFM分析 Recency:最新購⼊⽇ 最近購⼊に⾄ったユーザーほど優良顧客として扱う Frequency:購⼊回数 ユーザーが購⼊した回数をカウントし、回数が多いユーザーほど優良顧客として扱う Monetary:購⼊⾦額合計 ユーザーの購⼊⾦額の合計を集計し、⾦額が多いユーザーほど優良顧客として扱う 下記の3つの指標をもとにユーザーをグループ化する ランク R:最新購⼊⽇ F:累計購⼊回数 M:累計購⼊⾦額 5 14⽇以内 20回以上 30万円以上 4 28⽇以内 10回以上 10万円以上 3 60⽇以内 5回以上 3万円以上 2 90⽇以内 2回以上 5000円以上 1 91⽇以上 1回のみ 5000円未満
  31. 31. デシル分析 RFM分析 過去に1回⾼級時計(30万) を買った(⼀度きり) 毎週、毎⽉、ちょくちょく 買い物して30万円使った 同じように扱われてしまう Monetary 過去に1回⾼級時計(30万) を買った(⼀度きり) 毎週、毎⽉、ちょくちょく 買い物して30万円使った Frequency 過去に1回⾼級時計(30万) を買った(⼀度きり) 毎週、毎⽉、ちょくちょく 買い物して30万円使った
  32. 32. ■タイトル RFMを3次元で捉える RFMを1次元で捉える RFMを2次元で捉える
  33. 33. ■タイトル MAUを分解する
  34. 34. Psychographic ⼼理的変数 消費者の⼼理的特性(趣味、消費性向など)による価値観や ライフスタイル、嗜好といった⼈間⼼理で分類する ユーザーからの回答を元に分類する プリウスを購⼊している 新商品を毎度早く購⼊している ⾏動ログから定義する 趣味・興味関⼼
  35. 35. インフルエンサー・マーケティング 商品やブランドのターゲットにおいて、 周囲に影響を与える⼈物を⾒つけ、 アプローチする⽅法。 著名⼈、専⾨家などを介し、 好意的な情報が周辺に拡散することを狙う。 特定の⾏動に注⽬(タグ、単語) そのユーザーから⽀持されている ユーザーを⾒つける ランキング、コサイン類似度
  36. 36. セグメントを⽤いて 構成や特徴を明らかにして、戦略を⽴てたい サイト、コンテンツを最適化し、プラスの効果を出したい 対象ユーザーを限定し、広告費⽤を抑えたい データ セグメントA セグメントB セグメントC セグメントA セグメントB 営業戦略 企画 ターゲティング 他のシステムと連携 セグメントの定義 特徴の分析 活⽤先 …
  37. 37. データ分析
  38. 38. 仮説検証 〇〇のセグメントに対して ✖✖のアプローチをとると 改善するのではないか?と いう仮説を元に検証を⾏う 作業 探索 顧客がどのように分けれる のか知りたい!等 という⽬的を持ってデータ を探索する作業 データ分析の3つのアプローチ 健康診断 今どういう状態にあるの か?という問いを元に健康 診断を⾏い問題の把握や改 善点の⽬星をつける
  39. 39. 健康診断 BIツールなどで今の状態の 可視化が重要 仮説検証 基礎集計や機械学習のモデ ルなどを元に仮説を構築し 検証する。 探索 アドホック分析を⾏い基礎 集計や機械学習の結果を元 に新たな知⾒を得る 有機的に幾つかの作業が絡み合う 効果検証機械学習 基礎集計 仮説構築
  40. 40. 実際の業務のサイクル例 ビジネス課題や ドメインの理解 データ取得 データ 探索・理解 データ クレンジング データ変換 (加⼯) 評価 分析・モデル 作成 結果を共有 モデル適⽤ アプリ作成
  41. 41. クラスタリング
  42. 42. 階層クラスタリング データを近いものから順にまとめていき階層構造を作る⼿法 x y クラスタリング
  43. 43. 階層クラスタリングの例 コンバージョンしたユーザーとしていないユーザーとで クラスタリングを⾏いそのコンバージョン要因から • ユーザーの動線設計 • コンバージョン施策策定 などを⾏う データ デンドログラム ex. chronic kidney disease
  44. 44. ⾮階層クラスタリング データ全体から予め決めた数にデータを分類する⼿法 x y k=2 x y k=3
  45. 45. ⾮階層クラスタリングの例 ユーザーの⾏動ログからより近い⾏動を⾏ったユーザーを k個のグループに分類し、その⾏動パターンから • より最適な広告の出し分け • ペルソナグループの推定 などを⾏う ⾏動データの可視化 k=7のクラスタ
  46. 46. 主成分分析 多くの変数を持つデータセットから特徴を表す 新たな合成変数を作成する⼿法 x y 2つの変数x,y x y 新たな変数z z
  47. 47. 主成分分析の例 ユーザー情報からより特徴を表す新たな変数を作成し、 その特徴を元に分類することで • 説明変数の圧縮 を⾏います 特徴量 k=2の新たな変数(pca)
  48. 48. 今日のお話し アクセス ログ.csv 顧客 マスタ.csv 購買 ログ.csv A/Bテスト⽤ ユーザー グループ ⾮階層クラスタリングと主成分分析の例を⾒てみよう サンプルデータを⽤いてA/Bテストのユーザー抽出をテーマに 10000⼈の顧客データから1000⼈のA/B対象ユーザーを 抽出するための顧客分類に考察していきます。 x y k=?
  49. 49. A/Bテストとは何ぞや? A/Bテスト(英: A/B testing)とは、主にインターネットマーケティングで⾏わ れる、施策判断のための試験の総称である。 狭義ではA/Bテストは仮説検定を指す俗称である[1]が、広義のA/Bテストは インターネットマーケティングにおける施策の良否を判断するために、 2つの施策同⼠を⽐較検討する⾏為全般を指す。 by wikipedia 参考: https://ja.wikipedia.org/wiki/A/B%E3%83%86%E3%82%B9%E3%83%88 ⼤⼈気! ダイエットドリンク ⼤⼈気! ダイエットドリンク ○○で第⼀位! ○○で第⼀位! 健康に優しい成分 10種類配合 リピート購⼊続出 たった1ヶ⽉で -10キロ 下の内どちらがより効果的か? A/Bテストの補⾜
  50. 50. 今日のお話し アクセス ログ.csv 顧客マス タ.csv 購買ロ グ.csv A/Bテストのユーザー抽出に対する考察1 サンプルから完全にランダムなユーザーを抽出した場合 x y random ⼥性の⽐率が元々⾼い 状態でランダムサンプ ルを⾏うと、元の構成 ⽐率に引きづられる
  51. 51. 今日のお話し アクセス ログ.csv 顧客マス タ.csv 購買ロ グ.csv A/Bテストのユーザー抽出に対する考察2 サンプルから利⽤頻度に応じたユーザーを抽出した場合 x y k=3 明らかに低頻度のデー タに引きづられる
  52. 52. 今日のお話し アクセス ログ.csv 顧客マス タ.csv 購買ロ グ.csv A/Bテストのユーザー抽出に対する考察3 サンプルから性別/credit_flg/利⽤頻度に応じた ユーザーを抽出した場合 x y k=6 まだ偏りが⼤きい
  53. 53. 今日のお話し アクセス ログ.csv 顧客マス タ.csv 購買ロ グ.csv A/Bテストのユーザー抽出に対する考察4 サンプルから性別/credit_flg/利⽤頻度に応じた ユーザーを抽出した場合 さらにクラスタリング数を調整 x y k=10 まだ偏りが出る 次ページで調整
  54. 54. 今日のお話し A/Bテストのユーザー抽出に対する考察5 説明変数について⾒てみる 変数のバラツキ 標準化を⾏う
  55. 55. 今日のお話し A/Bテストのユーザー抽出に対する考察6 主成分分析(PCA)による合成変数の作成 PCAのk=2による 第1主成分,第2主成分の抽出 2つの主成分の寄与率は約70% 少し値が低いがこれでクラスタを作成
  56. 56. 今日のお話し アクセス ログ.csv 顧客マス タ.csv 購買ロ グ.csv A/Bテストのユーザー抽出に対する考察7 主成分分析により第1主成分、第2主成分を元にクラスタリング x y k=10 多少の改善が ⾒られている
  57. 57. クラスタリングを求められたら⾏なう作業の概略 ロジックによって いくつかのグループ分けられ、 ⼤きな集団が、 分けられた根拠やその特徴を探り、 グループを意味を考える ※事後グループの特徴を発⾒していく
  58. 58. まとめ
  59. 59. セグメント クラスタリング
  60. 60. セグメント・クラスタリングを利⽤して何がしたいのか 商品のラインナップを全包囲するよりも、 より効果のある層、⺟集団の多い層に集中させたい 構成や特徴を明らかにして、戦略を⽴てたい グループの特徴、傾向がつかめれば、サイトのコンテンツの配置、 導線、広告の出稿等を最適化することができる サイト、コンテンツを最適化し、プラスの効果を出したい 効果のあるユーザーに対してのみ、クーポンを発⾏して、 キャンペーンの費⽤を抑えたい 対象ユーザーを限定し、広告費⽤を抑えたい
  61. 61. データ活⽤のための環境 商品・ユーザー・売上etc.. レポートにする 他のシステムと 連携を取る APIとして 提供する 横断して、 分析できる環境があり 点在する 複数のデータを 分析した結果を 様々な⽤途、形態で 利⽤できる環境 ビッグデータ基盤 ⼿法のみではなく、利⽤シーンを⾒据えて 環境を整備したり、議論を重ねることが⼤事
  62. 62. 宣伝
  63. 63. 本⽇紹介した、下記内容を実施するための 具体的なSQLが掲載されています。 • ABC分析 • RFM分析 • MAUに関する分析 • IPから地域を求める などなど ビッグデータ SQL 検索
  64. 64. Sparkの使い⽅について 幅広く網羅している⼀冊です。 • DataFrameとSpark SQL • Spark Streaming • MLlib • GraphX 詳解 Spark 検索
  65. 65. ご清聴ありがとうございました。

×