Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

オンラインTVサービスの分析事例

698 views

Published on

WebDB forum 2016での発表資料です

Published in: Data & Analytics
  • Be the first to comment

オンラインTVサービスの分析事例

  1. 1. 1 024 A 212402 2 26 2402 2 25 2 :
  2. 2. ⾃⼰紹介 2 和⽥計也(WADA Kazuya) ✓好きな⾷べ物は特に梨 ✓静岡県袋井市出⾝ ✓筑波⼤学、筑波⼤学⼤学院 ⽣命環境科学研究科 情報⽣物学専攻 ➢枯草菌,タンパク質,遺伝⼦発現解析 ✓⼤⼿電機メーカー ➢慶應⼤理⼯学部に出向してた時期もあります ✓2011年〜 サイバーエージェント ➢Ameba サービス・プラットフォーム分析 ➢アドテク ➢AWA ➢AbemaTV ß 今⽇はこの話!! http://www.st.keio.ac.jp/news/20041221_002.html
  3. 3. ⽬次 3 ✓会社概要 ✓AbemaTVサービスについて ✓データ分析の話 ✓コメント欄からユーザの要望を探る ✓ユーザの番組視聴パターンを探る ✓ユーザの熱度を定量化する
  4. 4. ⽬次 4 ✓会社概要 ✓AbemaTVサービスについて ✓データ分析の話 ✓コメント欄からユーザの要望を探る ✓ユーザの番組視聴パターンを探る ✓ユーザの熱度を定量化する
  5. 5. 会社概要 5 ✓株式会社サイバーエージェント CyberAgent Inc. ✓設⽴ 1998年3⽉18⽇(サイバーの⽇) ✓本社 東京都渋⾕区 ✓代表取締役 藤⽥晋 (福井県鯖江市出⾝) ✓売上⾼ 2,543億円 (2015年9⽉期連結) ✓従業員数 3,623⼈ (2015年9⽉期連結) ✓事業内容 メディア事業(Ameba)         インターネット広告事業         ゲーム事業        投資育成事業
  6. 6.  事業内容 6 インターネット広告事業 広告代理事業 ⾃社広告商品 (アドテク) など メディア事業 など ゲーム事業 など ここら辺を担当
  7. 7.  Ameba統括本部運営サービス 7 A 2 1 A 1 A 1 A 4 73 1 A 1 A 5 ※1 ※3 ※2 ※4 ※5
  8. 8. ⽬次 8 ✓会社概要 ✓AbemaTVサービスについて ✓データ分析の話 ✓コメント欄からユーザの要望を探る ✓ユーザの番組視聴パターンを探る ✓ユーザの熱度を定量化する
  9. 9.  AbemaTVの紹介 9 株式会社AbemaTV: 株式会社サイバーエージェントと株式会社テレビ朝日の共同出資により2015年4月設立 会員登録不要 無料で利用可能 コメントや動画の投稿などのSNS連携機能 スマートデバイスに合わせたUI/UX 見逃し配信 オンデマンド機能(月額960円) テレビのような受け身視聴 24時間365日配信 無料の替わりにCMが流れます
  10. 10.  AbemaTVアプリのダウンロード数 10 本開局(2016年4⽉11⽇) ● 3ヶ⽉で500万DL ● 9⽉11⽇時点で800万DL突破
  11. 11.  AbemaTVアプリのチャンネル⼀覧 11 チャンネル数は25チャンネル以上
  12. 12.  AbemaTVアプリのシステム構成概要 12
  13. 13. ⽬次 13 ✓会社概要 ✓AbemaTVサービスについて ✓データ分析の話 ✓コメント欄からユーザの要望を探る ✓ユーザの番組視聴パターンを探る ✓ユーザの熱度を定量化する
  14. 14.  ユーザの要望を探る 14 ✓やりたいこと ✓AbemaTVのユーザコメント欄から、ユーザの要 望っぽい書き込みを抽出して何が求められているかを 知りたい。 }
  15. 15.  ユーザの要望を探る 15 ✓Google playのレビューは担当者が⾒てます。 ✓レビューに書き込まないようなユーザの⽣の声が得られるかも ✓フランクな要望を得られるかも
  16. 16.  ユーザの要望を探る 16 ✓⽅法 ログ基盤 (DB) コメントログ (テキスト) 要望コメント 非要望コメント フィードバック Me-grep MeCabで 形態素解析 ・要望スコア ・変数重要度 ✓⾒たい ✓欲しい ✓リクエスト ✓できれば ✓対応 ✓機能 ✓希望 サンプリング 残り大多数の コメント
  17. 17.  ユーザの要望を探る 17 ✓結果 sentence 要望スコア AbemaTVバックグラウンド再生できるようにして 0.75 AbemaTVタイムシフトできるようにしてクレメンス 0.70 対談して欲しい人 0.70 AbemaTV、PC版でも通知してほしい 0.65 AbemaTV録画機能とかないの? 0.65 : : ✓録画、タイムシフトに対する要望 ✓Chomecastに対する要望 ✓バックグラウンド再⽣ ✓⾒たいアニメとか
  18. 18.  ユーザの要望を探る 18 ✓まとめ ✓Google Playのレビュー⽂に無いような要望が得られたか? ✓⾒たいアニメ(セーラームーン等)の情報が得られた ✓フランクな要望が得られたか? ✓「結婚したい」的な意味の無い情報が多数 ➡アプリ全般に関する要望はレビュー⽂の⽅が良い
  19. 19. ⽬次 19 ✓会社概要 ✓AbemaTVサービスについて ✓データ分析の話 ✓コメント欄からユーザの要望を探る ✓ユーザの番組視聴パターンを探る ✓ユーザの熱度を定量化する
  20. 20. ユーザの視聴パターンを探る 20 ✓やりたいこと 重要なのは、ユーザーに視聴習慣を根付か せることだと考えています。好きなタレン トが出演するから、サッカーやゴルフの試 合があるからといった、コンテンツによる 一過性の視聴では意味がありません。目的 がなくても、何かやっていないかなと思っ て観に来てくれるような仕掛けづくり 月刊事業構想 2016年10月号より ➡に対して現状どうなのかを分析
  21. 21. ユーザの視聴パターンを探る 21 ✓⽅法 ログ基盤 (DB) テキスト ファイル ヘビーなユーザ を抽出 Topic model (LDA) L1 Logistic Regression 交互作用項を 含める : 視聴番組 (数千次元) : トピック (100次元)
  22. 22. ユーザの視聴パターンを探る 22 ✓LDA(トピックモデルの⼀種)とは ✓ 文章の裏には「トピック」 が存在する ✓ 一つの文章には複数の「ト ピック」がある ✓ 「トピック」が具体的に 何なのかはわからないの で人が目で見て何となく 判断 ✓ 次元圧縮の一つでもある 文章ごとの トピック分布 θ1 θ2 θ3 国会 首相 審議 選挙 法案 ・・・ 文章1 五輪 景気 経済 球場 建築 ・・・ 文章2 景気 審議 国会 対策 首相 ・・・ 文章3 ・・・ 国 会 審 議 選 挙 内 閣 トピックごとの 単語分布 φ1 ・・・ 勝 利 五 輪 野 球 球 場 φ2
  23. 23. ユーザの視聴パターンを探る 23 ✓⽂章→ユーザ ✓単語→番組 ✓ ユーザの視聴行動の裏に は「トピック」が存在す る ✓ 一ユーザには複数の「ト ピック」がある ✓ 「トピック」が具体的に 何なのかはわからないの で人が目で見て何となく 判断 ✓ 次元圧縮の一つでもある ユーザごとの トピック分布 θ1 θ2 θ3 サザエ ドラえ まる子 しん ・・・ ユーザ1 ドラえ k-1 ・・・ ユーザ2 k-1 プロレス ・・・ ユーザ3 ・・・ ド ラ え サ ザ エ し ん バ カ トピックごとの 番組分布 φ1 ・・・ プ ロ レ ス 修 斗 k- 1 ボ ク シ ン グ φ2ドラえ まる子 サザエ しん プロレス プロレスプロレス
  24. 24. ユーザの視聴パターンを探る 24 ✓利⽤データ 期間 2016/8/1~2016/9/4 対象ユーザ 8/1~8/7, 8/8~8/14, 8/15~8/21, 8/22~8/28の4週間において 各週で30秒以上の視聴行為があった ユーザ数 上記ユーザから約3万人をサンプリング 対象番組 サンプリングされた3万人のうち、5人以上が30秒以上視 聴していた番組に限定 説明変数 30秒以上視聴された番組名(例「ドラえもん 3~4話」) 目的変数 8/29~9/4の1週間で30秒以上の視聴行為があったか否か
  25. 25. ユーザの視聴パターンを探る 25 ✓利⽤データ } } } }第1週目 視聴あり 第2週目 視聴あり 第3週目 視聴あり 第4週目 視聴あり 第5週目 視聴あり/無し <目的変数> 第1~4週目 視聴した番組 の視聴時間(分) <説明変数> 時系列
  26. 26. ユーザの視聴パターンを探る 26 ✓トピック数の決定(perplexity指標) トピック数 低いほど良い ➡トピック数300個かそれ以上が良いのだが、後の計 算量問題のためトピック数100個に
  27. 27. ユーザの視聴パターンを探る 27 ✓トピックの例(鋼の錬⾦術師トピック)
  28. 28. ユーザの視聴パターンを探る 28 ✓トピックの例(プロレストピック)
  29. 29. ユーザの視聴パターンを探る 29 ✓効果量結果 トピックNo 効果量 トピック名 3 & 59 -35.82 Music & Music 61 & 91 -23.58 リミット_一挙 & クロスアンジュ 天使と竜の輪舞(ドラマ&深夜アニメ) 33 & 97 -22.31 アイドルマスター,イカ娘_一挙 & 麻雀(アニメ&麻雀) 58 & 82 -21.90 弱虫ペダル & AbemaNews(アニメ&ニュース) : : : 51 & 82 23.54 三者三葉_一挙,ニャル子_一挙 & ハイスクールD×D,イカ娘_一挙,とある 魔術(アニメ&アニメ) 17 & 54 23.69 マザー&ラヴァー_一挙,アンフェア & 麻雀(ドラマ&麻雀) 10 & 24 26.47 ストライクウィッチーズ_一挙 & だがしかし_一挙 (アニメ&アニメ) 79 & 94 26.70 ちびまる子,バカボン & メジャー_一挙 (アニメ&アニメ)
  30. 30. ユーザの視聴パターンを探る 30 ✓結果 ✓単独のトピックより、トピック同⼠の組み合わせ のほうが効果量の絶対値は⼤きい ✓Musicの離脱⼤きい ✓アニメの継続⼤きい ✓(アニメ+プロレスなどの)距離が遠そうなトピック の組み合わせはまだ継続要因にはなっていない ✓「⼀挙放送」は離脱要因にはなっていない
  31. 31. ⽬次 31 ✓会社概要 ✓AbemaTVサービスについて ✓データ分析の話 ✓コメント欄からユーザの要望を探る ✓ユーザの番組視聴パターンを探る ✓ユーザの熱度を定量化する
  32. 32. ユーザの熱度を定量化する 32 ✓やりたいこと ✓ユーザの熱度を定量化したい ✓ユーザの継続・離脱要因も知りたい ✓⼈が⾒て理解できるようなモデルがいい ユーザの継続・離脱モデ ルをまずは考えて、そこ から「ユーザの熱度定量 化」を派生させる
  33. 33. ユーザの熱度を定量化する 33 ✓利⽤データ サービス名 AbemaTV 実験対象期間 2016年5月1日 ∼ 2016年6月2日 データベース Hiveテーブル(mine_activity) 実験対象ユーザ数 アクティブ*1ユーザ100,000人を
 ランダムサンプリング*2 *1・・・1⽇30秒以上の視聴をアクティブと定義 *2・・・ユーザ単位ではなくてユーザ, アクティブ⽇でサンプリング
  34. 34. ユーザの熱度を定量化する 34 ✓利⽤変数
  35. 35. ユーザの熱度を定量化する 35 ✓利⽤変数 目的変数 翌7日間アクティブ化*日数 0 ~ 7 説明変数 前7日間アクティブ化*日数 0 ~ 7 総視聴時間(分) 0 ~ 1440 (min) 視聴チャンネル数 1 ~ 20 番組予約数 0 ~ 500 プラットフォーム PC or Smartphone 視聴チャンネルカテゴリ ニュース系、ドラマ系、麻雀 系、アニメ系、音楽系、バラエ ティ系、スポーツ系、その他
  36. 36. ユーザの熱度を定量化する 36 ✓利⽤変数 翌7日間アクティブ化日数 前7日間アクティブ化日数 目的変数 説明変数
  37. 37. ユーザの熱度を定量化する 37 ✓利⽤変数 視聴時間(分) 予約番組数 視聴チャンネル数 ➡線形モデルのようなパラメトリックモデルが苦⼿とする分布 全て説明変数
  38. 38. ユーザの熱度を定量化する 38 ✓継続・離脱モデル ✓MARS(Multivariate Adaptive Regression Splines) knotが自動的に 決まる
  39. 39. ユーザの熱度を定量化する 39 ✓継続・離脱モデル ✓MARS(Friedman J.H. 1991) ✓下記GCV()値が最⼩になるように変数選択・h(x)関数のconstが 選ばれる
  40. 40. ユーザの熱度を定量化する 40 ✓本モデルのポイント ✓「翌7⽇間のアクティブ化⽇数は、熱度pにおい て以下の⼆項分布に従う」とした点 前ページのMARSモデル ✴ pは一定(7日間変わることはない) ✴ 7日間中のアクティブ化・非アクティブ化は独立   (ある日のアクティブ化は、その翌日のアクティブ化に影響を与えない)
  41. 41. ユーザの熱度を定量化する 41 ✓⼆項分布について ✓「確率pにおいてn回試⾏を繰り返した時の成功回数」
  42. 42. ユーザの熱度を定量化する 42 ✓結果 logit(熱度) = - 0.164 - 0.406 * (プラットフォームがPCか) + 0.172 * (アニメ系番組視聴か) - 0.018 * h(35 - 総視聴時間) + 0.002 * h(総視聴時間- 35) - 0.220 * h(1 - 前7日間アクティブ日数) + 0.347 * h(前7日間アクティブ日数 - 1) - 0.225 * h(2 - 視聴チャンネル数) + 0.055 * h(視聴チャンネル数 - 2) - 0.297 * h(2 - 予約数)
  43. 43. ユーザの熱度を定量化する 43 ✓結果(変数重要度) 前7日間 アクティブ 日数 総視聴時間 アニメ系 視聴フラグ PCフラグ 予約数 チャンネル数
  44. 44. ユーザの熱度を定量化する 44 ✓モデルを利⽤した予測結果 実測値 予測値
  45. 45. ユーザの熱度を定量化する 45 ✓ユーザ視聴⾏動トラッキングツール
  46. 46. ユーザの熱度を定量化する 46 ✓ユーザ視聴⾏動トラッキングツール 熱度
  47. 47. ユーザの熱度を定量化する 47 ✓まとめ ✓KPI設計にも⽣かすことができる ✓ヘビーユーザ、ライトユーザのような分類にも利⽤可能 ✓従来は例えば「1⽇2時間以上視聴したユーザをヘビー ユーザとする」のような決め ✓サービスのヘルスチェックにも利⽤可能 ✓DAUだけではわからない、「最近ユーザの熱度が全 体的に落ちてる」のような状態の把握
  48. 48. おわりに 48 ✓株式会社サイバーエージェント, 株式会社 AbemaTVでは新卒採⽤および中途採⽤を積極的に ⾏っています。ご興味ある⽅はお声かけ下さい! https://www.wantedly.com/projects/62138

×