データマイニングCROSS 2012 Opening Talk - データマイニングの実サービス・ビジネス適用と展望

9,424 views

Published on

データマイニングCROSS 2012 Opening Talk - データマイニングの実サービス・ビジネス適用と展望

Published in: Technology
0 Comments
31 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
9,424
On SlideShare
0
From Embeds
0
Number of Embeds
4,176
Actions
Shares
0
Downloads
0
Comments
0
Likes
31
Embeds 0
No embeds

No notes for slide

データマイニングCROSS 2012 Opening Talk - データマイニングの実サービス・ビジネス適用と展望

  1. 1. CROSS 2012 2012/01/27 データマイニングCROSS Opening Talk データマイニングの 実サービス・ビジネス適用と展望 TokyoWebmining主催 株式会社ディー・エヌ・エー 濱田晃一DeNA Co.,ltd. ALL rights reserved
  2. 2. AGENDA ◆講師紹介 ◆データマイニングの展開 ◆データマイニング活用 ◆大規模データマイニング基盤技術 ◆実サービス・ビジネス活用例 ◆大規模サービスでよく生じる課題と解決 ◆各業界での展開へDeNA Co.,ltd. ALL rights reserved
  3. 3. AGENDA ◆講師紹介 ◆データマイニングの展開 ◆データマイニング活用 ◆大規模データマイニング基盤技術 ◆実サービス・ビジネス活用例 ◆大規模サービスでよく生じる課題と解決 ◆各業界での展開へDeNA Co.,ltd. ALL rights reserved
  4. 4. hamadakoichi 濱田晃一http://iddy.jp/profile/hamadakoichi 4
  5. 5. データマイニング+WEB@東京 TokyoWebmining を主催しています 5
  6. 6. データマイニング+WEB@東京 思い 蓄積データを活用し 継続的に活動進化できる 世界を作りたい
  7. 7. データマイニング+WEB@東京蓄積データを有効活用したい人が それを実現できるようにしたい
  8. 8. データマイニング+WEB@東京 蓄積データを活用した継続的なサービス・活動進化を 実現する Google Group: http://groups.google.com/group/webmining-tokyo 8
  9. 9. 活動領域 2010年6月 DeNA入社 ソーシャルゲームの データマイニングチーム立上げ 9
  10. 10. 活動領域 2010年6月 DeNA入社 ソーシャルゲームの データマイニングチーム立上げ 2011年4月 データマイニング部門化 ソーシャルプラットフォーム Mobageの データマイニング実行・ディレクション 10
  11. 11. 活動領域 ソーシャルメディアのデータマイニング活用 3200万人以上の人々へ 各人のつながり・楽しみ・好み 個性にあった適切なサービス提供 Social Media Social Graph Fun Like Personality Objective Process Data Mining Machine Learning 各人のつながり、楽しみ、好み、個性にあった より適切なサービス提供 11
  12. 12. よりよい世界の実現 ソーシャル・活動情報の活用により より適切な情報・サービス配信される世界を実現したい 世界中の人々が 個々人のつながり・楽しみ・好みにあった適切な情報・サービスを 自ら探さなくても得ることができる世界 Social Media Social Graph Fun Like Personality Objective Process Data Mining Machine Learning 各人のつながり、楽しみ、好み、個性にあった より適切なサービス提供 12
  13. 13. AGENDA◆講師紹介◆データマイニングの展開◆データマイニング活用◆大規模データマイニング基盤技術◆実サービス・ビジネス活用例◆大規模サービスでよく生じる課題と解決◆各業界での展開へ
  14. 14. データマイニングの展開 ◆大規模データ:1日20億超の行動情報 ◆詳細行動情報:楽しさのマイニング ◆迅速なサービス洗練:最短数時間の洗練
  15. 15. データマイニングの展開 ◆大規模データ:1日20億超の行動情報 ◆詳細行動情報:楽しさのマイニング ◆迅速なサービス洗練:最短数時間の洗練
  16. 16. Mobage Mobage モバイルソーシャルプラットフォーム 【ゲーム】 【SNS機能】 日記の掲載、サークルの形成・参加、アバター(自分の分身のキャ ラクター)を使った匿名での自己紹介、その他のコミュニケーション 【情報配信機能】 【作品投稿】 実用性の高い情報を配信 小説、音楽、動画などの ニュース、天気予報、乗り換え案内など 作品の創作・投稿コーナーDeNA Co.,ltd. ALL rights reserved 16
  17. 17. 1日20億超の行動情報 ソーシャルゲーム登場による大規模データの急激な増加 1日20億超の行動情報 (PV/日) 25億 20億 2010年4月 15億 GREE モバイル 10億 Mixi モバイル 5億 Yahoo! モバイル 0 2008年 2009年 2010年 出典: 当社 (月次推移のご報告), 株式会社ミクシィ (2010年度第1四半期決算説明資料), ヤフー株式会社 (2008年1月~2010年6月 月次報告), グリー株式会社 (2010年度第4四半期決算説明資料)DeNA Co.,ltd. ALL rights reserved 17
  18. 18. 1日20億超の行動情報 統計的有意な結果を 多くのユーザー体験へ還元 3200万人以上 1日20億超アクションDeNA Co.,ltd. ALL rights reserved 18
  19. 19. 1日20億超の行動情報 統計的有意な結果を 多くのユーザー体験へ還元 統計的有意 データマイニング・機械学習の 結果の統計的有意性 3200万人以上 1日20億超アクションDeNA Co.,ltd. ALL rights reserved 19
  20. 20. 1日20億超の行動情報 統計的有意な結果を 多くのユーザー体験へ還元 統計的有意 多くの人へ還元 データマイニング・機械学習の 多くのユーザー体験へ 結果の統計的有意性 還元できる 3200万人以上 1日20億超アクションDeNA Co.,ltd. ALL rights reserved 20
  21. 21. データマイニングの展開 ◆大規模データ:1日20億超の行動情報 ◆詳細行動情報:楽しさのマイニング ◆迅速なサービス洗練:最短数時間の洗練
  22. 22. 詳細行動情報 目的・感情が分かる詳細行動情報DeNA Co.,ltd. ALL rights reserved 22
  23. 23. 詳細行動情報 目的・感情が分かる詳細行動情報 ミッション ボス挑戦 勝つ 負けるDeNA Co.,ltd. ALL rights reserved 23
  24. 24. 詳細行動情報 目的・感情が分かる詳細行動情報 ステータスアップ ミッション ボス挑戦 勝つ 負けるDeNA Co.,ltd. ALL rights reserved 24
  25. 25. 詳細行動情報 目的・感情が分かる詳細行動情報 ステータスアップ ミッション ボス挑戦 応援 プレゼント 勝つ 負ける 仲間申請 ウィンク 交換DeNA Co.,ltd. ALL rights reserved 25
  26. 26. 詳細行動情報 目的・感情が分かる詳細行動情報 ステータスアップ 助け合う ミッション ボス挑戦 応援 プレゼント 勝つ 負ける 仲間申請 ウィンク 交換DeNA Co.,ltd. ALL rights reserved 26
  27. 27. 詳細行動情報 目的・感情が分かる詳細行動情報 ステータスアップ 助け合う ミッション ボス挑戦 応援 プレゼント バトル 奪う 勝つ 負ける 仲間申請 ウィンク 奪われる 交換DeNA Co.,ltd. ALL rights reserved 27
  28. 28. 詳細行動情報 目的・感情が分かる詳細行動情報 ステータスアップ 助け合う スリル ミッション ボス挑戦 応援 プレゼント バトル 奪う 勝つ 負ける 仲間申請 ウィンク 奪われる 交換DeNA Co.,ltd. ALL rights reserved 28
  29. 29. 詳細行動情報 目的・感情が分かる詳細行動情報 ステータスアップ 助け合う スリル ミッション ボス挑戦 応援 プレゼント バトル 奪う 勝つ 負ける 仲間申請 ウィンク 奪われる 交換 育成 耕す 種まき 水やり 収穫 捕獲DeNA Co.,ltd. ALL rights reserved 29
  30. 30. 詳細行動情報 目的・感情が分かる詳細行動情報 ステータスアップ 助け合う スリル ミッション ボス挑戦 応援 プレゼント バトル 奪う 勝つ 負ける 仲間申請 ウィンク 奪われる 交換 育成 収集 耕す 種まき アイテム取得 水やり 収穫 アイテム合成 捕獲 … …DeNA Co.,ltd. ALL rights reserved 30
  31. 31. 詳細行動情報 目的・感情が分かる詳細行動情報 ステータスアップ 助け合う スリル ミッション ボス挑戦 応援 プレゼント バトル 奪う 勝つ 負ける 仲間申請 ウィンク 奪われる 交換 育成 収集 耕す 種まき アイテム取得 水やり 収穫 アイテム合成 捕獲 … … 楽しさのマイニングDeNA Co.,ltd. ALL rights reserved 31
  32. 32. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Social Media ExperienceDeNA Co.,ltd. ALL rights reserved 32
  33. 33. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 33
  34. 34. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 34
  35. 35. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 35
  36. 36. データマイニングの展開 ◆大規模データ:1日20億超の行動情報 ◆詳細行動情報:楽しさのマイニング ◆迅速なサービス洗練:最短数時間の洗練DeNA Co.,ltd. ALL rights reserved
  37. 37. 迅速なサービス洗練 解析結果を反映した 数時間~数日スパンで迅速なサービス洗練DeNA Co.,ltd. ALL rights reserved 37
  38. 38. 迅速なサービス洗練 解析結果を反映した 数時間~数日スパンで迅速なサービス洗練 より楽しんでもらえるユーザー体験へDeNA Co.,ltd. ALL rights reserved 38
  39. 39. AGENDA ◆講師紹介 ◆データマイニングの展開 ◆データマイニング活用 ◆大規模データマイニング基盤技術 ◆実サービス・ビジネス活用例 ◆大規模サービスでよく生じる課題と解決 ◆各業界での展開へDeNA Co.,ltd. ALL rights reserved
  40. 40. データマイニング活用によるサービス洗練 データマイニング・機械学習の活用により 迅速なサービス洗練を実現しています Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout MapReduce … Morphological Analysis Perl DeNA Social MA Pig Java Business Pre-processing/Indexing Planning Lucene Hive HUE Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 40
  41. 41. データマイニング活用によるサービス洗練 Data Mining InfrastructureDeNA Co.,ltd. ALL rights reserved 41
  42. 42. データマイニング活用によるサービス洗練 KPI(Key Performance Indicator)定常算出・共有 ビジネス・サービス変化を検知 Data Mining Infrastructure KPI Inspection KPI ViewsDeNA Co.,ltd. ALL rights reserved 42
  43. 43. データマイニング活用によるサービス洗練 経営判断・サービス洗練を行うための データマイニング実行 Data Mining Infrastructure KPI Inspection KPI Views Business PlanningDeNA Co.,ltd. ALL rights reserved 43
  44. 44. データマイニング活用によるサービス洗練 データマイニング・機械学習 結果のサービス活用 より楽しんでもらえるサービスへ Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views … Business Planning Service Log API Service Log API Log API Service … …DeNA Co.,ltd. ALL rights reserved 44
  45. 45. 大規模データマイニング基盤 データマイニング・機械学習の活用により 迅速なサービス洗練を実現しています Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout MapReduce … Morphological Analysis Perl DeNA Social MA Pig Java Business Pre-processing/Indexing Planning Lucene Hive HUE Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 45
  46. 46. AGENDA ◆講師紹介 ◆データマイニングの展開 ◆データマイニング活用 ◆大規模データマイニング基盤技術 ◆実サービス・ビジネス活用例 ◆大規模サービスでよく生じる課題と解決 ◆各業界での展開へDeNA Co.,ltd. ALL rights reserved
  47. 47. Hadoopを用いた 大規模データマイニング基盤DeNA Co.,ltd. ALL rights reserved 47
  48. 48. Hadoop Hadoopとは 大規模分散処理を行うための基盤 ・Apache プロジェクト ・Java オープンソース ・Googleが2004年に発表した論文を実装 ・主要コンポーネント ・分散ファイルシステム: HDFS (Hadoop Distributed File System) ・分散処理フレームワーク: MapreduceDeNA Co.,ltd. ALL rights reserved 48
  49. 49. Hadoopの主な利用企業 広告・ECサイト・検索・SNS等 大規模データを有するサービスで利用されているDeNA Co.,ltd. ALL rights reserved 49
  50. 50. 分散ファイルシステム:HDFS HDFS (Hadoop Distributed File System) DataNodeを増やすことで大容量化が可能 • NameNode – Meta情報を持つ、ファイル名、レプリケーション数、ファイルの保存場所など • DataNode – 実際のデータを格納するNode。ブロックサイズごとにファイルを分割して1 つのファイルを複数のNodeで保存 クライアントからは 巨大な一つのストレージに DataNode アクセスしているように見える NameNode HDFS クライアントDeNA Co.,ltd. ALL rights reserved 50
  51. 51. 分散ファイルシステム:HDFS 同一ブロックが複数のDataNodeに分散配置されることで 冗長性が担保される 固定長ブロックに分割 1 1 同一ブロックが複数のDataNodeに ファイル 2 2 分散配置される(default 3) 3 1 1 3 2 1 2 3 2 DataNode 2 3 2 1 1 2 1DeNA Co.,ltd. ALL rights reserved 51
  52. 52. 分散処理フレームワーク: MapReduce MapがkeyとValueにデータを振り分け、Reduceがkeyごとに集計 分散処理を実現する User毎のPageView集計での例 Map userA userD userA userC userB userD key 大量データに対する 3 7 1 2 6 5 value 分散演算 Shuffle & Sort Reduce userA userB userC userD userA userA userD 演算結果の集計 userB userC userD 3 1 6 2 7 5 userA userB userC userD 4 6 2 12DeNA Co.,ltd. ALL rights reserved 52
  53. 53. 大規模データマイニング基盤構成DeNA Co.,ltd. ALL rights reserved 53
  54. 54. 大規模データマイニング基盤 データマイニング・機械学習の活用により 迅速なサービス洗練を実現していますDeNA Co.,ltd. ALL rights reserved 54
  55. 55. 大規模データマイニング基盤 データマイニング・機械学習の活用により 迅速なサービス洗練を実現しています Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout MapReduce … Morphological Analysis Perl DeNA Social MA Pig Java Business Pre-processing/Indexing Planning Lucene Hive HUE Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 55
  56. 56. 大規模データマイニング基盤 Data Mining InfrastructureDeNA Co.,ltd. ALL rights reserved 56
  57. 57. 大規模データマイニング基盤 KPI(Key Performance Indicator)定常算出・共有 ビジネス・サービス変化を検知 Data Mining Infrastructure KPI Inspection KPI ViewsDeNA Co.,ltd. ALL rights reserved 57
  58. 58. 大規模データマイニング基盤 経営判断・サービス洗練を行うための データマイニング実行 Data Mining Infrastructure KPI Inspection KPI Views Business PlanningDeNA Co.,ltd. ALL rights reserved 58
  59. 59. 大規模データマイニング基盤 データマイニング・機械学習 結果のサービス活用 より楽しんでもらえるサービスへ Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views … Business Planning Service Log API Service Log API Log API Service … …DeNA Co.,ltd. ALL rights reserved 59
  60. 60. 大規模データマイニング基盤 Hadoop 全行動ログ/サービスデータ 投入 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views … Business Planning Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 60
  61. 61. 大規模データマイニング基盤 Pig/Hive 少ない記述量での一次集計/簡易KPI算出 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views … MapReduce Pig Business Data Schema Planning Service Zebra Hive Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 61
  62. 62. 大規模データマイニング基盤 HUE GUIベースの解析環境/アクセス管理 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views … MapReduce Pig Business Data Schema Planning Zebra Hive HUE Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 62
  63. 63. 大規模データマイニング基盤 MapReduce/Perl/Java 時系列処理・ゲーム分散シミュレーション等 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views MapReduce … Perl Pig Java Business Planning Hive HUE Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 63
  64. 64. 大規模データマイニング基盤 R 統計解析・データマイニング・機械学習 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views R MapReduce … Perl Pig Java Business Planning Hive HUE Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 64
  65. 65. 大規模データマイニング基盤 Mahout 大規模データマイニング・機械学習 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views Data Mining/Machine Learning R Mahout MapReduce … Perl Pig Java Business Planning Hive HUE Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 65
  66. 66. 大規模データマイニング基盤 Data Mining Libraries 各種ソーシャル行動解析用のデータマイニングライブラリ Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout MapReduce … Morphological Analysis Perl DeNA Social MA Pig Java Business Pre-processing/Indexing Planning Lucene Hive HUE Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 66
  67. 67. 大規模データマイニング基盤 データマイニング・機械学習による 迅速なサービス洗練を実現しています Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout MapReduce … Morphological Analysis Perl DeNA Social MA Pig Java Business Pre-processing/Indexing Planning Lucene Hive HUE Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 67
  68. 68. AGENDA ◆講師紹介 ◆データマイニングの展開 ◆データマイニング活用 ◆大規模データマイニング基盤技術 ◆実サービス・ビジネス活用例 ◆大規模サービスでよく生じる課題と解決 ◆各業界での展開へDeNA Co.,ltd. ALL rights reserved
  69. 69. データマイニングの展開 ◆大規模データ:1日20億超の行動情報 ◆詳細行動情報:楽しさのマイニング ◆迅速なサービス洗練:最短数時間の洗練DeNA Co.,ltd. ALL rights reserved
  70. 70. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 70
  71. 71. 活動例(抜粋) 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 71
  72. 72. 活動例(抜粋): Recommendation Recommendation より楽しんでもらえるサービス推薦DeNA Co.,ltd. ALL rights reserved
  73. 73. 活動例(抜粋): Recommendation Recommendation Strategy 推薦戦略DeNA Co.,ltd. ALL rights reserved
  74. 74. 活動例(抜粋): Recommendation Recommendation Strategy 推薦戦略 Standard Recommendation Methodologies Memory Based Paradigm Model Based Paradigm (most user decision focused) (most detailed experiments and rationale) > 強調フィルタリング (users that play A play B) > パターンの学習と予測 > ソーシャルグラフ (user neighborhood) > latent semantic analysis (game text similarity) > 強化学習 (user feedback) > artificial neural network > locality sensitive hashing (user profile similarity) Emergent Intelligence Paradigm Hybridized Intelligence Paradigm (fastest adaptation) (most successful globally) > エージェントランダムウォーク(user similarity search) > 手法の組合せによる向上 > 遺伝的アルゴリズム (game preference convergence) >> 友人がいないとき (e.g. new user) >> 利用データが存在しないとき (e.g. new game) >> モデルからメタデータが取得できないとき > 混合手法によるこれらの課題解決DeNA Co.,ltd. ALL rights reserved
  75. 75. 活動例(抜粋): Recommendation Recommendation Strategy 推薦戦略 Standard Recommendation Methodologies Memory Based Paradigm Model Based Paradigm (most user decision focused) (most detailed experiments and rationale) > 強調フィルタリング (users that play A play B) > パターンの学習と予測 > ソーシャルグラフ (user neighborhood) > latent semantic analysis (game text similarity) > 強化学習 (user feedback) > artificial neural network > locality sensitive hashing (user profile similarity) Emergent Intelligence Paradigm Hybridized Intelligence Paradigm (fastest adaptation) (most successful globally) > エージェントランダムウォーク(user similarity search) > 手法の組合せによる向上 > 遺伝的アルゴリズム (game preference convergence) >> 友人がいないとき (e.g. new user) >> 利用データが存在しないとき (e.g. new game) >> モデルからメタデータが取得できないとき > 混合手法によるこれらの課題解決DeNA Co.,ltd. ALL rights reserved
  76. 76. 活動例(抜粋): Recommendation Social Collaborative Filtering ソーシャルグラフを用いたユーザー行動履歴・グラフによる推薦 Social Graph Input User History and Social Graph Collaborative Filtering (Global) RECS (Global Matrix Model for “A likes B”) New user with no history Friend Input User History and Collaborative Filtering (Personal) RECS Neighborhood user (Neighborhood Matrix Model for “A likes B”) Neighborhood User with history Item-Item Matrix of Relationships (Invented by Amazon.com) Friend of Friend Wikipedia Image of a Social Network Relationship between Game A2 and C2 There are thousands of collaborative filtering varieties: + user friend neighborhood… Users who “bought A bought C”, “viewed A viewed C”… + user similarity clustered neighborhood… References (International Research Copyrights)DeNA Co.,ltd. ALL rights reserved
  77. 77. 活動例(抜粋): Recommendation Recommendation Strategy 推薦戦略 Standard Recommendation Methodologies Memory Based Paradigm Model Based Paradigm (most user decision focused) (most detailed experiments and rationale) > 強調フィルタリング (users that play A play B) > パターンの学習と予測 > ソーシャルグラフ (user neighborhood) > latent semantic analysis (game text similarity) > 強化学習 (user feedback) > artificial neural network > locality sensitive hashing (user profile similarity) Emergent Intelligence Paradigm Hybridized Intelligence Paradigm (fastest adaptation) (most successful globally) > エージェントランダムウォーク(user similarity search) > 手法の組合せによる向上 > 遺伝的アルゴリズム (game preference convergence) >> 友人がいないとき (e.g. new user) >> 利用データが存在しないとき (e.g. new game) >> モデルからメタデータが取得できないとき > 混合手法によるこれらの課題解決DeNA Co.,ltd. ALL rights reserved
  78. 78. 活動例(抜粋): Recommendation Content Similarity コンテンツ類似度の利用 1 Latent Semantic Analysis via Singular Value Decomposition 2 Cosine Similarity Equation 3 Similarity Game A2 and C2 4 5 6 Game A to B Cosine Similarity Matrix Smoothing Normalization Statistical Z-Score removes Low Game A to B Relationship Matrix Confidence ScoresDeNA Co.,ltd. ALL rights reserved
  79. 79. 活動例(抜粋): Recommendation Social Neural Networks ソーシャルグラフを用いたユーザー行動履歴・グラフによる推薦 Social Graph 1 G1 G1 0 1 G2 G2 0 0 G3 G3 0 0 G4 G4 1 0 G5 G5 0 Friend 0 G6 G6 0 user 0 G7 G7 Input User History 0 Neighborhood and Neighborhood 0 G8 G8 0 0 G9 G9 0 HISTORY RECOMMENDATIONS Friend of Friend Wikipedia Image of a Social NetworkDeNA Co.,ltd. ALL rights reserved
  80. 80. 活動例(抜粋): Recommendation Recommendation Strategy 推薦戦略 Standard Recommendation Methodologies Memory Based Paradigm Model Based Paradigm (most user decision focused) (most detailed experiments and rationale) > 強調フィルタリング (users that play A play B) > パターンの学習と予測 > ソーシャルグラフ (user neighborhood) > latent semantic analysis (game text similarity) > 強化学習 (user feedback) > artificial neural network > locality sensitive hashing (user profile similarity) Emergent Intelligence Paradigm Hybridized Intelligence Paradigm (fastest adaptation) (most successful globally) > エージェントランダムウォーク(user similarity search) > 手法の組合せによる向上 > 遺伝的アルゴリズム (game preference convergence) >> 友人がいないとき (e.g. new user) >> 利用データが存在しないとき (e.g. new game) >> モデルからメタデータが取得できないとき > 混合手法によるこれらの課題解決DeNA Co.,ltd. ALL rights reserved
  81. 81. 活動例(抜粋): Recommendation Social Agent Emergence エージェントによる隠されたグループ抽出 Sub-culture 1 Sub-culture 2 AGENT Random Walk Genetic AlgorithmDeNA Co.,ltd. ALL rights reserved
  82. 82. 活動例(抜粋): Recommendation Recommendation Strategy 推薦戦略 Standard Recommendation Methodologies Memory Based Paradigm Model Based Paradigm (most user decision focused) (most detailed experiments and rationale) > 強調フィルタリング (users that play A play B) > パターンの学習と予測 > ソーシャルグラフ (user neighborhood) > latent semantic analysis (game text similarity) > 強化学習 (user feedback) > artificial neural network > locality sensitive hashing (user profile similarity) Emergent Intelligence Paradigm Hybridized Intelligence Paradigm (fastest adaptation) (most successful globally) > エージェントランダムウォーク(user similarity search) > 手法の組合せによる向上 > 遺伝的アルゴリズム (game preference convergence) >> 友人がいないとき (e.g. new user) >> 利用データが存在しないとき (e.g. new game) >> モデルからメタデータが取得できないとき > 混合手法によるこれらの課題解決DeNA Co.,ltd. ALL rights reserved
  83. 83. 活動例(抜粋): Recommendation Hybrid Models Hybrid Model Users that Like A Like B Prediction CF AGENT SIM NN RLDeNA Co.,ltd. ALL rights reserved
  84. 84. 活動例(抜粋): Recommendation Recommendation より楽しんでもらえるサービス推薦 Standard Recommendation Methodologies Memory Based Paradigm Model Based Paradigm (most user decision focused) (most detailed experiments and rationale) > 強調フィルタリング (users that play A play B) > パターンの学習と予測 > ソーシャルグラフ (user neighborhood) > latent semantic analysis (game text similarity) > 強化学習 (user feedback) > artificial neural network > locality sensitive hashing (user profile similarity) Emergent Intelligence Paradigm Hybridized Intelligence Paradigm (fastest adaptation) (most successful globally) > エージェントランダムウォーク(user similarity search) > 手法の組合せによる向上 > 遺伝的アルゴリズム (game preference convergence) >> 友人がいないとき (e.g. new user) >> 利用データが存在しないとき (e.g. new game) >> モデルからメタデータが取得できないとき > 混合手法によるこれらの課題解決DeNA Co.,ltd. ALL rights reserved
  85. 85. 活動例(抜粋) 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 85
  86. 86. 活動例(抜粋): Pattern/Clustering/Classification Feature Analysis 楽しさの行動パターン、やめてしまう状況パターンDeNA Co.,ltd. ALL rights reserved
  87. 87. 活動例(抜粋): Pattern/Clustering/Classification Feature Analysis 楽しさの行動パターン、やめてしまう状況パターン Pattern Mining F1 E1 F2 E1 F3 F4 F5 Clustering Feature Analysis Activity N, … Classification Activity 1 RegressionDeNA Co.,ltd. ALL rights reserved
  88. 88. 活動例(抜粋) Feature Analysis/Prediction 楽しさの行動パターン、やめてしまう状況パターン ■楽しさの行動パターン ■やめてしまう状況パターンDeNA Co.,ltd. ALL rights reserved 88
  89. 89. 活動例(抜粋) Feature Analysis/Prediction 楽しさの行動パターン、やめてしまう状況パターン ■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ■やめてしまう状況パターンDeNA Co.,ltd. ALL rights reserved 89
  90. 90. 活動例(抜粋) Feature Analysis/Prediction 楽しさの行動パターン、やめてしまう状況パターン ■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。 ■やめてしまう状況パターンDeNA Co.,ltd. ALL rights reserved 90
  91. 91. 活動例(抜粋) Feature Analysis/Prediction 楽しさの行動パターン、やめてしまう状況パターン ■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。 ■やめてしまう状況パターン ・飽きはじめるきっかけ・不快な状況 ⇒やめるきっかけを発生させないようにする。DeNA Co.,ltd. ALL rights reserved 91
  92. 92. 活動例(抜粋) Feature Analysis/Prediction 楽しさの行動パターン、やめてしまう状況パターン ■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。 ■やめてしまう状況パターン ・飽きはじめるきっかけ・不快な状況 ⇒やめるきっかけを発生させないようにする。 ・飽きはじめたユーザーの予測・判別 ⇒新鮮・斬新な体験を提供する ⇒他の楽しみ方の提供(他サービスへの推薦 等)DeNA Co.,ltd. ALL rights reserved 92
  93. 93. 活動例(抜粋) Feature Analysis/Prediction 楽しさの行動パターン、やめてしまう状況パターン ■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。 ■やめてしまう状況パターン ・飽きはじめるきっかけ・不快な状況 ⇒やめるきっかけを発生させないようにする。 ・飽きはじめたユーザーの予測・判別 ⇒新鮮・斬新な体験を提供する ⇒他の楽しみ方の提供(他サービスへの推薦 等)DeNA Co.,ltd. ALL rights reserved 93
  94. 94. 活動例(抜粋): Pattern/Clustering/Classification Feature Analysis/Prediction 楽しさの行動パターン、やめてしまう状況パターン 例)DeNA Co.,ltd. ALL rights reserved
  95. 95. 活動例(抜粋): Pattern/Clustering/Classification Feature Analysis/Prediction 楽しさの行動パターン、やめてしまう状況パターン 例) Pattern Mining F1 E1 やめてしまう F2 E1 夢中になり始める F3 F4 F5DeNA Co.,ltd. ALL rights reserved
  96. 96. 活動例(抜粋): Pattern/Clustering/Classification Feature Analysis/Prediction 楽しさの行動パターン、やめてしまう状況パターン 例) Pattern Mining F1 E1 やめてしまう F2 E1 夢中になり始める F3 F4 F5 Clustering Activity N, … 離脱 継続 Activity 1DeNA Co.,ltd. ALL rights reserved
  97. 97. 活動例(抜粋): Pattern/Clustering/Classification Feature Analysis/Prediction 楽しさの行動パターン、やめてしまう状況パターン 例) Pattern Mining F1 E1 やめてしまう F2 E1 夢中になり始める F3 F4 F5 Clustering Feature Analysis Activity N, … 離脱 継続 Classification Activity 1 RegressionDeNA Co.,ltd. ALL rights reserved
  98. 98. 活動例(抜粋): Pattern/Clustering/Classification Feature Analysis/Prediction 楽しさの行動パターン、やめてしまう状況パターン 例) Pattern Mining F1 E1 やめてしまう F2 E1 夢中になり始める F3 F4 F5 Clustering Feature Analysis Activity N, … 離脱 User Experience Improvement 継続 Classification Activity 1 RegressionDeNA Co.,ltd. ALL rights reserved
  99. 99. 活動例(抜粋) 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 99
  100. 100. 活動例(抜粋): Time Series Analysis Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA 地域A CM効果 トラフィックB 地域B トラフィックC 調査 地域C 異常な振る舞いをしている 異常な振る舞いをしている地域を トラフィックの原因を調査する 除外して、CMの効果を算出する 100
  101. 101. 活動例(抜粋): Time Series Analysis Anomaly detection 新しいデータと過去時系列モデルの乖離から異常検出 異常スコア推移モデル構築 異常値◇例 : ARIMAモデル異常スコアの算出◇例 : 対数損失 t 101
  102. 102. 活動例(抜粋): Time Series Analysis TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その 他 継続 外部 率 要因 地 域 102
  103. 103. 活動例(抜粋) 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 103
  104. 104. 活動例(抜粋) Other Applications 他にも各種ユーザー体験向上に役立てています■健全なプラットフォームへ ・不正書き込み判別 ・年齢詐称の判別■ユーザーの声によるサービス洗練 ・ソーシャルコミュニケーションのテキストマイニング 等 104
  105. 105. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 105
  106. 106. AGENDA ◆講師紹介 ◆データマイニングの展開 ◆データマイニング活用 ◆大規模データマイニング基盤技術 ◆実サービス・ビジネス活用例 ◆大規模サービスでよく生じる課題と解決 ◆各業界での展開へDeNA Co.,ltd. ALL rights reserved
  107. 107. 大規模データマイニング基盤 統一行動記述 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout MapReduce … Morphological Analysis Perl DeNA Social MA Pig Hive Business Pre-processing/Indexing Planning Lucene Hive Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 107
  108. 108. 統一行動記述 大規模サービスでよく生じる課題 大規模サービスでよく生じる課題形式置き場DeNA Co.,ltd. ALL rights reserved 108
  109. 109. 統一行動記述 大規模サービスでよく生じる課題 大規模サービスでよく生じる課題 サービスごとにログフォーマットが異なる形式 ・何を解析すればいいか分からない ・パラメータの値の意味が分からない ・類似の解析実装がサービスごとに 複数存在する置き場DeNA Co.,ltd. ALL rights reserved 109
  110. 110. 統一行動記述 大規模サービスでよく生じる課題 大規模サービスでよく生じる課題 サービスごとにログフォーマットが異なる形式 ・何を解析すればいいか分からない ・パラメータの値の意味が分からない ・類似の解析実装がサービスごとに 複数存在する ログの場所がばらばら・分散されている置き場 ・どこにあるか分からず、解析時間より ログを探し・集める時間のほうが長いDeNA Co.,ltd. ALL rights reserved 110
  111. 111. 統一行動記述 大規模サービスでよく生じる課題 大規模サービスでよく生じる課題 サービスごとにログフォーマットが異なる形式 ・何を解析すればいいか分からない ・パラメータの値の意味が分からない ・類似の解析実装がサービスごとに 複数存在する ログの場所がばらばら・分散されている置き場 ・どこにあるか分からず、解析時間より ログを探し・集める時間のほうが長い ・データマイニング/機械学習よりも ログ収集・基礎集計作業がメイン ・データマイニング・機械学習 活用まで出来ないDeNA Co.,ltd. ALL rights reserved 111
  112. 112. 統一行動記述 統一行動ログによる解決 大規模サービスでよく生じる課題 統一行動記述での解決 サービスごとにログフォーマットが異なる形式 ・何を解析すればいいか分からない ・パラメータの値の意味が分からない ・類似の解析実装がサービスごとに 複数存在する ログの場所がばらばら・分散されている置き場 ・どこにあるか分からず、解析時間より ログを探し・集める時間のほうが長い ・データマイニング/機械学習よりも ログ収集・基礎集計作業がメイン ・データマイニング・機械学習 活用まで出来ないDeNA Co.,ltd. ALL rights reserved 112
  113. 113. 統一行動記述 統一行動ログによる解決 大規模サービスでよく生じる課題 統一行動記述での解決 サービスごとにログフォーマットが異なる 統一スキーマ形式 ・何を解析すればいいか分からない ・データマイニング・機械学習実装の ・パラメータの値の意味が分からない 再利用/サービス横断解析が行える ・類似の解析実装がサービスごとに ・学習コストの低減 複数存在する データ形式・値の意味を調べる必要がない ログの場所がばらばら・分散されている置き場 ・どこにあるか分からず、解析時間より ログを探し・集める時間のほうが長い ・データマイニング/機械学習よりも ログ収集・基礎集計作業がメイン ・データマイニング・機械学習 活用まで出来ないDeNA Co.,ltd. ALL rights reserved 113
  114. 114. 統一行動記述 統一行動ログによる解決 大規模サービスでよく生じる課題 統一行動記述での解決 サービスごとにログフォーマットが異なる 統一スキーマ形式 ・何を解析すればいいか分からない ・データマイニング・機械学習実装の ・パラメータの値の意味が分からない 再利用/サービス横断解析が行える ・類似の解析実装がサービスごとに ・学習コストの低減 複数存在する データ形式・値の意味を調べる必要がない ログの場所がばらばら・分散されている Hadoopに全てのログがある置き場 ・どこにあるか分からず、解析時間より ・データ探索・収集時間ゼロ ログを探し・集める時間のほうが長い 解析したいデータが全てある ・データマイニング/機械学習よりも ログ収集・基礎集計作業がメイン ・データマイニング・機械学習 活用まで出来ないDeNA Co.,ltd. ALL rights reserved 114
  115. 115. 統一行動記述 統一行動ログによる解決 大規模サービスでよく生じる課題 統一行動記述での解決 サービスごとにログフォーマットが異なる 統一スキーマ形式 ・何を解析すればいいか分からない ・データマイニング・機械学習実装の ・パラメータの値の意味が分からない 再利用/サービス横断解析が行える ・類似の解析実装がサービスごとに ・学習コストの低減 複数存在する データ形式・値の意味を調べる必要がない ログの場所がばらばら・分散されている Hadoopに全てのログがある置き場 ・どこにあるか分からず、解析時間より ・データ探索・収集時間ゼロ ログを探し・集める時間のほうが長い 解析したいデータが全てある ・データマイニング/機械学習よりも ・大規模データ処理技術 ログ収集・基礎集計作業がメイン ・データマイニング/機械学習 ・データマイニング・機械学習 活用まで出来ない それぞれの技術が活用できるDeNA Co.,ltd. ALL rights reserved 115
  116. 116. AGENDA ◆講師紹介 ◆データマイニングの展開 ◆データマイニング活用 ◆大規模データマイニング基盤技術 ◆実サービス・ビジネス活用例 ◆大規模サービスでよく生じる課題と解決 ◆各業界での展開へDeNA Co.,ltd. ALL rights reserved
  117. 117. 1日20億超の行動情報 ソーシャルゲーム登場による大規模データの急激な増加 1日20億超の行動情報 (PV/日) 25億 20億 2010年4月 15億 GREE モバイル 10億 Mixi モバイル 5億 Yahoo! モバイル 0 2008年 2009年 2010年 出典: 当社 (月次推移のご報告), 株式会社ミクシィ (2010年度第1四半期決算説明資料), ヤフー株式会社 (2008年1月~2010年6月 月次報告), グリー株式会社 (2010年度第4四半期決算説明資料)DeNA Co.,ltd. ALL rights reserved 117
  118. 118. 1日20億超の行動情報 統計的有意な結果を 多くのユーザー体験へ還元 統計的有意 多くの人へ還元 データマイニング・機械学習の 多くのユーザー体験へ 結果の統計的有意性 還元できる 3200万人以上 1日20億超アクションDeNA Co.,ltd. ALL rights reserved 118
  119. 119. 楽しさのマイニング 行動情報の詳細化 楽しさのマイニングによるユーザー体験還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 119
  120. 120. 迅速なサービス洗練 解析結果を反映した 数時間~数日スパンで迅速なサービス洗練 より楽しんでもらえるユーザー体験へDeNA Co.,ltd. ALL rights reserved 120
  121. 121. 大規模データマイニング基盤 データマイニング・機械学習による 迅速なサービス洗練を実現しています Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout MapReduce … Morphological Analysis Perl DeNA Social MA Pig Java Business Pre-processing/Indexing Planning Lucene Hive HUE Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 121
  122. 122. データマイニング活用の場 統一行動記述とHadoop基盤による データマイニング・機械学習の活用 大規模サービスでよく生じる課題 解決 サービスごとにログフォーマットが異なる 統一スキーマ形式 ・何を解析すればいいか分からない ・データマイニング・機械学習実装の ・パラメータの値の意味が分からない 再利用/サービス横断解析が行える ・類似の解析実装がサービスごとに ・学習コストの低減 複数存在する データ形式・値の意味を調べる必要がない ログの場所がばらばら・分散されている Hadoopに全てのログがある置き場 ・どこにあるか分からず、解析時間より ・データ探索・収集時間ゼロ ログを探し・集める時間のほうが長い 解析したいデータが全てある ・データマイニング/機械学習よりも ・大規模データ処理技術 ログ収集・基礎集計作業がメイン ・データマイニング/機械学習 ・データマイニング・機械学習 活用まで出来ない それぞれの技術が活用できるDeNA Co.,ltd. ALL rights reserved 122
  123. 123. 業界全体での活用 各業界での データマイニング活用DeNA Co.,ltd. ALL rights reserved 123
  124. 124. 業界全体での活用 各業界での データマイニング活用 各業界でそれぞれの人々にあった 適切なサービス提供DeNA Co.,ltd. ALL rights reserved 124
  125. 125. 業界全体での活用 本日、各業界で データマイニング活用しているメンバーが大集合 実サービス・ビジネスで成功するためのノウハウ 今後の展開を 熱く語り合いますDeNA Co.,ltd. ALL rights reserved 125
  126. 126. 業界全体での活用 本日、各業界で データマイニング活用しているメンバーが大集合 実サービス・ビジネスで成功するためのノウハウ 今後の展開を 熱く語り合いますDeNA Co.,ltd. ALL rights reserved 126
  127. 127. 業界全体での活用 本日、各業界で データマイニング活用しているメンバーが大集合 実サービス・ビジネスで成功するためのノウハウ 今後の展開を 熱く語り合います みなさんどうぞよろしくお願いいたしますDeNA Co.,ltd. ALL rights reserved 127
  128. 128. 業界全体での活用 本日、各業界で データマイニング活用しているメンバーが大集合 実サービス・ビジネスで成功するためのノウハウ 今後の展開を 熱く語り合います みなさんどうぞよろしくお願いいたします ご清聴ありがとうございましたDeNA Co.,ltd. ALL rights reserved 128
  129. 129. AGENDA ◆講師紹介 ◆データマイニングの展開 ◆データマイニング活用 ◆大規模データマイニング基盤技術 ◆実サービス・ビジネス活用例 ◆大規模サービスでよく生じる課題と解決 ◆各業界での展開へDeNA Co.,ltd. ALL rights reserved

×