『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

59,115 views

Published on

『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22

[登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました "
http://d.hatena.ne.jp/hamadakoichi/20110222/p1

Published in: Technology, Education
0 Comments
103 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
59,115
On SlideShare
0
From Embeds
0
Number of Embeds
16,352
Actions
Shares
0
Downloads
0
Comments
0
Likes
103
Embeds 0
No embeds

No notes for slide

『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

  1. 1. Hadoop Conference 2011 2011/02/22 モバゲーの 大規模データマイニング基盤における Hadoop活用 株式会社ディー・エヌ・エー 濱田晃一DeNA Co.,ltd. ALL rights reserved 1
  2. 2. AGENDA ◆講師紹介 ◆ソーシャルプラットフォーム:モバゲータウン ◆大規模データマイニング基盤構成 ◆楽しさのマイニング ◆1日20億超の行動情報 ◆楽しさのデータマイニング ◆迅速なサービス洗練 ◆統一行動記述 ◆世界へ ◆最後にDeNA Co.,ltd. ALL rights reserved
  3. 3. AGENDA ◆講師紹介 ◆ソーシャルプラットフォーム:モバゲータウン ◆大規模データマイニング基盤構成 ◆楽しさのマイニング ◆1日20億超の行動情報 ◆楽しさのデータマイニング ◆迅速なサービス洗練 ◆統一行動記述 ◆世界へ ◆最後にDeNA Co.,ltd. ALL rights reserved
  4. 4. hamadakoichi 濱田晃一 http://iddy.jp/profile/hamadakoichi 4DeNA Co.,ltd. ALL rights reserved
  5. 5. 活動領域 ソーシャルメディアのデータマイニング活用 2300万人以上の人々へ 各人のつながり・楽しみ・好み 個性にあった適切なサービス提供 Social Media Social Graph Fun Like Personality Objective Process Data Mining Machine Learning 各人のつながり、楽しみ、好み、個性にあった より適切なサービス提供DeNA Co.,ltd. ALL rights reserved
  6. 6. データマイニング+WEB勉強会@東京 データマイニング+WEB勉強会@東京の主催者です TokyoWebmining Google Group: http://groups.google.com/group/webmining-tokyo 6DeNA Co.,ltd. ALL rights reserved
  7. 7. 講師資料 データマイニング・機械学習、 Mahout、R、等 各種講師資料を公開しています http://www.slideshare.net/hamadakoichiDeNA Co.,ltd. ALL rights reserved
  8. 8. hamadakoichi 濱田晃一 8DeNA Co.,ltd. ALL rights reserved
  9. 9. hamadakoichi 濱田晃一 理論物理 博士(2004.3取得) 量子統計場の理論 Statistical Field Theory Spontaneously Time-Reversal Symmetry Breaking Anisotropic Massless Dirac Fermions 博士論文: http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf 9DeNA Co.,ltd. ALL rights reserved
  10. 10. hamadakoichi 濱田晃一 毎週末3時間ダンスコーチをしています ■過去、東京と京都でも ダンス部を創設。 コーチをしていました 駒場物理ダンス部 京都大学基礎物理学研究所ダンス部 部長兼コーチ 部長兼コーチ 現在: 毎週末 3時間ダンスコーチ Youtube Channel: http://www.youtube.com/hamadakoichi 10DeNA Co.,ltd. ALL rights reserved
  11. 11. 数理解析手法の実ビジネスへの適用 2004年 博士号取得後 数理解析手法を実ビジネス適用の方法論構築 主な領域 ◆活動の数理モデル化・解析手法 ◆活動の分析手法・再構築手法 ◆活動の実行制御・実績解析システム … 内容抜粋 “Decoupling Executions in Navigating Manufacturing "Unified graph representation of processes Processes for Shortening Lead Time and Its Implementation for scheduling with flexible resource to an Unmanned Machine Shop”, assignment", 11DeNA Co.,ltd. ALL rights reserved
  12. 12. 数理解析手法の実ビジネスへの適用:活動例 活動例 活動の統一グラフモデルを構築・解析 Unified graphical model of processes and resources 青字:割付モデル属性 [ ] : Optional Node ・priority(優先度) Edge ・duration(予定時間) [・earliest(再早開始日時) ] Process Edge Process [・deadline(納期) ] [・or(条件集約数) ] 前プロセスの終了後に後プロセスが プロセスを表す 開始できること表す ・attributes(属性) preemptable(中断可否), successive(引継ぎ可否) Uses Edge workload(作業負荷) Processが使用する uses uses uses uses uses uses Assign Region を表す Assign Region Assigns from Edge 同一Resourceを割付け続ける Assign Regionに assigns from assigns from 指定Resourceの子Resource集合の 範囲を表す assigns assigns 中から割付けることを示す 企業01 [process] has has [startDate(開始日時)] [endDate(終了日時)] Assigns Edge 製品01 組織A StartDateからEndDateまでの間 Resource has Assign RegionにResourceを 割付対象要素を表す has has has has has has 割付けることを表す ・capacity(容量) ・calender(カレンダー) AAA01 AAB02 … 山田さん 田中さん 鈴木さん ・attributes(属性) Has Edge 東さん Resourceの所有関係を表す 12DeNA Co.,ltd. ALL rights reserved
  13. 13. 数理解析手法の実ビジネスへの適用:活動例 一品一様の業務プロセスの 動的なプロセス制御数理体系を構築 全体生産リードタイム中央値を 1/2.7に短縮 設計開始~頭だし出荷リードタイム 設 計 開 始 ~ 頭 だ し出 荷 CT対 週 集 計 開 始 日 時 の 箱 ひげ図 体系適用 500 適用後 設計開始~頭だし出荷CT 400 360.4h(15.0日) 1/2.7 300 200 100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 141.6h(5.9日) 0 00 00 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: / 20 / 27 / 04 / 11 / 18 / 25 / 01 / 08 / 15 / 22 / 29 / 06 / 13 / 20 / 09 / 09 / 10 / 10 / 10 / 10 / 11 / 11 / 11 / 11 / 11 / 12 / 12 / 12 04 04 04 04 04 04 04 04 04 04 04 04 04 04 20 20 20 20 20 20 20 20 20 20 20 20 20 20 週集計開始日時 13DeNA Co.,ltd. ALL rights reserved
  14. 14. 数理解析手法の実ビジネスへの適用:活動例 ビジネスとともに 学術分野でも貢献 変動性から生じる動的な課題 ・リソースの競合 ・滞留 ・納期遅延 … 一品一様な業務プロセスを含む 統計解析・制御数理モデル ・統計的な有効変数算出 ・統計数理モデル化 -優先順位制御 -実行タイミング制御 -統計フィードバック -適正リソース量算出 ・予測数理体系 論文(体系の一部) M.Nakao, N. Kobayashi, K.Hamada, T.Totsuka, S.Yamada, “Decoupling Executions in Navigating Manufacturing Processes for Shortening Lead Time and Its Implementation to an Unmanned Machine Shop”,DeNA Co.,ltd. ALL rights reserved Technology Volume 56, Issue 1, Pages 171-174 (2007) CIRP Annals - Manufacturing 14
  15. 15. 思い より広く蓄積されたデータを有効活用し 世界の未来をよりよいものにしていきたい データマイニング+WEB勉強会@東京 Google Group: http://groups.google.com/group/webmining-tokyoDeNA Co.,ltd. ALL rights reserved 15
  16. 16. 現在の活動領域 ソーシャルメディアのデータマイニング活用 2300万人以上の人々へ 各人のつながり・楽しみ・好み 個性にあった適切なサービス配信 日々20億以上の活動の活用 Social Media Social Graph Fun Like Personality Objective Process Data Mining Machine Learning 各人のつながり、楽しみ、好み、個性にあった より適切なサービス提供 16DeNA Co.,ltd. ALL rights reserved
  17. 17. よりよい世界の実現 ソーシャル・活動情報の活用により より適切な情報・サービス配信される世界を実現したい Social Media Social Graph Fun Like Personality Objective Process Data Mining Machine Learning 各人のつながり、楽しみ、好み、個性にあった より適切なサービス提供 17DeNA Co.,ltd. ALL rights reserved
  18. 18. よりよい世界の実現 ソーシャル・活動情報の活用により より適切な情報・サービス配信される世界を実現したい 世界中の人々が 個々人のつながり・楽しみ・好みにあった適切な情報・サービスを 自ら探さなくても得ることができる世界 Social Media Social Graph Fun Like Personality Objective Process Data Mining Machine Learning 各人のつながり、楽しみ、好み、個性にあった より適切なサービス提供 18DeNA Co.,ltd. ALL rights reserved
  19. 19. AGENDA ◆講師紹介 ◆ソーシャルプラットフォーム:モバゲータウン ◆大規模データマイニング基盤構成 ◆楽しさのマイニング ◆1日20億超の行動情報 ◆楽しさのデータマイニング ◆迅速なサービス洗練 ◆統一行動記述 ◆世界へ ◆最後にDeNA Co.,ltd. ALL rights reserved
  20. 20. モバゲータウン モバゲータウン モバイルソーシャルプラットフォーム 【ゲーム】 【SNS機能】 日記の掲載、サークルの形成・参加、アバター(自分の分身のキャ ラクター)を使った匿名での自己紹介、その他のコミュニケーション 【情報配信機能】 【作品投稿】 実用性の高い情報を配信 小説、音楽、動画などの ニュース、天気予報、乗り換え案内など 作品の創作・投稿コーナーDeNA Co.,ltd. ALL rights reserved 20
  21. 21. 1日20億超の行動情報 2300万人以上 1日20億超の行動情報 有効会員数(万人) (PV/日) モバゲー 25億 タウン 2300万 20億 2010年4月 15億 GREE モバイル 10億 Mixi モバイル 5億 Yahoo! モバイル 0 2008年 2009年 2010年 出典: ※モバゲータウン、Yahoo!モバゲー、 当社 (月次推移のご報告), 株式会社ミクシィ (2010年度第1四半期決算説明資料), スマートフォン(国内)の合計 ヤフー株式会社 (2008年1月~2010年6月 月次報告),DeNA Co.,ltd. ALL rights reserved グリー株式会社 (2010年度第4四半期決算説明資料) 21
  22. 22. ソーシャルゲーム業界の世界リーダー比較 独自の位置づけと高い収益性DeNA Co.,ltd. ALL rights reserved ※出展:株式会社ディー・エヌ・エー:平成23年3月期 第2四半期決算説明会資料 22
  23. 23. バーチャルソーシャルグラフ 興味を軸としたソーシャルグラフDeNA Co.,ltd. ALL rights reserved ※出展:株式会社ディー・エヌ・エー:平成23年3月期 第2四半期決算説明会資料 23
  24. 24. AGENDA ◆講師紹介 ◆ソーシャルプラットフォーム:モバゲータウン ◆大規模データマイニング基盤構成 ◆楽しさのマイニング ◆1日20億超の行動情報 ◆楽しさのデータマイニング ◆迅速なサービス洗練 ◆統一行動記述 ◆世界へ ◆最後にDeNA Co.,ltd. ALL rights reserved
  25. 25. 大規模データマイニング基盤 データマイニング・機械学習の活用により 迅速なサービス洗練を実現していますDeNA Co.,ltd. ALL rights reserved 25
  26. 26. 大規模データマイニング基盤 データマイニング・機械学習の活用により 迅速なサービス洗練を実現しています Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout … MapReduce Perl Morphological Analysis DeNA Social MA Java Business Pre-processing/Indexing Data Schema Planning Lucene Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 26
  27. 27. 大規模データマイニング基盤 Data Mining InfrastructureDeNA Co.,ltd. ALL rights reserved 27
  28. 28. 大規模データマイニング基盤 KPI定常算出・共有 ビジネス・サービス変化を検知 Data Mining Infrastructure KPI Inspection KPI ViewsDeNA Co.,ltd. ALL rights reserved 28
  29. 29. 大規模データマイニング基盤 経営判断・サービス洗練を行うための データマイニング実行 Data Mining Infrastructure KPI Inspection KPI Views Business PlanningDeNA Co.,ltd. ALL rights reserved 29
  30. 30. 大規模データマイニング基盤 データマイニング・機械学習 結果のサービス活用 より楽しんでもらえるサービスへ Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views … Business Planning Service Log API Service Log API Log API Service … …DeNA Co.,ltd. ALL rights reserved 30
  31. 31. 大規模データマイニング基盤 Hadoop 全行動ログ/サービスデータ 投入 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views … Business Planning Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 31
  32. 32. 大規模データマイニング基盤 Pig 少ない記述量での一次集計/簡易KPI算出 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views … MapReduce Business Data Schema Planning Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 32
  33. 33. 大規模データマイニング基盤 Zebra 1次集計データのスキーマ管理 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views Data Mining/Machine Learning … MapReduce Business Data Schema Planning Lucene Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 33
  34. 34. 大規模データマイニング基盤 MapReduce/Perl/Java 時系列処理・ゲーム分散シミュレーション等 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views … MapReduce Perl Java Business Data Schema Planning Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 34
  35. 35. 大規模データマイニング基盤 R 統計解析・データマイニング・機械学習 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views R … MapReduce Perl Java Business Data Schema Planning Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 35
  36. 36. 大規模データマイニング基盤 Mahout 大規模データマイニング・機械学習 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views Data Mining/Machine Learning R Mahout … MapReduce Perl Java Business Data Schema Planning Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 36
  37. 37. 大規模データマイニング基盤 Data Mining Libraries 各種ソーシャル行動解析用のデータマイニングライブラリ Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout … MapReduce Perl Morphological Analysis DeNA Social MA Java Business Pre-processing/Indexing Data Schema Planning Lucene Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 37
  38. 38. 大規模データマイニング基盤 データマイニング・機械学習による 迅速なサービス洗練を実現しています Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout … MapReduce Perl Morphological Analysis DeNA Social MA Hive Business Pre-processing/Indexing Data Schema Planning Lucene Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 38
  39. 39. 大規模データマイニング基盤 Hadoop チューニング 環境に合わせた高速化・効率化 ■HadoopDeNA Co.,ltd. ALL rights reserved 39
  40. 40. 大規模データマイニング基盤 Hadoop チューニング 環境に合わせた高速化・効率化 ■Hadoop ・ネットワーク・ハードウェア環境に合わせたパラメータチューニング -MapReduce Task数設定、帯域制御、OSパラメータ設定DeNA Co.,ltd. ALL rights reserved 40
  41. 41. 大規模データマイニング基盤 Hadoop チューニング 環境に合わせた高速化・効率化 ■Hadoop ・ネットワーク・ハードウェア環境に合わせたパラメータチューニング -MapReduce Task数設定、帯域制御、OSパラメータ設定 ・MapReduce間のTemporary圧縮(LZO使用)DeNA Co.,ltd. ALL rights reserved 41
  42. 42. 大規模データマイニング基盤 Hadoop チューニング 環境に合わせた高速化・効率化 ■Hadoop ・ネットワーク・ハードウェア環境に合わせたパラメータチューニング -MapReduce Task数設定、帯域制御、OSパラメータ設定 ・MapReduce間のTemporary圧縮(LZO使用) ・出力データサイズの最適化DeNA Co.,ltd. ALL rights reserved 42
  43. 43. 大規模データマイニング基盤 Hadoop チューニング 環境に合わせた高速化・効率化 ■Hadoop ・ネットワーク・ハードウェア環境に合わせたパラメータチューニング -MapReduce Task数設定、帯域制御、OSパラメータ設定 ・MapReduce間のTemporary圧縮(LZO使用) ・出力データサイズの最適化 ・Reducerのデータ取得法の実装の最適化による MapReduce間転送の高速化DeNA Co.,ltd. ALL rights reserved 43
  44. 44. 大規模データマイニング基盤 Hadoop チューニング 環境に合わせた高速化・効率化 ■Hadoop ・ネットワーク・ハードウェア環境に合わせたパラメータチューニング -MapReduce Task数設定、帯域制御、OSパラメータ設定 ・MapReduce間のTemporary圧縮(LZO使用) ・出力データサイズの最適化 ・Reducerのデータ取得法の実装の最適化による MapReduce間転送の高速化DeNA Co.,ltd. ALL rights reserved 44
  45. 45. 大規模データマイニング基盤 Pig・Mahout チューニング データマイニング・機械学習をより行いやすい形へ ■Pig ・環境に合わせた Partitioner 実装の最適化 ・多段MapReduce間のTemporary圧縮によるIO負荷軽減 ・小さいファイルの Combine による処理時間短縮 ・独自UDFの実装による1次集計の簡易化 -汎用: 日時処理、文字列処理。ソーシャル用: 独自Map ・共通ログ Loader ■Mahout ・各目的に応じた、大規模データマイニング・機械学習の 組合せ・一連の手続きのパッケージ化。より使いやすい形へ。DeNA Co.,ltd. ALL rights reserved 45
  46. 46. 大規模データマイニング基盤 Pig・Mahout チューニング データマイニング・機械学習をより行いやすい形へ ■Pig ・環境に合わせた Partitioner 実装の最適化 ・多段MapReduce間のTemporary圧縮によるIO負荷軽減 ・小さいファイルの Combine による処理時間短縮 ・独自UDFの実装による1次集計の簡易化 -汎用: 日時処理、文字列処理。ソーシャル用: 独自Map ・共通ログ Loader ■Mahout ・各目的に応じた、大規模データマイニング・機械学習の 組合せ・一連の手続きのパッケージ化。より使いやすい形へ。DeNA Co.,ltd. ALL rights reserved 46
  47. 47. 大規模データマイニング基盤 Pig・Mahout チューニング データマイニング・機械学習をより行いやすい形へ ■Pig ・環境に合わせた Partitioner 実装の最適化 ・多段MapReduce間のTemporary圧縮によるIO負荷軽減 ・小さいファイルの Combine による処理時間短縮 ・独自UDFの実装による1次集計の簡易化 -汎用: 日時処理、文字列処理。ソーシャル用: 独自Map ・共通ログ Loader ■Mahout ・各目的に応じた、大規模データマイニング・機械学習の 組合せ・一連の手続きのパッケージ化。より使いやすい形へ。DeNA Co.,ltd. ALL rights reserved 47
  48. 48. 大規模データマイニング基盤 Pig・Mahout チューニング データマイニング・機械学習をより行いやすい形へ ■Pig ・環境に合わせた Partitioner 実装の最適化 ・多段MapReduce間のTemporary圧縮によるIO負荷軽減 ・小さいファイルの Combine による処理時間短縮 ・独自UDFの実装による1次集計の簡易化 -汎用: 日時処理、文字列処理。ソーシャル用: 独自Map ・共通ログ Loader ■Mahout ・各目的に応じた、大規模データマイニング・機械学習の 組合せ・一連の手続きのパッケージ化。より使いやすい形へ。DeNA Co.,ltd. ALL rights reserved 48
  49. 49. 大規模データマイニング基盤 Pig・Mahout チューニング データマイニング・機械学習をより行いやすい形へ ■Pig ・環境に合わせた Partitioner 実装の最適化 ・多段MapReduce間のTemporary圧縮によるIO負荷軽減 ・小さいファイルの Combine による処理時間短縮 ・独自UDFの実装による1次集計の簡易化 -汎用: 日時処理、文字列処理。ソーシャル用: 独自Map ・共通ログ Loader ■Mahout ・各目的に応じた、大規模データマイニング・機械学習の 組合せ・一連の手続きのパッケージ化。より使いやすい形へ。DeNA Co.,ltd. ALL rights reserved 49
  50. 50. 大規模データマイニング基盤 Pig・Mahout チューニング データマイニング・機械学習をより行いやすい形へ ■Pig ・環境に合わせた Partitioner 実装の最適化 ・多段MapReduce間のTemporary圧縮によるIO負荷軽減 ・小さいファイルの Combine による処理時間短縮 ・独自UDFの実装による1次集計の簡易化 -汎用: 日時処理、文字列処理。ソーシャル用: 独自Map ・共通ログ Loader ■Mahout ・各種Mahout用データ変換 ・各目的に応じた、大規模データマイニング・機械学習の 組合せ・一連の手続き実行の実装。 …etcDeNA Co.,ltd. ALL rights reserved 50
  51. 51. 大規模データマイニング基盤 Pig・Mahout チューニング データマイニング・機械学習をより行いやすい形へ ■Pig ・環境に合わせた Partitioner 実装の最適化 ・多段MapReduce間のTemporary圧縮によるIO負荷軽減 ・小さいファイルの Combine による処理時間短縮 ・独自UDFの実装による1次集計の簡易化 -汎用: 日時処理、文字列処理。ソーシャル用: 独自Map ・共通ログ Loader ■Mahout ・各種Mahout用データ変換 ・各目的に応じた、大規模データマイニング・機械学習の 組合せ・一連の手続き実行の実装。 …etcDeNA Co.,ltd. ALL rights reserved 51
  52. 52. 大規模データマイニング基盤 Pig・Mahout チューニング データマイニング・機械学習をより行いやすい形へ ■Pig ・環境に合わせた Partitioner 実装の最適化 ・多段MapReduce間のTemporary圧縮によるIO負荷軽減 ・小さいファイルの Combine による処理時間短縮 ・独自UDFの実装による1次集計の簡易化 -汎用: 日時処理、文字列処理。ソーシャル用: 独自Map ・共通ログ Loader ■Mahout ・各種Mahout用データ変換 ・各目的に応じた、大規模データマイニング・機械学習の 組合せ・一連の手続き実行の実装。 …etcDeNA Co.,ltd. ALL rights reserved 52
  53. 53. 大規模データマイニング基盤 Pig・Mahout チューニング データマイニング・機械学習をより行いやすい形へ ■Pig ・環境に合わせた Partitioner 実装の最適化 ・多段MapReduce間のTemporary圧縮によるIO負荷軽減 ・小さいファイルの Combine による処理時間短縮 ・独自UDFの実装による1次集計の簡易化 -汎用: 日時処理、文字列処理。ソーシャル用: 独自Map ・共通ログ Loader ■Mahout ・各種Mahout用データ変換 ・各目的に応じた、大規模データマイニング・機械学習の 組合せ・一連の手続き実行の実装。 …etcDeNA Co.,ltd. ALL rights reserved 53
  54. 54. 大規模データマイニング基盤 Pig・Mahout チューニング データマイニング・機械学習をより行いやすい形へ ■Pig ・環境に合わせた Partitioner 実装の最適化 ・多段MapReduce間のTemporary圧縮によるIO負荷軽減 ・小さいファイルの Combine による処理時間短縮 ・独自UDFの実装による1次集計の簡易化 -汎用: 日時処理、文字列処理。ソーシャル用: 独自Map ・共通ログ Loader ■Mahout ・各種Mahout用データ変換 ・各目的に応じた、大規模データマイニング・機械学習の 組合せ・一連の手続き実行の実装。 …etcDeNA Co.,ltd. ALL rights reserved 54
  55. 55. 大規模データマイニング基盤 Pig・Mahout チューニング データマイニング・機械学習をより行いやすい形へ ■Pig ・環境に合わせた Partitioner 実装の最適化 ・多段MapReduce間のTemporary圧縮によるIO負荷軽減 ・小さいファイルの Combine による処理時間短縮 ・独自UDFの実装による1次集計の簡易化 -汎用: 日時処理、文字列処理。ソーシャル用: 独自Map ・共通ログ Loader ■Mahout ・各種Mahout用データ変換 ・各目的に応じた、大規模データマイニング・機械学習の 組合せ・一連の手続き実行の実装。 …etcDeNA Co.,ltd. ALL rights reserved 55
  56. 56. AGENDA ◆講師紹介 ◆ソーシャルプラットフォーム:モバゲータウン ◆大規模データマイニング基盤構成 ◆楽しさのマイニング ◆1日20億超の行動情報 ◆楽しさのデータマイニング ◆迅速なサービス洗練 ◆統一行動記述 ◆世界へ ◆最後にDeNA Co.,ltd. ALL rights reserved
  57. 57. AGENDA ◆講師紹介 ◆ソーシャルプラットフォーム:モバゲータウン ◆大規模データマイニング基盤構成 ◆楽しさのマイニング ◆1日20億超の行動情報 ◆楽しさのデータマイニング ◆迅速なサービス洗練 ◆統一行動記述 ◆世界へ ◆最後にDeNA Co.,ltd. ALL rights reserved
  58. 58. 1日20億超の行動情報 2300万人以上 1日20億超の行動情報 有効会員数(万人) (PV/日) モバゲー 25億 タウン 2300万 20億 2010年4月 15億 GREE モバイル 10億 Mixi モバイル 5億 Yahoo! モバイル 0 2008年 2009年 2010年 出典: ※モバゲータウン、Yahoo!モバゲー、 当社 (月次推移のご報告), 株式会社ミクシィ (2010年度第1四半期決算説明資料), スマートフォン(国内)の合計 ヤフー株式会社 (2008年1月~2010年6月 月次報告),DeNA Co.,ltd. ALL rights reserved グリー株式会社 (2010年度第4四半期決算説明資料) 58
  59. 59. 1日20億超の行動情報 統計的有意な結果を 多くのユーザー体験へ還元 2300万人以上 1日20億超アクションDeNA Co.,ltd. ALL rights reserved 59
  60. 60. 1日20億超の行動情報 統計的有意な結果を 多くのユーザー体験へ還元 統計的有意 データマイニング・機械学習の 結果の統計的有意性 2300万人以上 1日20億超アクションDeNA Co.,ltd. ALL rights reserved 60
  61. 61. 1日20億超の行動情報 統計的有意な結果を 多くのユーザー体験へ還元 統計的有意 多くの人へ還元 データマイニング・機械学習の 多くのユーザー体験へ 結果の統計的有意性 還元できる 2300万人以上 1日20億超アクションDeNA Co.,ltd. ALL rights reserved 61
  62. 62. AGENDA ◆講師紹介 ◆ソーシャルプラットフォーム:モバゲータウン ◆大規模データマイニング基盤構成 ◆楽しさのマイニング ◆1日20億超の行動情報 ◆楽しさのデータマイニング ◆迅速なサービス洗練 ◆統一行動記述 ◆世界へ ◆最後にDeNA Co.,ltd. ALL rights reserved
  63. 63. 詳細行動情報 感情が分かる詳細行動情報DeNA Co.,ltd. ALL rights reserved 63
  64. 64. 詳細行動情報 感情が分かる詳細行動情報 楽しさのマイニングDeNA Co.,ltd. ALL rights reserved 64
  65. 65. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Social Media ExperienceDeNA Co.,ltd. ALL rights reserved 65
  66. 66. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 66
  67. 67. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 67
  68. 68. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 68
  69. 69. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 69
  70. 70. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 70
  71. 71. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 71
  72. 72. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendiation Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 72
  73. 73. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendiation TimeSeriesAnalysis Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 73
  74. 74. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendiation TimeSeriesAnalysis StatisticalAnalysis Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 74
  75. 75. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendiation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 75
  76. 76. データマイニング・機械学習 活用例 (抜粋) ■楽しさの行動パターン ■やめてしまう状況パターンDeNA Co.,ltd. ALL rights reserved 76
  77. 77. データマイニング・機械学習 活用例 (抜粋) ■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ■やめてしまう状況パターンDeNA Co.,ltd. ALL rights reserved 77
  78. 78. データマイニング・機械学習 活用例 (抜粋) ■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。 ■やめてしまう状況パターンDeNA Co.,ltd. ALL rights reserved 78
  79. 79. データマイニング・機械学習 活用例 (抜粋) ■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。 ■やめてしまう状況パターンDeNA Co.,ltd. ALL rights reserved 79
  80. 80. データマイニング・機械学習 活用例 (抜粋) ■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。 ■やめてしまう状況パターン ・飽きはじめるきっかけ・不快な状況 ⇒やめるきっかけを発生させないようにする。DeNA Co.,ltd. ALL rights reserved 80
  81. 81. データマイニング・機械学習 活用例 (抜粋) ■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。 ■やめてしまう状況パターン ・飽きはじめるきっかけ・不快な状況 ⇒やめるきっかけを発生させないようにする。 ・飽きはじめたユーザーの予測・判別 ⇒新鮮・斬新な体験を提供する ⇒他の楽しみ方の提供(他サービスへの推薦 等)DeNA Co.,ltd. ALL rights reserved 81
  82. 82. データマイニング・機械学習 活用例 (抜粋) ■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。 ■やめてしまう状況パターン ・飽きはじめるきっかけ・不快な状況 ⇒やめるきっかけを発生させないようにする。 ・飽きはじめたユーザーの予測・判別 ⇒新鮮・斬新な体験を提供する ⇒他の楽しみ方の提供(他サービスへの推薦 等)DeNA Co.,ltd. ALL rights reserved 82
  83. 83. データマイニング・機械学習 活用例 (抜粋) ■興味のあるゲーム/ユーザーと出会えるプラットフォームへ ■健全なプラットフォームへ ■ユーザーの声によるサービス洗練DeNA Co.,ltd. ALL rights reserved 83
  84. 84. データマイニング・機械学習 活用例 (抜粋) ■興味のあるゲーム/ユーザーと出会えるプラットフォームへ ・ゲームレコメンデーション ・ユーザーレコメンデーション ソーシャルグラフ解析、機械学習、最適化を組み合わせた推薦 ■健全なプラットフォームへ ■ユーザーの声によるサービス洗練DeNA Co.,ltd. ALL rights reserved 84
  85. 85. データマイニング・機械学習 活用例 (抜粋) ■興味のあるゲーム/ユーザーと出会えるプラットフォームへ ・ゲームレコメンデーション ・ユーザーレコメンデーション ソーシャルグラフ解析、機械学習、最適化を組み合わせた推薦 ■健全なプラットフォームへ ・不正書き込み判別 ・年齢詐称の判別 ■ユーザーの声によるサービス洗練DeNA Co.,ltd. ALL rights reserved 85
  86. 86. データマイニング・機械学習 活用例 (抜粋) ■興味のあるゲーム/ユーザーと出会えるプラットフォームへ ・ゲームレコメンデーション ・ユーザーレコメンデーション ソーシャルグラフ解析、機械学習、最適化を組み合わせた推薦 ■健全なプラットフォームへ ・不正書き込み判別 ・年齢詐称の判別 ■ユーザーの声によるサービス洗練 ・ソーシャルコミュニケーションのテキストマイニングDeNA Co.,ltd. ALL rights reserved 86
  87. 87. データマイニング・機械学習 活用例 (抜粋) ■興味のあるゲーム/ユーザーと出会えるプラットフォームへ ・ゲームレコメンデーション ・ユーザーレコメンデーション ソーシャルグラフ解析、機械学習、最適化を組み合わせた推薦 ■健全なプラットフォームへ ・不正書き込み判別 ・年齢詐称の判別 ■ユーザーの声によるサービス洗練 ・ソーシャルコミュニケーションのテキストマイニングDeNA Co.,ltd. ALL rights reserved 87
  88. 88. AGENDA ◆講師紹介 ◆ソーシャルプラットフォーム:モバゲータウン ◆大規模データマイニング基盤構成 ◆楽しさのマイニング ◆1日20億超の行動情報 ◆楽しさのデータマイニング ◆迅速なサービス洗練 ◆統一行動記述 ◆世界へ ◆最後にDeNA Co.,ltd. ALL rights reserved
  89. 89. 迅速なサービス洗練 解析結果を反映した 数時間~数日スパンで迅速なサービス洗練DeNA Co.,ltd. ALL rights reserved 89
  90. 90. 迅速なサービス洗練 解析結果を反映した 数時間~数日スパンで迅速なサービス洗練 より楽しんでもらえるユーザー体験へDeNA Co.,ltd. ALL rights reserved 90
  91. 91. AGENDA ◆講師紹介 ◆ソーシャルプラットフォーム:モバゲータウン ◆大規模データマイニング基盤構成 ◆楽しさのマイニング ◆1日20億超の行動情報 ◆楽しさのデータマイニング ◆迅速なサービス洗練 ◆統一行動記述 ◆世界へ ◆最後にDeNA Co.,ltd. ALL rights reserved
  92. 92. 大規模データマイニング基盤 統一行動記述 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout … MapReduce Perl Morphological Analysis DeNA Social MA Hive Business Pre-processing/Indexing Data Schema Planning Lucene Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 92
  93. 93. 統一行動記述 ユーザー行動 時系列の 統一記述DeNA Co.,ltd. ALL rights reserved 93
  94. 94. 統一行動記述 大規模サービスでよく生じる課題 大規模サービスでよく生じる課題形式置き場DeNA Co.,ltd. ALL rights reserved 94
  95. 95. 統一行動記述 大規模サービスでよく生じる課題 大規模サービスでよく生じる課題 サービスごとにログフォーマットが異なる形式 ・何を解析すればいいか分からない ・パラメータの値の意味が分からない ・類似の解析実装がサービスごとに 複数存在する置き場DeNA Co.,ltd. ALL rights reserved 95
  96. 96. 統一行動記述 大規模サービスでよく生じる課題 大規模サービスでよく生じる課題 サービスごとにログフォーマットが異なる形式 ・何を解析すればいいか分からない ・パラメータの値の意味が分からない ・類似の解析実装がサービスごとに 複数存在する ログの場所がばらばら・分散されている置き場 ・どこにあるか分からず、会席時間より ログを探し・集める時間のほうが長いDeNA Co.,ltd. ALL rights reserved 96
  97. 97. 統一行動記述 大規模サービスでよく生じる課題 大規模サービスでよく生じる課題 サービスごとにログフォーマットが異なる形式 ・何を解析すればいいか分からない ・パラメータの値の意味が分からない ・類似の解析実装がサービスごとに 複数存在する ログの場所がばらばら・分散されている置き場 ・どこにあるか分からず、会席時間より ログを探し・集める時間のほうが長い ・データマイニング/機械学習よりも ログ収集・基礎集計作業がメイン ・データマイニング・機械学習 活用まで出来ないDeNA Co.,ltd. ALL rights reserved 97
  98. 98. 統一行動記述 統一行動ログによる解決 大規模サービスでよく生じる課題 統一行動記述での解決 サービスごとにログフォーマットが異なる形式 ・何を解析すればいいか分からない ・パラメータの値の意味が分からない ・類似の解析実装がサービスごとに 複数存在する ログの場所がばらばら・分散されている置き場 ・どこにあるか分からず、会席時間より ログを探し・集める時間のほうが長い ・データマイニング/機械学習よりも ログ収集・基礎集計作業がメイン ・データマイニング・機械学習 活用まで出来ないDeNA Co.,ltd. ALL rights reserved 98
  99. 99. 統一行動記述 統一行動ログによる解決 大規模サービスでよく生じる課題 統一行動記述での解決 サービスごとにログフォーマットが異なる 統一スキーマ形式 ・何を解析すればいいか分からない ・データマイニング・機械学習実装の ・パラメータの値の意味が分からない 再利用/サービス横断解析が行える ・類似の解析実装がサービスごとに ・学習コストの低減 複数存在する データ形式・値の意味を調べる必要がない ログの場所がばらばら・分散されている置き場 ・どこにあるか分からず、会席時間より ログを探し・集める時間のほうが長い ・データマイニング/機械学習よりも ログ収集・基礎集計作業がメイン ・データマイニング・機械学習 活用まで出来ないDeNA Co.,ltd. ALL rights reserved 99
  100. 100. 統一行動記述 統一行動ログによる解決 大規模サービスでよく生じる課題 統一行動記述での解決 サービスごとにログフォーマットが異なる 統一スキーマ形式 ・何を解析すればいいか分からない ・データマイニング・機械学習実装の ・パラメータの値の意味が分からない 再利用/サービス横断解析が行える ・類似の解析実装がサービスごとに ・学習コストの低減 複数存在する データ形式・値の意味を調べる必要がない ログの場所がばらばら・分散されている Hadoopに全てのログがある置き場 ・どこにあるか分からず、会席時間より ・データ探索・収集時間ゼロ ログを探し・集める時間のほうが長い 解析したいデータが全てある ・データマイニング/機械学習よりも ログ収集・基礎集計作業がメイン ・データマイニング・機械学習 活用まで出来ないDeNA Co.,ltd. ALL rights reserved 100
  101. 101. 統一行動記述 統一行動ログによる解決 大規模サービスでよく生じる課題 統一行動記述での解決 サービスごとにログフォーマットが異なる 統一スキーマ形式 ・何を解析すればいいか分からない ・データマイニング・機械学習実装の ・パラメータの値の意味が分からない 再利用/サービス横断解析が行える ・類似の解析実装がサービスごとに ・学習コストの低減 複数存在する データ形式・値の意味を調べる必要がない ログの場所がばらばら・分散されている Hadoopに全てのログがある置き場 ・どこにあるか分からず、会席時間より ・データ探索・収集時間ゼロ ログを探し・集める時間のほうが長い 解析したいデータが全てある ・データマイニング/機械学習よりも ・大規模データ処理技術 ログ収集・基礎集計作業がメイン ・データマイニング/機械学習 ・データマイニング・機械学習 活用まで出来ない それぞれの技術が活用できるDeNA Co.,ltd. ALL rights reserved 101
  102. 102. AGENDA ◆講師紹介 ◆ソーシャルプラットフォーム:モバゲータウン ◆大規模データマイニング基盤構成 ◆楽しさのマイニング ◆1日20億超の行動情報 ◆楽しさのデータマイニング ◆迅速なサービス洗練 ◆統一行動記述 ◆世界へ ◆最後にDeNA Co.,ltd. ALL rights reserved
  103. 103. 世界展開 ソーシャルプラットフォームの世界展開DeNA Co.,ltd. ALL rights reserved 103
  104. 104. 世界展開: デバイスによらないサービス提供・授受 開発 一度の開発でiOS/Android 双方へサービス提供が可能 海外Smartphone 国内Smartphone プラットフォーム プラットフォーム X-border 展開 iOS アプリ Android アプリ X-device 展開 ngCore SDK による開発 パートナー様 (国内、海外)DeNA Co.,ltd. ALL rights reserved 104
  105. 105. 世界展開: デバイスによらないサービス提供・授受 ユーザー iOS/Android 双方で同サービスを受けられる 海外Smartphone 国内Smartphone プラットフォーム プラットフォーム X-border 展開 iOS アプリ Android アプリ X-device 展開 ngCore SDK による開発 パートナー様 (国内、海外)DeNA Co.,ltd. ALL rights reserved 105
  106. 106. 世界展開 サムスン電子 mobage 搭載 世界市場(日本市場除く)に向けて 開発・販売するサムスン電子のAndoroid端末 「mobage」搭載DeNA Co.,ltd. ALL rights reserved 106
  107. 107. 世界展開 世界中の人々の 楽しさのマイニングDeNA Co.,ltd. ALL rights reserved 107
  108. 108. 世界展開 世界中の人々の 楽しさのマイニング 国民性・民族性にあった サービス提供DeNA Co.,ltd. ALL rights reserved 108
  109. 109. AGENDA ◆講師紹介 ◆ソーシャルプラットフォーム:モバゲータウン ◆大規模データマイニング基盤構成 ◆楽しさのマイニング ◆1日20億超の行動情報 ◆楽しさのデータマイニング ◆迅速なサービス洗練 ◆統一行動記述 ◆世界へ ◆最後にDeNA Co.,ltd. ALL rights reserved
  110. 110. 世界中の人々へ 蓄積されたデータを有効活用し 世界中の人々への適切なサービス提供を実現したい Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout … MapReduce Perl Morphological Analysis DeNA Social MA Java Business Pre-processing/Indexing Data Schema Planning Lucene Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status LogDeNA Co.,ltd. ALL rights reserved 110
  111. 111. 世界中の人々へ 蓄積されたデータを有効活用し 世界中の人々への適切なサービス提供を実現したい Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendiation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etcDeNA Co.,ltd. ALL rights reserved 111
  112. 112. 世界中の人々へ 世界中の人々への適切なサービス提供を実現したい 112DeNA Co.,ltd. ALL rights reserved
  113. 113. よりよい世界の実現 世界中の人々への適切なサービス提供を実現したい 一緒に実現する仲間を募集しています 大規模ソーシャルメディアのデータマイニング (2100万会員 1日20億アクション以上) (※2100万会員モバゲータウンはデータマイニングの宝の山/Tech総研 より抜粋) ・統計解析/データマイニング/機械学習/自然言語処理 ・大規模分散処理 113DeNA Co.,ltd. ALL rights reserved
  114. 114. ご清聴ありがとうございました 114DeNA Co.,ltd. ALL rights reserved
  115. 115. AGENDA ◆講師紹介 ◆ソーシャルプラットフォーム:モバゲータウン ◆大規模データマイニング基盤構成 ◆楽しさのマイニング ◆1日20億超の行動情報 ◆楽しさのデータマイニング ◆迅速なサービス洗練 ◆統一行動記述 ◆世界へ ◆最後にDeNA Co.,ltd. ALL rights reserved

×