ビジネスリテラシーとしての統計 ビッグデータと統計の活用

3,267 views

Published on

楽天におけるデータ活用(スーパーDBやレコメンデーションエンジン)とビッグデータへのチャレンジに関する紹介。特に、昨今注目されている、統計手法の活用事例(の一部)について紹介する。

Published in: Technology

ビジネスリテラシーとしての統計 ビッグデータと統計の活用

  1. 1. ビジネスリテラシーとしての統計 ビッグデータと統計の活用 Rakuten Inc. RIT. Masaya Mori July. 11 th , 2012
  2. 2. BigDataの時代へ 情報爆発Introduction 統計の活用 データ活用 SuperDB Introduction 2
  3. 3. Introduction• 森 正弥 (もり まさや)• 楽天株式会社 執行役員• 開発アーキテクチャ部 部長• ビッグデータ部 副部長• 楽天技術研究所 所長 Masaya Mori• 職掌 Twitter: @emasha – 開発部署のマネジメント – 研究開発の推進・統括 3
  4. 4. BigDataの時代へ 情報爆発Rakuten Group 統計の活用 データ活用 SuperDB Introduction 4
  5. 5. 楽天株式会社 会社概要代表取締役会長兼社長 三木谷 浩史従業員数 単体3,209人、グループ7,615人設立日 1997年2月17日IPO 2000年4月19日(ジャスダック)資本金 1,079億円(2011年12月末現在)連結売上高 3,799億円(2011年度)連結営業利益 756億円(2011年度) 楽天市場(eコマース事業)を中核とした, 総合インターネットサービス企業 5
  6. 6. 国内グループ流通総額推移(カード、電子マネー含む)(単位:十億円) 3,500 国内グループ 3,294 流通総額 +22.3% YoY 3,000 2,693 *1 2,500 1,642 Edy  及び *2 クレジットカード +29.5% YoY 1,268 2,000 1,859 1,500 1,473 657 トラベル *3 420 +14.9% YoY 1,154 482 366 1,000 305 355 260 220 1,232 国内EC *4 500 1,059 +16.4% YoY 896 579 730 0 2007年 2008年 2009年 2010年 2011年 *1: Edy決済取扱高=電子マネーEdyにより決済された金額(モバイル(おサイフケータイ)及びカード)10/1Q~ *2: クレジットカード・ショッピング取扱高=クレジットカードのショッピング取扱高(楽天グループのサービス利用を含む) *3: トラベル予約流通総額=予約受付時に対する流通総額(キャンセル前、税別料金に換算) =国内/海外施設予約、海外航空券、楽天バスサービス、国内/海外ダイナミックパッケージ、レンタカー *4: 国内EC流通総額=モール(通常購入・共同購入)、モバイル、オークション(旧フリマ含む)、ブックス、GORA、ビジネス、ダウンロード、チケット、 ネットスーパー、チェックアウト、楽天競馬、toto、ShowTime、メディアレンタル 6
  7. 7. 海外拠点&楽天技術研究所• 13か国にてサービスを展開 – マレーシアにて,EC事業に参入• 楽天技術研究所は,2拠点(Tokyo, New York) 7 Free Cause(USA) Linkshare(USA) Tradoria(Germany)
  8. 8. BigDataの時代へ 情報爆発ビッグデータ部 統計の活用楽天技術研究所 データ活用 SuperDB Introduction 8
  9. 9. ビッグデータ関連部署 •ID, Mail, Checkout グループ •会員データマーケティングコアサービス部 •スーパーDB、商用技術、構造化データ •サーチ、レコメンド、ランキング、広告ビッグデータ部 •Hadoop, Cassandra, etc. •OSS、非構造化データ •データマイニング、 NLP楽天技術研究所 •分散処理基盤、O2O、Next Reality •独自技術、理論的側面を支える 9
  10. 10. 非構造ビッグデータのインタラクティブな活用 とプラットフォーム構築に挑む •サーチ、レコメンド、ランキング、広告ビッグデータ部 •Hadoop, Cassandra, etc. •OSS、非構造化データ 執行役員 部長 Terje Marthinussen タリア・マルティヌッセン 10
  11. 11. 理論的側面を支える楽天技術研究所 技術の理論面を担うR&D組織 コンセプト Tokyo & NY Next Reality - 来るべき豊かなリアリティを - ミッション 今後大きく成長する技術のシーズから、インターネットを活用した人々の生活(リアリティ) を豊かにする 新しいサービス・事業の可能性を創出する 11
  12. 12. (working on) Data Mining, NLP, Semantic Web Personalize Platform Recommender Engine Search Tech[ recommender logic ]Collaborative filter Recommender retargeting Platform basket ! SPDB purchase history page - view history item DB user DB DB DB Next E-Commerce Platform Global Catalogue Creation Noise Detection 12
  13. 13. BigDataの時代へ 情報爆発企業におけるデータの活用 統計の活用 データ活用 SuperDB Introduction 13
  14. 14. 企業における情報の活用•情報の活用例 •Last.fm •230カ国以上に3000万人以上のユーザ •膨大なユーザの嗜好を分析,個々人にあった音楽を推薦・提供. •毎日1000万回以上の視聴情報を解析 •Pandora Radio •ユーザデータに加え,曲の旋律,歌詞,声質,楽器,拍子,コード進 行等を細かく解析 •ユーザの評価を組み合わせ,よりよい曲を提供 •1億人以上のユーザを持ち,成長を続ける• 情報解析のビジネス価値の発見• インターネット企業においては、データ活用は主たる基幹機能• データ分析の結果をオンラインサービスに直接反映。レスポンスをすぐ にうけ、短いPDCAで改善ができる、ビジネスのコア 14
  15. 15. 情報活用型企業•情報の活用例 •decide.com •デバイス、電子機器の価格変動予想 •買い時なのか、新製品の待ち時なのかを提供 •数百のECサイトから10万以上の価格データを収集 •ブログ、ニュース、プレスリリース等もあわせて解析 •1日で25GBのデータを処理 •Amazon Cloud と Hadoop を活用。クラウド→ビッグデータ企業 15
  16. 16. Decide.com: 意思決定支援When you want to buy Buy or Wait? Analysis And Prediction 16 You can check if it is good time to buy it or not by using Decide.com. Wait for new version.
  17. 17. 各Webサイトからのクロール• Decide.com is crawling price info of 100,000 items from several hundreds EC sites, etc. EC sites Crawling News Blog Maker info Press Release 17 They are crawling data from all relative sites.
  18. 18. BigData of Today• They utilize Amazon public cloud and built a Hadoop Cluster on it. It’s BigData of today. Hadoop Cluster 25GB data / day Analysis And Prediction 18
  19. 19. BigDataの時代へ 情報爆発SuperDB 統計の活用 データ活用 SuperDB Introduction 19
  20. 20. Rakuten’s businesses E-Commerce Portal and Media Securities Banking 50近くの事業展開 Travel Credit CardTelecommunications E-money Professional Sports 20
  21. 21. スーパーDB •Rakuten has tons of businesses, and so have manyDWH kinds of business data. It’s diversified. •We aggregate such data into one big dataware house. 多様なビジネスデータ Rakuten Super DB 21 That is our important core generating revenue.
  22. 22. 全体像 会員属性 集約 加工・集計・分析 デモグラフィック 購入履歴 (基本属性) ジオグラフィックアンケート 楽天 (地理情報)カード情報 スーパーDB ビヘイビア (行動)スーパーポイント サイコグラフィック データ提供 (心理的属性) アプリケーション楽天クーポン ・パーソナライズ ・リコメンデーション ログイン ・行動ターゲティング広告 ファイル ファイル ファイル ・営業支援 外部データ (Mosaic 等) ・・・・ 利用 22
  23. 23. 顧客クラスタリング 顧客クラスタリングの考え方顧客の属性データや購買履歴を利用し、顧客をいくつかのグループ に分類する。→楽天会員全員をクラスタリング 家事は お手軽 お任せ グルメ ビューティー D 大好き D I I E H G E H G C C F FA A B J B J 本・CD・ゲーム 家でじっくり派 おしゃれメンズ 23
  24. 24. 顧客クラスタリング(続き) 活用イメージ クラスタリングしたグループごとにきめ細かいアプローチを実施 1 2 3 4 5 6クラスタ(顧客セグメント)作成 7 8 9 10 11 12 各クラスタに対し施策を実施 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 ▲ 反応結果をフィードし A X 施策をブラッシュアップ X X ▲ B 施 1 2 3 4 5 6 C X X 策 7 8 9 10 11 12 ▲ 実 13 14 15 16 17 18 D X X 施 19 25 20 26 21 27 22 28 23 29 24 30 ▲ E X X X X 31 32 33 34 35 36 X X X X F ▲ G X X 24
  25. 25. BigDataの時代へ 情報爆発「統計」の活用 統計の活用 データ活用 SuperDB Introduction 25
  26. 26. スーパーDBの活用からの統計の活用•多種多様なビジネスデータを格納したスーパーDBの活用より、楽天において はデータ分析・活用のシーンは幅広く見られるようになった。•その中では、「統計」の活用も主にマーケティングの部署や楽天技術研究所に おいて広まってきている。 26
  27. 27. 広義の「統計」の活用•データに対するアプローチや基本姿勢として業務の現場において実践•量的なあるいは時系列的なデータの分布から•全体の傾向を見たり、トレンド・法則性を把握•データの概要を把握 •統計量の計算 •平均、分散、中央値、劣度 •複数データの相関 •散布図を描く•基本的な視点は常にある •質的変数の場合は、クロス集計を •独立性検定ではp値を 27
  28. 28. 時系列で傾向を見ることは必須•E-commerce には季節的なトピックは非常に多くあふれている search word: “プレゼント” (present) “present” is used as Christmas present 12/24 28
  29. 29. 広義の「統計」の活用•PDCAサイクルにのせる •全体やトレンドの理解、未知の事実の発見をしたりした結果を •フィードバックとしてビジネス施策やサービスアプリケーションに•結果、ユーザの反応がダイレクトに得られ•PDCAサイクルによる継続的な改善活動を、短期間で回すことができる •インターネットサービスの大きな特徴であり、醍醐味 Look at Preprocess Statistics data Log Action Analysis DATA 29
  30. 30. BigDataの時代へ 情報爆発「統計」の活用の事例 統計の活用 データ活用 SuperDB Introduction 30
  31. 31. 楽天ブックスでの書籍の販売量と順位の関係•いわゆる「ロングテール」、べき乗則に従う •従来の「80対20の法則(パレートの法則)」の様に、販売順位上位20%の 商品が全体の販売量の80%を構成、という分布上の特徴をもたない •販売量の約3分の1は、販売量が非常に少ないマイナーな商品の集合に よって形成されるという特徴を有す •年間の集計量でも月間の集計量でもべき乗則に従う •各書籍ジャンル別でも、CD/DVDも従う • 平均や分散が意味 をもたず、それはす なわち、一般的な商 品、典型的な商品が ないことを指す。 • 市場のスケールこそ に目を向けるべきと いう知見。 31 http://web.sfc.keio.ac.jp/~iba/papers/2008jacs08-iba.pdf
  32. 32. サーチワードの分析•サーチには季節性があり、キーワードによってサーチボリュームと検索される 日数には、商品ごとの特徴の違いがある。•それを分布から明らかにしつつ、ビジネス施策へのインプットとしていく 32
  33. 33. 【応用例(仮)】 もしかして検索問題認識 •正しいキーワードでないと検索できず大きな機会損失アプローチ •「もしかして」検索として代替キーワードを表示 「欲しいものが 検索キーワードを入れたのに結果が0件 見つからない」 検索キーワードがわからない ! 検索キーワードが間違っている … 33
  34. 34. 【応用例(仮)】 もしかして検索チャレンジ • 自動辞書構築のための独自スコアリングと雑音除去ロジック • 表層近似+検索率+検索保証のスコアとグラフ解析選択 1 独自スコア どれだけ検索されるのか? Probability( w) + γ Score( w | u ) = ⋅ Availability ( w) Distance( w, u ) + δ 検索可能なのか? どれだけ似ているのか? ? 2 提示単語選択 この辺りが最適な候補 34
  35. 35. 商品の需要予測•商品の需要予測を行い、バイヤーが予測をインプットに、購買を決定•ポアソン回帰モデル・数量化1類(週でユニットを切る)の適用•numpy, scipy を利用したプログラミングを積極的に行う分析• Input• p : price of Rakuten• p* : item cost• a : price of Other• Output• u = # of unit sales• Model• Its calculated for each product by using pre-order data• u = EXP [ε_rakuten ((p - p*)/p*) - ε_other ((p - a)/a) ]• - ε_rakuten ((p - p*)/p*) : Effect of rakuten price• - ε_other ((p - a)/a) : Effect of other price 35
  36. 36. 楽天レシピ投稿日とレシピランクの相関分析•至極単純な相関分析。ランクは早いうちがあがる。•しかし、これにより強い相関を導き出したことにより、ユーザーへのアプローチ やキャンペーン施策等に変化がある 36
  37. 37. 検索結果のパーソナライズの研究•ロジスティック回帰 (従属変数に質的変数を) とフィッシュバインモデル(多属 性態度モデル。対象物への態度は主要な属性についての評価の総和)•ユーザーが気にする要因 は何なのかを明らかにし、検索結果表示をパーソナ ライズしていく研究 PRML本 chap.4 より 商品kの(確率)効用 exp(uk ) p (商品属性k | x) = 設備kの効用 ∑ exp(u j ) j uk = w x + β T 説明変数 (ユーザのデモグラ、利用傾向等) ・カテゴリ値に変換,ダミー変数化 説明変数に対する重み 37
  38. 38. 類似商品の発見•商品検索における類似商品の研究。共起尺度(ダイス係数等)の適用。 •比較分析をしているユーザーデータから類似の商品を発見 38
  39. 39. ABテストでの検定利用 •施策を行う集団(A)と行わない集団(B)の反応に「有意な差」があるか •差が有意かどうか検定。母比率の差の検定 •有意な差が出現しうるよう、サンプル数を検討。事前に、信頼度と想定され る差を決める。その際に、有意差がでるようにサンプル数を決める。 1 2 3 4 5 6クラスタ(顧客セグメント)作成 7 8 9 10 11 12 各クラスタに対し施策を実施 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 ▲ 反応結果をフィードし A X 施策をブラッシュアップ X X ▲ B 施 1 2 3 4 5 6 C X X 策 7 8 9 10 11 12 ▲ 実 13 14 15 16 17 18 D X X 施 19 25 20 26 21 27 22 28 23 29 24 30 ▲ E X X X X 31 32 33 34 35 36 X X X X F ▲ G X X 39
  40. 40. 「統計」の活用•何も高度な技術を適用していない。•回帰分析においても説明変数を何にするか。•変数に入れるためのデータの加工の仕方。•あるいはそもそもの仮説の立て方。それらこそが 重要。•その基本を外さないことこそが、「統計」活用にお いて肝要。 40
  41. 41. (余談) 商品購入間隔の研究 41
  42. 42. (余談) 商品購入間隔の研究•ノンパラメトリックな外れ値検出法(Distance based outlier detection)を利用。•「統計」における代表的な手法が有効でないことを確認した上で行った。•逆説的に「統計」の知識が活用されているといえる。•何にもまして基礎は大事である。 42
  43. 43. BigDataの時代へ 情報爆発情報爆発BigData 統計の活用 データ活用 SuperDB Introduction 43
  44. 44. 情報爆発 44 Along with this, we are increasingly getting difficulty of processing data.
  45. 45. Big Data 45 It’s getting more and more difficult to handle with it.
  46. 46. ビッグデータへの取り組み楽天にあるビッグデータ • 78,000,000+ 会員 • 800,000,000+ 購買情報 • 68,000,000+ レビュー、口コミ • 3,000,000+ 1ヶ月あたりの宿泊情報 • 37,000+ 市場出店店舗 • 60,000+ 登録ホテル • 銀行、クレジットカード情報…. • 莫大な量のサーチワード • 1日あたり数百ギガバイト以上のAccess Log • etc 46
  47. 47. 大規模基盤の活用・構築•大規模基盤の活用・構築 •クラウドの普及、技術のコモディティ化を踏まえ •パブリッククラウドの活用、プライベートの構築 •Hadoopクラスターの構築、NoSQLの活用・構築• レコメンド、ターゲティング広告、検索改善、ログ解析での活用• OSSの活用、貢献、開発が進む 47
  48. 48. 楽天プロダクトランキング■処理内容・ランキングデータ集計 サーチエンジン 購買履歴 製品マスタDB・製品ページ用データ生成■データ量 検索ワード 価格 売上件数 売上高 製品名 製品コード・1日/1億レコード・1日/300GB レビュー 商品件数 売上率 購買時間帯 スペック 発売日■M/R 処理時間・1時間半■ノード数・70台 RAN Calculate DB 48 Rakuten Product
  49. 49. 検索での関連語提示や辞書構築での活用 クラスターから検索解析用のHiveに 関連語の提示や辞書構築等での活用 日次 300GBの データを解析 suggest batch server Suggest Batch Index sync analyzed update search index Batch data Shared Hadoop Cluster NGS Hive dictionary batch 検索エンジン Server NGS common Dictionary platform for hive Batch Index update search index 49
  50. 50. ビッグデータの時代へ•統計の知識は、企業におけるデータ活用において 重要な位置を占める。•今後は、データが大規模化。•「統計」の知識に加え、大量データ処理の技術、プ ログラミングの技術もあわせて必要。•そのため、今後はそのような他のスキルや知識を 踏まえた人材が要求される。•しかし、大事なことは「統計」の知識の活用機会と いうのは、ますます広がりこそすれ、その意義は失 われることはないだろうということ。 50
  51. 51. BigDataの時代へ 情報爆発For closing 統計の活用 データ活用 SuperDB Introduction 51
  52. 52. ビジネスリテラシーとしての統計 ビッグデータと統計の活用 Rakuten Inc. RIT. Masaya Mori July. 11 th , 2012

×