Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

楽天におけるビッグデータを対象としたデータサイエンス&AIの最新応用事例

358 views

Published on

2019年07月09日 リカレントエデュケーション講座@京橋。

楽天ではどのようにビッグデータを活用しているのか、データサイエンス&AIの最新応用事例の紹介。

およびデータサイエンス系のプロジェクトの進め方と,必要な役割についての紹介。

登壇者:平手勇宇(Rakuten Institute of Technology Tokyo)

Published in: Technology
  • DOWNLOAD FULL MOVIE, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... ,DOWNLOAD FULL. MOVIE 4K,FHD,HD,480P here { https://tinyurl.com/yybdfxwh }
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

楽天におけるビッグデータを対象としたデータサイエンス&AIの最新応用事例

  1. 1. 楽天におけるビッグデータを対象とした データサイエンス&AIの最新応用事例 2019年07月09日 楽天株式会社 楽天技術研究所東京 シニアマネージャー 平手勇宇
  2. 2. 2 自己紹介 平手 勇宇 • 楽天株式会社 楽天技術研究所東京 シニアマネージャー  略歴 • 2005-2008 早稲田大学大学院 理工学研究科 情報・ネットワーク専攻 博士後 期課程 博士(工学) • 2006-2009 早稲田大学 メディアネットワークセンター 助手 • 2009 楽天株式会社 楽天技術研究所入所 • 2011 楽天技術研究所 インテリジェンスドメインチーム リーダー • 2014 楽天技術研究所 インテリジェンスドメイングループ マネージャー • 2018 楽天技術研究所東京 シニアマネージャー  学会活動等 • 情報処理学会 データベースシステム研究会 幹事・運営委員 • 電子情報通信学会 データ工学研究会 専門委員 • 日本データベース学会 評議員など.
  3. 3. 3 楽天技術研究所 楽天株式会社 執行役員 楽天技術研究所 代表 森正弥 RakutenAcademia Research, Knowledge Data, Resource • 2006年 楽天技術研究所 創設 • 2010年 RIT New York 開所 • 2014年 RIT Paris 開所 • 2015年 RIT Singapore / Boston 開所 • 2018年 RIT San Mateo / Bengaluru 開所
  4. 4. 4 楽天技術研究所:全世界に6つの拠点150名以上の研究者が所属 TOKYO SINGAPORE PARIS & NY BOSTON SAN MATEO BENGALURU
  5. 5. 5 楽天技術研究所の研究者たち(東京オフィス)
  6. 6. 6 楽天技術研究所の研究分野 RealityIntelligencePower • コンピュータビジョン,画像処理 • Human Computer Interaction • 分散コンピューティング • IoT・ロボティクス • ネットワーキング • 機械学習 • 自然言語処理 • データマイニング・知識抽出 Cost Reduction Revenue Increase New Services
  7. 7. 7 楽天のサービス 楽天株式会社2017年12月期コーポレートレポート, https://corp.rakuten.co.jp/investors/documents/annual.html
  8. 8. 8 楽天のデータアセット https://global.rakuten.com/corp/about/strength.html 単一のIDによって相互に連携が可能様々なサービスが存在 楽天株式会社2017年12月期コーポレートレポート, https://corp.rakuten.co.jp/investors/documents/annual.html
  9. 9. 9 商品検索システムまわり
  10. 10. 10 検索対象の商品データ 店舗様が入力されるため,非構造データ,ノイズデータが存在. https://item.rakuten.co.jp/auc-fmjshop/1945drc/
  11. 11. 11 商品データの構造化 +Category Grocery & food Subcategory Wine 商品タイトル,説明文から, 商品ジャンル,属性・属性値を自動的に抽出 商品ジャンル推定 属性・属性値抽出 https://item.rakuten.co.jp/auc-fmjshop/1945drc/
  12. 12. 12 商品データの構造化の利点 1: 商品検索の絞り込みのアシスト https://www.rakuten.co.jp/category/563339/(2019年7月1日取得)
  13. 13. 13 商品データの構造化の利点 2:商品登録時の情報入力の省力化
  14. 14. 14 深層学習(Deep Learning)を活用した商品ジャンル推定 単語抽出 * Tested to Ichiba L3 category (1.5K categories) * Tested for Rakuten PriceMinister Image Data テキストデータ ・商品名 ・商品説明文 画像データ CNNを使った分類器 Rakuten France CNNを使った分類器
  15. 15. 15 レコメンダーシステム
  16. 16. 16 レコメンダーシステム ■リターゲティング ■購買した商品の中から,継続的に購入されやすい商品をピックアップ https://www.rakuten.co.jp/ (as of 2019/05/21)
  17. 17. 17 レコメンダーシステム https://www.rakuten.co.jp/ (as of 2019/05/21) ■一般的な商品推薦 ■おすすめの商品の中で,クーポンが有効になっている商品を提示
  18. 18. 18 レコメンダーシステムのアルゴリズム 様々なアルゴリズムを組み合わせて,推薦商品を抽出する. 商品a 商品b 商品c 商品d … ユーザA 3 1 2 … ユーザB 0 4 1 … ユーザC 2 2 4 … ユーザD 2 1 ? … … … … … … 1.協調フィルタリング 2.Matrix Factorization https://www.rakuten.co.jp/ (as of 2019/05/21) 4.人気ランキング 3.Embedding
  19. 19. 19 レコメンダーシステムのアーキテクチャ 商品 データ 購買履歴 データ 閲覧履歴 データ キャンペーン データ ビジネス ルール デリバリー システム (1) 商品推薦アルゴリズムの適用 加工済み 商品推薦リスト 未加工の 商品推薦リスト キャッシュ フロントエンド 商品 データ 閲覧履歴 データ (2) キャンペーン情報・ビジネ スルール適用 (6) 直近のユーザ行動を反映 商品在庫 データ API (7) 商品の在庫を確認 (3) 商品推薦 パーツのCall (5) キャッシュに問い合わせ (4) 適用アルゴリズムの決定 (9) アルゴリズムのパフォーマンス更新 ※アルゴリズム毎に計算 (8) 商品推薦 パーツの表示 リ ア ル タ イ ム プ ロ セ ス バ ッ チ プ ロ セ ス
  20. 20. 20 位置情報の活用 Major Area Step 1 : 利用済みの店舗をプロット Step 4 : レコメンドショップ抽出 Step 2 : Major Area領域抽出 Step 3 : Major Area領域内の他店舗抽出 オフライン店舗等を推薦する場合には,ユーザの位置情報を利用
  21. 21. 21 位置情報の活用(2) CVR (%) gms/user (JPY) 0.00% 2.00% 4.00% 6.00% 8.00% 10.00% 12.00% 14.00% 16.00% 18.00% 20.00% 22.00% Normal list RIT list 0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 Normal list RIT list ×8.6 ×1.3 位置情報は,オフラインサービスの推薦のための強力な武器となる. Both CVR and GMS/uu are improved Geolocation based recommender Geolocation based recommender
  22. 22. 22 カスタマーモデル・マーケティング
  23. 23. 23 潜在顧客抽出 (金融商品) 楽天市場の行動データを利用し,金融商品の潜在顧客を抽出 楽天市場 アクティブユーザ Overlap 金融サービス 契約済ユーザ Positive Samples Negative Samples
  24. 24. 24 潜在顧客抽出:重要なファクター(金融商品) 性別(男性) 性別(女性) 年齢(20-25歳) 購入商品の平均単価 1購買あたりの平均合計金額 購買頻度 購買金額の最大値 性別(未登録) 購買金額の合計値 年齢(未登録) 年齢(25-30歳) 年齢(50歳以上) 自動車用品の購入 エリア(都市圏外) エリア(関東) ゴルフ用品の購入 年齢(35-40歳) 紳士靴の購入 子供用品の購入 DIY用品の購入 楽天会員 属性データ 楽天市場 購買履歴データ 顧客ロイヤルティに 関わる因子 ライフステージに 関わる因子
  25. 25. 25 潜在顧客抽出:潜在顧客モデルの評価(金融商品) 潜在ユーザ コントロールユーザ • ランダムに選択 • 約300,000ユーザ • Score >= 0.8 • 約300,000 ユーザ 市場ニュース(メール)を二つのグループに送付 Click Rate went up by +49.23% +49.23% 潜在 ユーザ コントロール ユーザ
  26. 26. 26 潜在顧客抽出:楽天会員の百貨店への送客 居住地による フィルター x カスタマーモデル オフラインの店舗への送客においても有効性を確認 楽天ポイントカード,大丸松坂屋百貨店様との検証実験
  27. 27. 27 潜在顧客抽出:Rakuten AIrisとして製品化 https://adsales.rakuten.co.jp/media/guide/#rakuten_airis User Feature Building Customer Model with DNN Seed Users Prospective Users Targeting Feature Engineering  Click-Through Data  Search History Data  Purchase History Data  Member Attribute Data  R-point Historical Data e.g. existing customers for target service
  28. 28. 28 物流・配送最適化への挑戦
  29. 29. 29 最適化(物流への適用) 3 hours catchment 4 hours catchment2 hours catchment Warehouse Depot Delivery address 倉庫・配送センターの最適化
  30. 30. 30 最適化(物流への適用) 配達荷物の分配・配送ルート決定
  31. 31. 31 データサイエンス・AI系の研究プロジェクトの進め方
  32. 32. 32 データサイエンス系プロジェクトにかかわる4つの役割 事業 データサイエンス コンサルタント ・事業の内容を深く理解.(事業に入り込む) ・ニーズの発掘. ・ビジネスリクエストの調査.仕分け. ・コンプライアンス,契約関連 マシーンラーニング エンジニア ・機械学習プラットフォームの開発・運用 データサイエンティスト ・機械学習アルゴリズムの適用. ・データ解析の実施 リサーチャー ・機械学習アルゴリズムの開発.
  33. 33. 33 データサイエンス系プロジェクトにかかわる4つの役割 事業 データサイエンス コンサルタント ・事業の内容を深く理解.(事業に入り込む) ・ニーズの発掘. ・ビジネスリクエストの調査.仕分け. ・コンプライアンス,契約関連 マシーンラーニング エンジニア ・機械学習プラットフォームの開発・運用 データサイエンティスト ・機械学習アルゴリズムの適用. ・データ解析の実施 リサーチャー ・機械学習アルゴリズムの開発. (1) すでにプラットフォーム化されている機能を適用する場合.
  34. 34. 34 データサイエンス系プロジェクトにかかわる4つの役割 事業 データサイエンス コンサルタント ・事業の内容を深く理解.(事業に入り込む) ・ニーズの発掘. ・ビジネスリクエストの調査.仕分け. ・コンプライアンス,契約関連 マシーンラーニング エンジニア ・機械学習プラットフォームの開発・運用 データサイエンティスト ・機械学習アルゴリズムの適用. ・データ解析の実施 リサーチャー ・機械学習アルゴリズムの開発. (2) 既存の機械学習フレームワークを適用すれば解決できる場合. ※Optional
  35. 35. 35 データサイエンス系プロジェクトにかかわる4つの役割 事業 データサイエンス コンサルタント ・事業の内容を深く理解.(事業に入り込む) ・ニーズの発掘. ・ビジネスリクエストの調査.仕分け. ・コンプライアンス,契約関連 マシーンラーニング エンジニア ・機械学習プラットフォームの開発・運用 データサイエンティスト ・機械学習アルゴリズムの適用. ・データ解析の実施 リサーチャー ・機械学習アルゴリズムの開発. (3) 既存の機械学習フレームワークでは解決できない場合. ※Optional
  36. 36. 36 事業 データサイエンス コンサルタント ・事業の内容を深く理解.(事業に入り込む) ・ニーズの発掘. ・ビジネスリクエストの調査.仕分け. ・コンプライアンス,契約関連 マシーンラーニング エンジニア ・機械学習プラットフォームの開発・運用 データサイエンティスト ・機械学習アルゴリズムの適用. ・データ解析の実施 リサーチャー ・機械学習アルゴリズムの開発. データサイエンス系プロジェクトにかかわる4つの役割 プロジェクトをうまく回すためには,コンサルタントの役割が非常に重要.
  37. 37. 37 データサイエンス系プロジェクトを始める前に 1.目的は明確化できているか? • 利益増:パーソナライズコンテンツ・クーポン提示によるLTVの増加. • 利益増:マーケティングへの適用による顧客増.ターゲット顧客の絞り込み • コストカット:マニュアルオペレーションの自動化. 2.十分な量のトレーニングデータは用意できるのか? • 機械学習を適用させるためには,十分な量のトレーニングデータを用意しなくてはならない. • 新規サービスや,小さなサービスの場合は,十分なトレーニングデータを用意できない場合が ある. • (Transfer Learning, Pre-training Modelなど,技術的に解決する研究が盛んに実施)
  38. 38. 38 データサイエンス系プロジェクトを始める前に 3.そのデータは使って良いデータなのか? • 顧客データを使う場合は,プライバシーポリシーを遵守 • 個人情報に関わるレギュレーション • GDPR(EU) • CCPA(カリフォルニア州) 4.結果的にコスト増にならないか?(ROI) • 利益増加 • コストカット • データ収集基盤構築のためのコスト • トレーニングデータ準備のためのコスト • モデル構築のためのコスト • モデルをインプリするためのコスト • モデルを運用するためのコスト V.S.
  39. 39. 39 どのようなトピックを研究テーマとすべきか(1) 機械学習や深層学習の適用は,データサイエンティストの領域に. • TensorFlowやChainerなどフレームワークが整備され,コモディディ化 Expected Size Actual Size… ただし,解決すべき課題がたくさん残っている. (1)トレーニングデータの不足 (2) モデルが複雑すぎて解釈不能
  40. 40. 40 どのようなトピックを研究テーマとすべきか(2) (1)トレーニングデータの不足 (2) モデルが複雑すぎて解釈不能 Pre-Training Model Interpretable Model 汎用的なモデル構築し, いろいろなタスクに適用する. 変数が結果にどの程度 影響を与えたのかを計算する.

×