Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Hadoop x spark x 機械学習を利用した実践的活用術 最新

1,571 views

Published on

Hadoop x spark x 機械学習を利用した実践的活用術 最新

問い合わせはこちらから
https://datahotel.jp/service/fmh/hadoop/

Published in: Data & Analytics
  • Be the first to comment

Hadoop x spark x 機械学習を利用した実践的活用術 最新

  1. 1. Copyright © NHN Techorus Corp. Page1 2016/10/24 NHNテコラス株式会社 データ研究室 佐藤 哲 趙 漢哲/坂井 俊之 小山 智久 Hadoop × Spark × 機械学習を利用した実践的活用術
  2. 2. Copyright © NHN Techorus Corp. Page2
  3. 3. Copyright © NHN Techorus Corp. Page3
  4. 4. Copyright © NHN Techorus Corp. Page4
  5. 5. Copyright © NHN Techorus Corp. Page5
  6. 6. Copyright © NHN Techorus Corp. Page6
  7. 7. Copyright © NHN Techorus Corp. Page7 自社モールの売上アップに繋がる レコメンダー開発記
  8. 8. Copyright © NHN Techorus Corp. Page8 中小企業のeコマースの現在 “一元管理による複数店舗展開 が当たり前になってきた”
  9. 9. Copyright © NHN Techorus Corp. Page9 中小企業のeコマースの現在 “しかし、費用を考えるとできるだけ 自社モールの販売を伸ばしたい”
  10. 10. Copyright © NHN Techorus Corp. Page10 どうすれば顧客を 自社モールへ導けるのか? • 考える点 – 既存顧客の離脱防止 – 他モールから自社モールへ誘導 – 新規顧客の誘致 – などなど
  11. 11. Copyright © NHN Techorus Corp. Page11 どうすれば顧客を 自社モールへ導けるのか? • 考える点 – 既存顧客の離脱防止 – 他モールから自社モールへ誘導 – 新規顧客の誘致 – などなど 顧客が購入したいと思う商品を いい条件で提供する
  12. 12. Copyright © NHN Techorus Corp. Page12 どうすれば顧客を 自社モールへ導けるのか? 顧客が購入したいと思う商品を いい条件で提供する レコメンダーを導入しよう! • 考える点 – 既存顧客の離脱防止 – 他モールから自社モールへ誘導 – 新規顧客の誘致 – などなど
  13. 13. Copyright © NHN Techorus Corp. Page13 レコメンダーはどう動くのか?
  14. 14. Copyright © NHN Techorus Corp. Page14 レコメンダー概念図 共通フォマットデータ 会社A 自社モール 会社A 他モール 協調フィルタリング用データの例 DateTime User Item 2016/03/07 21:03:11 user1342 item1 2016/03/07 21:04:34 user2298 item14 学習データ オンライン テストデータ デ ー タ 取 得 複数モールから データを収集
  15. 15. Copyright © NHN Techorus Corp. Page15 学習機 レコメンダー概念図 レ コ メ ン ダ ー 学 習 学習・評価データ分離 学習データ 評価データ モデルパラメター 集合 Regularization LearningRate Etc. 学習 評価 モデル レコメンド 結果 学習データ 最適モデル モデル モデル 再学習 最適 パラメター
  16. 16. Copyright © NHN Techorus Corp. Page16 レコメンダー概念図 オ ン ラ イ ン 評 価 利用モデル選択 オンライン テストデータ 最適モデル レコメンドモデル永久保存空間 その他 会社A-002 会社A-001 評価機 モデル評価 結果比較 オペレーター
  17. 17. Copyright © NHN Techorus Corp. Page17 レコメンダー概念図 レ コ メ ン ド 提 供 レコメンド生成機 新規顧客用 既存顧客 トップページ用 既存顧客 商品ページ用 … レコメンドモデル永久保存空間 その他 会社A-002 会社A-001
  18. 18. Copyright © NHN Techorus Corp. Page18 実証実験と新しい発見
  19. 19. Copyright © NHN Techorus Corp. Page19 協調フィルタリングを利用した 実証実験の概念図 2012 2013 2014 2015 レコメンド モデル 購買履歴 WEB観覧 履歴 商品の 類似性 1)過去のデータを収集 2)レコメンドモデル の学習 3)購買可能性が高い 商品をレコメンド 商品 2016 A社さまのご 協力でデータ を利用させて いただきました。
  20. 20. Copyright © NHN Techorus Corp. Page20 データの特性は? 質問#1
  21. 21. Copyright © NHN Techorus Corp. Page21 新規顧客・商品の増加 0 1 2 3 4 5 6 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2006年対比倍率 新規顧客数増加率 新規商品数増加率 新規商品より新規顧客 の増加が目立つ
  22. 22. Copyright © NHN Techorus Corp. Page22 受注件数の増加(商品単位) 0 2 4 6 8 10 12 14 16 18 20 2013-01 2013-03 2013-05 2013-07 2013-09 2013-11 2014-01 2014-03 2014-05 2014-07 2014-09 2014-11 2015-01 2015-03 2015-05 2015-07 2015-09 2015-11 2016-01 2016-03 2016-05 受注件数 万 消費税増加前 の買占め
  23. 23. Copyright © NHN Techorus Corp. Page23 協調フィルタリングの 有効性は? 質問#2
  24. 24. Copyright © NHN Techorus Corp. Page24 • Micro-average of recallを使用 – 顧客毎に最大300個のレコメンドを生成 – 2015年に購買した商品の中で正しく予測された 割合のMicro averageを計算 モデルのカバレッジの確認 顧客ID 商品ID レコメンド成功 レコメンドスコア User100147 Item98273 False 0.0 User100576 Item98273 True 1.531 User100576 Item23482 True 0.348 User100852 Item74227 False 0.0 性能の上界が 知りたい!
  25. 25. Copyright © NHN Techorus Corp. Page25 結果分析 商品 顧 客 既存 新規 既 存 新 規 総購買商品:66.15% レコメンド 成功:39.74% 失敗:60.26% 総購買商品:5.61% 総購買商品:25.00% 総購買商品:3.24% 91.15% 8.85% 71.77% 28.23% 100.00% 既存顧客の購買商 品数の約7.82% 既存商品だけで は、成功率約 40% 商品よりは顧客の 増加が早い
  26. 26. Copyright © NHN Techorus Corp. Page26 現実的なシナリオ: 直近1日の予測 質問#3
  27. 27. Copyright © NHN Techorus Corp. Page27 学習データ量の影響 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0 20 40 60 80 100 120 140 Micro-averageRecall 直近n日分 140日分を学習データとし て使用しTop 50の商品を レコメンドする場合 →カバレッジは約10%
  28. 28. Copyright © NHN Techorus Corp. Page28 今後の計画 1. 新規顧客・商品への対処 2. 顧客・商品属性の活用 3. オンライン学習を利用したリアルタイムレコメンド モデル更新
  29. 29. Copyright © NHN Techorus Corp. Page29 Hadoop トライアルサービスについて NHN Techorusは、Hadoop/Sparkを とりあえず使ってみたいお客様を 強力に支援いたします。
  30. 30. Copyright © NHN Techorus Corp. Page30 Hadoop トライアルサービスとは お客様の メリット ご提供 要件 ・当社のデータセンターを利用したHadoopホスティング環境を体感して頂くために、 Hortonworksが提供するHDP(Hortonworks Data Platform)を30日間無料で 利用できるトライアルサービスを提供します。 (今後、Vertica SQL on Hadoopをサービス提供予定です。) はじめ に Spark等の利用ニーズが高まる中、導入前の不安を解消するサービスです。 最新Hadoop環境 をすぐ利用可! トライアル後、本番 環境へ移行可! ・トライアル環境:1ヶ月 ・ネットワーク:インターネット回線 ・システム構成:ハイスペックサーバ 9台構成
  31. 31. Copyright © NHN Techorus Corp. Page31 トライアルサービスご利用に関して 超過後の 運用 ・申請書 申請書を記載いただきます。IPアドレス、利用約款等の記載があります。 ・ご用意するサーバ数 トライアルでご利用頂くサーバを9台用意させて頂きます。 ・サーバの再セットアップ費用については、別途ご相談させて下さい。 ・100Mbpsを超えるトラフィックについては、ご相談させて下さい。 ・運用・監視ついては、弊社フルマネージドホスティングサービスを適用します。 A社トアイアル環境申請書受領 10月 クリーニング作業 11月 12月 効果測定結果を受け採用の場合は 新環境へデータを移行 注文書受領後、10営業日で移行想定 【課金スケジュール例】 B社トライアル環境 A社本番環境 ご利用に 関して ・30日試使用期間超過後、自動的に課金が発生する方式ではありません。 ソフトは期限付きのため停止しますが、試使用インフラ環境は残ります。
  32. 32. Copyright © NHN Techorus Corp. Page32 トライアルの環境インフラ環境について ・試使用期間(30日間)を超えそうな場合は、ご連絡をお願いします。 トライアルの インフラ環境 ・エンドユーザ様より注文書受領後、10営業日でご利用できます。(ベストエフォート では、5営業日)個別にご用意させて頂きます。 ・別途メモリー追加、CPU追加、HDD追加もご対応させて頂きます。 トライアル環境のシステム構成 サーバタイプ OS サーバモデル CPU CPU_Clock CPU(EA) MEM MEM(EA) HDDType HDD RAID 作業用Client CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 8 SAS(15K) 300GB*8 RAID5(OS) 作業用Client CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 8 SAS(15K) 300GB*8 RAID5(OS) 管理用Client CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 1 8192 4 SAS(15K) 300GB*3 RAID1(OS)+Backup Hadoop管理系サーバ CentOS64Bit HPDL360G7 L5630(4Core) 2.13GHz 2 4096 6 SAS(10K) 300GB*3 RAID1(OS)+Backup Hadoop管理系サーバ CentOS64Bit HPDL360G7 L5630(4Core) 2.13GHz 2 4096 6 SAS(10K) 300GB*3 RAID1(OS)+Backup Hadoop管理系サーバ CentOS64Bit HPDL360G7 L5630(4Core) 2.13GHz 2 4096 6 SAS(10K) 300GB*3 RAID1(OS)+Backup HadoopWorkerサーバ CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 16 SAS(15K) 300GB*2 300GB*6 RAID1(OS) NoRAID(Data) HadoopWorkerサーバ CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 16 SAS(15K) 300GB*2 300GB*6 RAID1(OS) NoRAID(Data) HadoopWorkerサーバ CentOS64Bit HPDL360pGen8V2 E5-2643V2(6Core) 3.5GHz 2 8192 16 SAS(15K) 300GB*2 300GB*6 RAID1(OS) NoRAID(Data)
  33. 33. Copyright © NHN Techorus Corp. Page33 システム構成図 Hadoop 管理用サーバ 3台 YARN(RM), HDFS(NN)HA Zookeeper 管理用Client 1台 Other master components Ambari- server MySQL (Master-slave) 作業用Client 2台 基本 MySQL (Master-slave) Ranger Hadoop workersサーバ 3台 YARN: NodeManagers HDFS: DataNodes ハードウェア ソフトウェア
  34. 34. Copyright © NHN Techorus Corp. Page34 トライアル~本番までのスケジュール トライアル 申込提出 申込内容 の 確認 1営業日 トライアル環境 が空いてれば トライアル 貸し出し 本番環境 提供開始 ポイント ・導入前に、無償トライアルで、ご利用頂き、導入決定前にビジネスの価値を証明。 成果を実感、ご納得頂いてから本番の導入が可能になります。 ・お手元にあるトライアル申込書に、もれなくご記入をお願いします。 1ヶ月 10日以内に トライアル環境の提供
  35. 35. Copyright © NHN Techorus Corp. Page35 本日はトライアルのデモ環境を会場にご用意しております。 管理ツール Ambari データ分析ツール Zeppelin
  36. 36. Copyright © NHN Techorus Corp. Page36 質疑応答 • ご静聴ありがとうございました。

×