Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

btech Lab. #1_haraguchi

25 views

Published on

b→tech Lab. #1 LT資料

Published in: Technology
  • Be the first to comment

  • Be the first to like this

btech Lab. #1_haraguchi

  1. 1. 俺のセグメントが こんなに早い訳がない
  2. 2. 原口 峻 Shun Haraguchi ・日本IBMシステムズ エンジニアリング株式会社入社 (2010) 顧客調整、実装・テスト、 UI/UXデザインからミドルウェア設計まで 技術レイヤー・業界・フェーズを問わず、 多方面・多領域に渡って活躍 ・フロムスクラッチ入社 (2017) アーキテクト兼開発統括Mgrとして 開発チームをリード
  3. 3. 今日のテーマ HIVE処理高速化で 試行錯誤した話
  4. 4. 統合取得 活用 DWH
  5. 5. 統合取得 活用 DWH 基幹 システム Bizデータ Webデータ
  6. 6. 統合取得 活用 基幹 システム Bizデータ Webデータ DWH
  7. 7. 統合取得 活用 基幹 システム Bizデータ Webデータ DWH 閲覧ログ ・A化粧品 ページを閲覧
  8. 8. 統合取得 活用 Webデータ 基幹 システム Bizデータ DWH
  9. 9. 統合取得 活用 Webデータ 基幹 システム Bizデータ DWH 顧客データ ・24歳 ・女性
  10. 10. 統合取得 活用 DWH Webデータ 基幹 システム Bizデータ 顧客データ ・24歳 ・女性 閲覧ログ ・A化粧品 ページを閲覧 ・24歳 ・女性 ・A化粧品 ページを閲覧
  11. 11. 統合取得 活用 DWH Webデータ 基幹 システム Bizデータ ・24歳 ・女性 ・A化粧品 ページを閲覧
  12. 12. 統合取得 活用 DWH Webデータ 基幹 システム Bizデータ ??? ??? ??? ・24歳 ・女性 ・A化粧品 ページを閲覧
  13. 13. 統合取得 活用 DWH Webデータ 基幹 システム Bizデータ ??? ??? メール配信 ・24歳 ・女性 ・A化粧品 ページを閲覧
  14. 14. 統合取得 活用 DWH Webデータ 基幹 システム Bizデータ ??? メール配信 分析(レポート) ・24歳 ・女性 ・A化粧品 ページを閲覧
  15. 15. 統合取得 活用 DWH Webデータ 基幹 システム Bizデータ メール配信 分析(レポート) レコメンド ・24歳 ・女性 ・A化粧品 ページを閲覧
  16. 16. セグメントとは?
  17. 17. セグメントとは? ある条件で括られた顧客グループのこと
  18. 18. 統合取得 活用 Webデータ 基幹 システム Bizデータ メール配信 分析(レポート) レコメンド DWH ・24歳 ・女性 ・A化粧品 ページを閲覧 コレ!
  19. 19. 統合取得 Webデータ 基幹 システム Bizデータ DWH ・24歳 ・女性 ・A化粧品 ページを閲覧 活用 メール配信 分析(レポート) レコメンド
  20. 20. 統合取得 Webデータ 基幹 システム Bizデータ DWH ・24歳 ・女性 ・A化粧品 ページを閲覧 活用 メール配信 分析(レポート) レコメンド 1日のセグメント集計回数
  21. 21. 統合取得 Webデータ 基幹 システム Bizデータ DWH ・24歳 ・女性 ・A化粧品 ページを閲覧 活用 メール配信 分析(レポート) レコメンド 1日のセグメント集計回数 2万回
  22. 22. 統合取得 Webデータ 基幹 システム Bizデータ DWH ・24歳 ・女性 ・A化粧品 ページを閲覧 活用 メール配信 分析(レポート) レコメンド 1日のセグメント集計回数 2万回
  23. 23. セグメント作成 リクエスト 集計 セグメント 完成 セグメント集計の問題
  24. 24. セグメント作成 リクエスト 集計集計待ち セグメント 完成 待ち時間発生… セグメント集計の問題
  25. 25. セグメント作成 リクエスト 集計集計待ち セグメント 完成 とても遅い… 3時間30分3時間 待ち時間発生… セグメント集計の問題
  26. 26. セグメント作成 リクエスト 集計集計待ち セグメント 完成 7時間30分… とても遅い… 3時間30分3時間 待ち時間発生… セグメント集計の問題
  27. 27. スケールアップしてみた コアノード数を増やして、分散処理を強化することによって 集計処理の時間を短縮 クラスタクラスタ
  28. 28. スケールアップしてみた コアノード数 5
  29. 29. スケールアップしてみた コアノード数 5 6540
  30. 30. スケールアップしてみた コアノード数 処理時間 1時間30分 3時間30分 5 6540
  31. 31. スケールアップしてみた コアノード数 処理時間 半分以下! 1時間30分 3時間30分 5 6540
  32. 32. 半分以下! スケールアップしてみた コアノード数 処理時間 1時間30分 これ以上は 短縮できない… 3時間30分 5 6540
  33. 33. スケールアップしてみた コアノード数 処理時間 3時間30分 1時間30分 半分以下! これ以上は 短縮できない… 5 6540 スケールアップの限界
  34. 34. スケールアップで計算時間短縮 セグメント作成 リクエスト 集計集計待ち セグメント完成 7時間30分… 3時間30分3時間 計算時間短縮 計算時間短縮で 待ち時間も短縮 3時間30分
  35. 35. スケールアウトしてみた クラスタの数を増やすことで、一度に処理できる数が増えて 待ち時間が短縮 クラスタ
  36. 36. 1クラスタ 13クラスタ スケールアウトしてみた
  37. 37. スケールアウトしてみた 1クラスタ 13クラスタ 平均待ち時間 1/13
  38. 38. スケールアウトしてみた 1クラスタ 13クラスタ 平均待ち時間 1/13
  39. 39. スケールアウトで待ち時間短縮 セグメント作成 リクエスト 集計集計待ち セグメント完成 7時間30分… 3時間30分3時間 待ち時間短縮 4時間 3時間30分
  40. 40. 結局落ち着いた先は… スケールアップ スケールアウト ・処理時間の短縮 ・データが重い場合 ・待ち時間の短縮 ・計算回数が多く 待ち が出ている場合
  41. 41. 結局落ち着いた先は… スケールアップ スケールアウト ・処理時間の短縮 ・データが重い場合 ・待ち時間の短縮 ・計算回数が多く 待ち が出ている場合 併用
  42. 42. 結局落ち着いた先は… サーバ台数 5台 クラスタ数 1個 処理時間 7時間30分 クラスタ
  43. 43. 結局落ち着いた先は… サーバ台数 5台 8台 クラスタ数 1個 8個 処理時間 7時間30分 クラスタ
  44. 44. 結局落ち着いた先は… サーバ台数 5台 8台 クラスタ数 1個 8個 処理時間 7時間30分 <2時間 クラスタ 大幅短縮
  45. 45. 結局落ち着いた先は… サーバー 5台 サーバー 64台~13倍
  46. 46. 結局落ち着いた先は… サーバー 5台 サーバー 64台 コストはたったの2倍程度 ~13倍
  47. 47. どうやって実現したのか? その秘密は 後のLTで!
  48. 48. Fin.

×