Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
マルチクラウドで
分析基盤を
構築してみた
Syn. 事業部検索サービス部 宇都宮紀陽
2
アジェンダ
1.自己紹介
2.検索事業の取組
3.分析基盤の勘所
3
アジェンダ
4.今年度の遂行
5.今後の展望
6.総括
4
自己紹介
検索一筋十年
検索サービス部部長
Search Maestro
宇都宮 紀陽
5
Data を貯め
Data を読み
Data を活かす
6
実践してきた人生
7
検索事業(2013〜)
8
KDDI の子会社として
Web、アプリに
検索技術サービス提供
9
リアルタイム検索
D社、Y!社に続き
国内3つ目の事例
10
FE情報設計
MWビジネスロジック
BE外部提供
11
検索 is not 全文検索.
12
検索 is 情報検索.
13
情報検索エンジンの構成要素
14
検索エンジンには
コンテンツ以外の
素性データが必要
15
コンテンツ以外の素性データ
ec における商品検索事例
・時系列情報(春夏秋冬、朝昼晩夜)
・商品の評価(CTR, Rank, etc)
・価格(安い、高い)
・在庫(あり、なし)
・SNS のストリーム情報 and more
16
Data を貯め
Data を読み
Data を活かす
17
要件を満たす
分析基盤
必要
18
要件
線形に増大するデータ
無停止状態維持
応答速度維持
コスト維持
リカバリ容易
19
ROI
強く意識
20
導入コスト
vs
運用コスト
21
導入コスト低
22
OSS
x
オンプレミス
23
構成柔軟
x
自由自在
24
エンジニアリソース
ファシリティマネジメント
データ爆発対応困難
25
終わらない
運用
26
クラウドVM
データ爆発
部分解決
27
導入コスト低→中
28
構成(2015 年3月〜 )
29
終わらない
運用
30
データ増大
レスポンス遅
31
POC
32
導入コスト中
Vertica
33
大規模データ
分析実績
34
1TBまで
無償利用
35
on ec2
公式対応
36
構成(2015 年8月〜 )
Vertica
37
要件
線形に増大するデータ
無停止状態維持
応答速度維持
コスト維持
リカバリ容易
38
要件
満たせました
39
ただし
on ec2
である限り
40
終わらない
運用
41
構成(2015 年8月〜 )
Vertica
42
Vertica
運用維持
43
さらに検証
44
GCP BigQuery 不採用(2015 年6月時点)
LegacySQL
占有リソースなし
大陸間回線帯域懸念
45
機能洗練
注視継続
46
さらに
POC
47
実証構成(2016 年6月〜 )
48
Azure SQL DWH 実証のねらい
(比較的低使用率による)
無停止稼動
MS 製品との親和性
誰でも気軽にアクセス
49
実証
結果
50
Azure 不採用
開発者向け情報が少ない
アクセシビリティ不親切
Windows 優遇
51
性能面
Redshift
遜色ない
52
実証構成(2016 年7月〜 )
53
AWS Redshift 実証のねらい
無停止稼動
AWS 製品との親和性
ETL ロジック開発低
負荷
54
実証
結果
55
Redshift 採用
時間的導入コスト低
技術情報入手容易
Vertica 並みの性能
56
Vertica
Redshift
平行運用
57
Vertica 取り扱うデータ
既存業務
大規模
データ増大量一定
58
Redshift 取り扱うデータ
新規業務
中規模
データ増大量可変
59
Redshift
三ヶ月運用後
60
課題発生
61
Redshift 課題
データ増大と
BI自動生成クエリによる
レスポンス遅延
62
Redshift 課題
CPU 処理能力頭打ち
スケールアウトより
スケールアップ要求
63
Redshift 課題
ノードタイプ選択
自由度低い
コスト見合い悪い
64
BiqQuery
現状確認
65
GCP BigQuery 不採用(2015 年6月時点)
LegacySQLのみ
占有リソースなし
アップロード回線帯域
66
GCP BigQuery 現状(2016 年11月時点)
StandardSQL サポート
占有リソース有料OP
FASTER Cable
System
67
POC
68
実証構成(2016 年11月〜 )
69
BigQuery 取り扱うデータ
Redshift 同等
新規業務
中規模
データ増大量可変
70
実証
結果
71
BigQuery 採用
時間的導入コスト低
SQL 翻訳コスト低
技術情報入手容易
72
BigQuery 採用
BI自動生成クエリ
高速応答
運用コスト大幅減
73
運用コスト
大幅減!
74
Redshift
対運用コスト
1/5
75
Redshift
運用終了👋
76
今後の展望
77
今後の展望
AWS ec2 -> GCE
VM Live Migration
ダウンタイム発生なし
78
今後の展望
中間処理は
Cloud Pub/Sub
ES on GCE
Cloud DataProc
79
Hadoop
運用終了
80
Vertica
運用終了
81
運用業務
最低限
82
情報検索エンジン
磨き上げ
専念
83
まとめ
マルチクラウドは適材適所
導入コストの障壁が低い
サービスは見極めを
POC 重要
84
ご清聴
ありがとうござい
ました
85
宣伝
86
Supership Search Solution
検索ソリューション
ASP 提供中
検索エンジン
サジェスト機能
スペラー機能
分析基盤提供
87
人材募集中
Upcoming SlideShare
Loading in …5
×

マルチクラウドで分析基盤を構築してみた Supership201612

1,534 views

Published on

Minami Aoyama Night Vol.1にて公開

Published in: Technology
  • Be the first to comment

  • Be the first to like this

マルチクラウドで分析基盤を構築してみた Supership201612

  1. 1. マルチクラウドで 分析基盤を 構築してみた Syn. 事業部検索サービス部 宇都宮紀陽
  2. 2. 2 アジェンダ 1.自己紹介 2.検索事業の取組 3.分析基盤の勘所
  3. 3. 3 アジェンダ 4.今年度の遂行 5.今後の展望 6.総括
  4. 4. 4 自己紹介 検索一筋十年 検索サービス部部長 Search Maestro 宇都宮 紀陽
  5. 5. 5 Data を貯め Data を読み Data を活かす
  6. 6. 6 実践してきた人生
  7. 7. 7 検索事業(2013〜)
  8. 8. 8 KDDI の子会社として Web、アプリに 検索技術サービス提供
  9. 9. 9 リアルタイム検索 D社、Y!社に続き 国内3つ目の事例
  10. 10. 10 FE情報設計 MWビジネスロジック BE外部提供
  11. 11. 11 検索 is not 全文検索.
  12. 12. 12 検索 is 情報検索.
  13. 13. 13 情報検索エンジンの構成要素
  14. 14. 14 検索エンジンには コンテンツ以外の 素性データが必要
  15. 15. 15 コンテンツ以外の素性データ ec における商品検索事例 ・時系列情報(春夏秋冬、朝昼晩夜) ・商品の評価(CTR, Rank, etc) ・価格(安い、高い) ・在庫(あり、なし) ・SNS のストリーム情報 and more
  16. 16. 16 Data を貯め Data を読み Data を活かす
  17. 17. 17 要件を満たす 分析基盤 必要
  18. 18. 18 要件 線形に増大するデータ 無停止状態維持 応答速度維持 コスト維持 リカバリ容易
  19. 19. 19 ROI 強く意識
  20. 20. 20 導入コスト vs 運用コスト
  21. 21. 21 導入コスト低
  22. 22. 22 OSS x オンプレミス
  23. 23. 23 構成柔軟 x 自由自在
  24. 24. 24 エンジニアリソース ファシリティマネジメント データ爆発対応困難
  25. 25. 25 終わらない 運用
  26. 26. 26 クラウドVM データ爆発 部分解決
  27. 27. 27 導入コスト低→中
  28. 28. 28 構成(2015 年3月〜 )
  29. 29. 29 終わらない 運用
  30. 30. 30 データ増大 レスポンス遅
  31. 31. 31 POC
  32. 32. 32 導入コスト中 Vertica
  33. 33. 33 大規模データ 分析実績
  34. 34. 34 1TBまで 無償利用
  35. 35. 35 on ec2 公式対応
  36. 36. 36 構成(2015 年8月〜 ) Vertica
  37. 37. 37 要件 線形に増大するデータ 無停止状態維持 応答速度維持 コスト維持 リカバリ容易
  38. 38. 38 要件 満たせました
  39. 39. 39 ただし on ec2 である限り
  40. 40. 40 終わらない 運用
  41. 41. 41 構成(2015 年8月〜 ) Vertica
  42. 42. 42 Vertica 運用維持
  43. 43. 43 さらに検証
  44. 44. 44 GCP BigQuery 不採用(2015 年6月時点) LegacySQL 占有リソースなし 大陸間回線帯域懸念
  45. 45. 45 機能洗練 注視継続
  46. 46. 46 さらに POC
  47. 47. 47 実証構成(2016 年6月〜 )
  48. 48. 48 Azure SQL DWH 実証のねらい (比較的低使用率による) 無停止稼動 MS 製品との親和性 誰でも気軽にアクセス
  49. 49. 49 実証 結果
  50. 50. 50 Azure 不採用 開発者向け情報が少ない アクセシビリティ不親切 Windows 優遇
  51. 51. 51 性能面 Redshift 遜色ない
  52. 52. 52 実証構成(2016 年7月〜 )
  53. 53. 53 AWS Redshift 実証のねらい 無停止稼動 AWS 製品との親和性 ETL ロジック開発低 負荷
  54. 54. 54 実証 結果
  55. 55. 55 Redshift 採用 時間的導入コスト低 技術情報入手容易 Vertica 並みの性能
  56. 56. 56 Vertica Redshift 平行運用
  57. 57. 57 Vertica 取り扱うデータ 既存業務 大規模 データ増大量一定
  58. 58. 58 Redshift 取り扱うデータ 新規業務 中規模 データ増大量可変
  59. 59. 59 Redshift 三ヶ月運用後
  60. 60. 60 課題発生
  61. 61. 61 Redshift 課題 データ増大と BI自動生成クエリによる レスポンス遅延
  62. 62. 62 Redshift 課題 CPU 処理能力頭打ち スケールアウトより スケールアップ要求
  63. 63. 63 Redshift 課題 ノードタイプ選択 自由度低い コスト見合い悪い
  64. 64. 64 BiqQuery 現状確認
  65. 65. 65 GCP BigQuery 不採用(2015 年6月時点) LegacySQLのみ 占有リソースなし アップロード回線帯域
  66. 66. 66 GCP BigQuery 現状(2016 年11月時点) StandardSQL サポート 占有リソース有料OP FASTER Cable System
  67. 67. 67 POC
  68. 68. 68 実証構成(2016 年11月〜 )
  69. 69. 69 BigQuery 取り扱うデータ Redshift 同等 新規業務 中規模 データ増大量可変
  70. 70. 70 実証 結果
  71. 71. 71 BigQuery 採用 時間的導入コスト低 SQL 翻訳コスト低 技術情報入手容易
  72. 72. 72 BigQuery 採用 BI自動生成クエリ 高速応答 運用コスト大幅減
  73. 73. 73 運用コスト 大幅減!
  74. 74. 74 Redshift 対運用コスト 1/5
  75. 75. 75 Redshift 運用終了👋
  76. 76. 76 今後の展望
  77. 77. 77 今後の展望 AWS ec2 -> GCE VM Live Migration ダウンタイム発生なし
  78. 78. 78 今後の展望 中間処理は Cloud Pub/Sub ES on GCE Cloud DataProc
  79. 79. 79 Hadoop 運用終了
  80. 80. 80 Vertica 運用終了
  81. 81. 81 運用業務 最低限
  82. 82. 82 情報検索エンジン 磨き上げ 専念
  83. 83. 83 まとめ マルチクラウドは適材適所 導入コストの障壁が低い サービスは見極めを POC 重要
  84. 84. 84 ご清聴 ありがとうござい ました
  85. 85. 85 宣伝
  86. 86. 86 Supership Search Solution 検索ソリューション ASP 提供中 検索エンジン サジェスト機能 スペラー機能 分析基盤提供
  87. 87. 87 人材募集中

×