Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
RedshiftはDWHだけじゃない
- 導入したいけど高いとお思いのあなたへ -
星野 豊 (@con_mame)
クックパッド株式会社 インフラストラクチャー部
AWS / MySQL / DataStore etc...
http://d.conma.me/
http://facebook.com/conmame
BIG DATA
世はまさにビッグデータ
ログ
アクセスログ
行動ログ
購入・決済ログ
クリック・動線
ビッグデータ
DWH / BI tool
DWH
数千万∼数億
(  ゚д゚)  ・・・  
    
(つд⊂)ゴシゴシ  
    
(;゚д゚)  ・・・  
    
(つд⊂)ゴシゴシゴシ  
    _̲,  ._̲  
(;゚  Д゚)  …!?
    ∧_̲∧  
⊂(#・ω・)  置き場所が無い!  
  /      ノ∪  
  し―-‐‑‒J  |l|  |  
                  ⼈人ペシッ!!  
              __  
         ...
何より...
    ∧_̲∧  
⊂(#・ω・)  ⾼高い!  
  /      ノ∪  
  し―-‐‑‒J  |l|  |  
                  ⼈人ペシッ!!  
              __  
             ...
Redshift
Redshift?
Redshift?
データウェアハウス
フルマネージド
拡張性が高い
数TB∼数PB
カラムナ型
リーズナブル?
データ保全性が高い(マルチノードなら)
複数ノードでデータ冗長保持
S3へのSnapshotバック・アップ
Price
1Y RI
3Y RI
XL: 90,000 / 1,080,000
8XL: 720,000 / 8,640,000
1node type: month / year (円)
XL: 54,366 / 652,399
8XL: 434,933 / 5,219,199...
まだ高い…
1クラスタを複数の用途で
一緒に使えばいいのでは?
DWHだけじゃない使い方
ユーザ動向
検索ワード動向
監査
データarchive
サポート
developer
more user
ユーザ動向
検索ワード動向
監査
データarchive
サポート
developer
more user
ユーザ属性変更
行動ログ
etc...
他データストアから
(後々データ解析で使用で
きる可能性のあるもの)
app app app
fluent
proxy
fluent
proxy
manage
Separate audit from general logs
Development DB
Audit DB
Service log DB
Data archive DB
Development DB
Audit DB
Service log DB
Data archive DB
共用
部署A
部署B
部署C
部署ごとにクラスタ料金を
分割出来る
Work Load Management
Redshiftへのクエリはキューごとに管理される
キュー毎に並列度が設定されている
defaultでは1つのキュー・5並列
並列度を超えた場合は先行クエリが終わるのを待つ
キューの識別
ユーザ
クエリグループ
サーバリソースは全てのキューで共有
最優先
アプリケーションから発行されるクエリ
並列度高め
優先度低
バッチなどから発行されある程度時間がかかってい
いもの
どうにもこうにも時間内に収まらない場合はクラス
タサイズアップも検討
最低
開発用
こう使うと
コネクション沢山はってしまう
今は増やせません 同時96 connectionまで…
とてつもなく重いクエリ流しちゃった… psqlでも繋げな
い…
Management Consoleからクエリ killできません
実行が終わるの...
こう使うと
コネクション沢山はってしまう
今は増やせません 同時96 connectionまで…
とてつもなく重いクエリ流しちゃった… psqlでも繋げな
い…
Management Consoleからクエリ killできません
実行が終わるの...
Conclusion
1用途で高い!と思ったら
動向調査などの普通のDWH以外の使い方も考えてみる
用途が広がればノード代金をシェア出来る
(クラスタサイズupも出来るかも)
しっかりパフォーマンス測定をして
必要十分を用意する
WLMをしっかり考える
Thank you!!
Upcoming SlideShare
Loading in …5
×

RedshiftはDWHだけじゃない

JAWS Festa Kansai2013のLTで発表した資料です。
Redshiftは高い買い物ですが、DHW意外の使い方もありますよという話。

  • Login to see the comments

RedshiftはDWHだけじゃない

  1. 1. RedshiftはDWHだけじゃない - 導入したいけど高いとお思いのあなたへ -
  2. 2. 星野 豊 (@con_mame) クックパッド株式会社 インフラストラクチャー部 AWS / MySQL / DataStore etc... http://d.conma.me/ http://facebook.com/conmame
  3. 3. BIG DATA
  4. 4. 世はまさにビッグデータ ログ アクセスログ 行動ログ 購入・決済ログ クリック・動線
  5. 5. ビッグデータ
  6. 6. DWH / BI tool
  7. 7. DWH
  8. 8. 数千万∼数億
  9. 9. (  ゚д゚)  ・・・        (つд⊂)ゴシゴシ        (;゚д゚)  ・・・        (つд⊂)ゴシゴシゴシ       _̲,  ._̲   (;゚  Д゚)  …!?
  10. 10.     ∧_̲∧   ⊂(#・ω・)  置き場所が無い!     /      ノ∪     し―-‐‑‒J  |l|  |                     ⼈人ペシッ!!                 __                 \    \                      ̄ ̄
  11. 11. 何より...
  12. 12.     ∧_̲∧   ⊂(#・ω・)  ⾼高い!     /      ノ∪     し―-‐‑‒J  |l|  |                     ⼈人ペシッ!!                 __                 \    \                      ̄ ̄
  13. 13. Redshift
  14. 14. Redshift?
  15. 15. Redshift? データウェアハウス フルマネージド 拡張性が高い 数TB∼数PB カラムナ型 リーズナブル? データ保全性が高い(マルチノードなら) 複数ノードでデータ冗長保持 S3へのSnapshotバック・アップ
  16. 16. Price
  17. 17. 1Y RI 3Y RI
  18. 18. XL: 90,000 / 1,080,000 8XL: 720,000 / 8,640,000 1node type: month / year (円) XL: 54,366 / 652,399 8XL: 434,933 / 5,219,199 XL: 32,711 / 392,533 8XL: 261,688 / 3,140,266 1Y RI 3Y RI
  19. 19. まだ高い…
  20. 20. 1クラスタを複数の用途で 一緒に使えばいいのでは?
  21. 21. DWHだけじゃない使い方
  22. 22. ユーザ動向 検索ワード動向 監査 データarchive サポート developer more user
  23. 23. ユーザ動向 検索ワード動向 監査 データarchive サポート developer more user ユーザ属性変更 行動ログ etc... 他データストアから (後々データ解析で使用で きる可能性のあるもの)
  24. 24. app app app fluent proxy fluent proxy manage Separate audit from general logs
  25. 25. Development DB Audit DB Service log DB Data archive DB
  26. 26. Development DB Audit DB Service log DB Data archive DB 共用 部署A 部署B 部署C
  27. 27. 部署ごとにクラスタ料金を 分割出来る
  28. 28. Work Load Management
  29. 29. Redshiftへのクエリはキューごとに管理される キュー毎に並列度が設定されている defaultでは1つのキュー・5並列 並列度を超えた場合は先行クエリが終わるのを待つ キューの識別 ユーザ クエリグループ サーバリソースは全てのキューで共有
  30. 30. 最優先 アプリケーションから発行されるクエリ 並列度高め 優先度低 バッチなどから発行されある程度時間がかかってい いもの どうにもこうにも時間内に収まらない場合はクラス タサイズアップも検討 最低 開発用
  31. 31. こう使うと コネクション沢山はってしまう 今は増やせません 同時96 connectionまで… とてつもなく重いクエリ流しちゃった… psqlでも繋げな い… Management Consoleからクエリ killできません 実行が終わるのを待つかtimeoutを適切に HWリソースもクエリ毎に重み付けしたい 今は出来ません…並列度をうまいことやりくりします
  32. 32. こう使うと コネクション沢山はってしまう 今は増やせません 同時96 connectionまで… とてつもなく重いクエリ流しちゃった… psqlでも繋げな い… Management Consoleからクエリ killできません 実行が終わるのを待つかtimeoutを適切に HWリソースもクエリ毎に重み付けしたい 今は出来ません…並列度をうまいことやりくりします 実現お待ちしております!!!
  33. 33. Conclusion
  34. 34. 1用途で高い!と思ったら 動向調査などの普通のDWH以外の使い方も考えてみる 用途が広がればノード代金をシェア出来る (クラスタサイズupも出来るかも) しっかりパフォーマンス測定をして 必要十分を用意する WLMをしっかり考える
  35. 35. Thank you!!

×