Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ログ基盤をGDPで運用してIQを下げたい話(Supership 古谷遼)

1,119 views

Published on

データ分析をテーマにした南青山発信のエンジニア向け勉強会 Minami Aoyama Night #4(20170915)にてSupership Search Solution (S4) の開発メンバー Supership 古谷遼が登壇した内容のスライドです。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

ログ基盤をGDPで運用してIQを下げたい話(Supership 古谷遼)

  1. 1. ログ基盤を GCPで運⽤して IQを下げたい話 古⾕ 遼
  2. 2. 2 アジェンダ •⾃⼰紹介 •ログ基盤の刷新の話 •新基盤の嬉しい話 •ちょっとだけ⾟い話
  3. 3. 3 ⾃⼰紹介 •古⾕ 遼(ふるたに りょう) •Supership株式会社 •検索開発グループ •Backend Team •ペーペー
  4. 4. 4 この発表の位置付け Minami Aoyama Night Vol.1の 詳細版です https://www.slideshare.net/secret/qOs2jFncsL2ig2
  5. 5. 5 IQ 🤔??? •運⽤・活⽤難易度 = IQ •運⽤・活⽤が難しい (=IQ⾼い)システムはダメ •運⽤・活⽤が簡単な (=IQ低い)システムがいい •IQ2まで下げような ← ⼤事
  6. 6. 6 本題の前に
  7. 7. 7 ごめんなさいその1 •スライド⾮公開らしいです •⼤⼈の事情 •写真のweb公開も⼀応NGで 🙇 なんかアイコンが ダメらしい
  8. 8. 8 ごめんなさいその2 😂👆😂
  9. 9. 9 ごめんなさいその2 •基盤の話です •なぜ分析事例…… 🙇
  10. 10. 10 懺悔LTかな?
  11. 11. 11 始めます •ここから本題 •よろしくお願いします 🙇
  12. 12. 12 サービス成⻑と ログ分析基盤
  13. 13. 13 絶賛成⻑中🙏🙏🙏🙏🙏 検索ソリューション ASP 提供中 検索エンジン サジェスト機能 スペラー機能 分析基盤提供https://www.s4p.jp/
  14. 14. 14 ログ分析基盤⼤事 •サービスの⽅針決定 •ログの分析からスタート •KPI •アドホック集計 •etc…
  15. 15. 15 ログ分析基盤⼤事 •サービスへフィードバック •検索サービスの場合 •検索順位チューニング •ホットワード抽出 •etc…
  16. 16. 16 ログ分析基盤⼤事 •分析基盤は頑健であれ •無停⽌運⽤ •応答速度維持 •コスト維持 •リカバリ容易 •etc…
  17. 17. 17 元気に動くログ分析基盤たち
  18. 18. 18 元気なのはええことや 😊
  19. 19. 19 平和な⽇々に 忍び寄る影
  20. 20. 20 メンテナンスや機能要件の数々 •「HDFSクラスタのディスク容量減ってるで」 •「Verticaの容量減ってるで」 •「ec2のeventでインスタンス再起動必要やで」 •「Redshiftのパフォーマンス悪いで」 •「サービス成⻑しまくってるからログの量が増えるで」 •「リアルタイムな分析の要件が増える(かもしれん)で」 •「分析DBが多すぎてどれ使えばええかわからんで」 •「Vertica死んだで」 •「Hive遅くて使いもんにならんで」 •「分析基盤もコストダウン必要やで」
  21. 21. 21 thinking time 🤔
  22. 22. 22 課題 •Hadoop •性能⾯ •Hive集計遅い •運⽤⾯ •ディスク容量との戦い •on EC2 •(実際クラスタ死にかけた)
  23. 23. 23 課題 •Vertica •性能⾯ •わりといい感じ •運⽤⾯ •容量制限あって横展開しづらい •on EC2 •(実際後に死んだ🙏)
  24. 24. 24 課題 •Redshift •性能⾯ •💵💲💰がいる🤑💸💸💸 •テーブルチューニング⼤変 •運⽤⾯ •無停⽌運⽤できない •クラスタメンテ中はクエリ打てない
  25. 25. 25 ⾦払って 運⽤頑張れ感 スケールも⾟い
  26. 26. 26 💪😂🍤 🌟TSU 🌟RA 🌟I 🌟 😂😂😂😂😂😂😂😂😂
  27. 27. 27 新基盤の予感 😎 よろしい ならばPOCだ
  28. 28. 28 新基盤を考える
  29. 29. 29 できました
  30. 30. 30 説明(ここからIQの低い話が続きます)
  31. 31. 31 環境:EC2 → GCE •環境をEC2からGCEに •VM Live Migration •リブートイベントなんてない •利⽤時間による⾃動値引き •リザーブドなんていらんかったんや •スペック調整(=コスト調整)気軽
  32. 32. 32 運⽤コスト低い 😆 _⼈⼈⼈⼈⼈⼈⼈⼈⼈_ > IQ下がる! <  ̄Y^Y^Y^Y^Y^Y ̄
  33. 33. 33 説明(ここからIQの低い話が続きます)
  34. 34. 34 分析DB:Redshift → BigQuery •分析DBはBigQueryに •⾼パフォーマンス •チューニング不要 •運⽤フリー •容量無制限 •無停⽌ •格安 ← ⼤事
  35. 35. 35 ストレージ:HDFS → GCS •永続ストレージはGCSに •運⽤フリー •容量無制限 •無停⽌
  36. 36. 36 運⽤コスト低い 🤗 _⼈⼈⼈⼈⼈⼈⼈⼈⼈_ > IQ下がる! <  ̄Y^Y^Y^Y^Y^Y ̄
  37. 37. 37 説明(ここからIQの低い話が続きます)
  38. 38. 38 Log Queue:Elasticsearchの導⼊ •ElasticsearchをQueueに •データ冗⻑化、寿命設定 •IDベースでのログの重複削除 •前段処理でのリトライしやすさ •Indexベースの絞り込み •後段処理のリトライ、分岐しやすさ
  39. 39. 39 利⽤コスト低い 😇 _⼈⼈⼈⼈⼈⼈⼈⼈⼈_ > IQ下がる! <  ̄Y^Y^Y^Y^Y^Y ̄
  40. 40. 40 結果
  41. 41. 41 ⾼IQログ基盤が
  42. 42. 42 低IQ基盤になりました
  43. 43. 43 運⽤開始
  44. 44. 44 当初の懸念 🤔
  45. 45. 45 当初の懸念 🤔 って ログ件数が跳ねても 耐えるの???
  46. 46. 46 現実 🙃 数K record/sとか 頻発しても 余裕で耐える
  47. 47. 47 ログ基盤はエコシステムになりました _⼈⼈⼈⼈⼈⼈⼈⼈⼈_ > 圧倒的安定感 💪 <  ̄Y^Y^Y^Y^Y^Y ̄
  48. 48. 48 利⽤者の声
  49. 49. 49 喜びの声 BigQueryになって BIツールの レスポンスが 爆速になった! 😀
  50. 50. 50 喜びの声 移⾏後の環境で システムトラブル ⼀度も起きてない!😀
  51. 51. 51 喜びの声 BigQueryと SpreadSheetの 連携超捗る!😀
  52. 52. 52 喜びの声 ログ分析基盤の 運⽤費⽤が ⼤幅削減!😀
  53. 53. 53 IQ下がるといいことしかないな _⼈⼈⼈⼈⼈⼈⼈⼈⼈_ > 圧倒的勝利 💪 <  ̄Y^Y^Y^Y^Y^Y ̄
  54. 54. 54 IQはきっと⼀桁まで減っただろう 😇👍
  55. 55. 55 現状 分析基盤刷新で IQ80くらいまで 下がりました!😀
  56. 56. 56 思ったよりIQ下がってない? 🤔 IQ80は ⾼くない?
  57. 57. 57 ⾟さはなくはない
  58. 58. 58 案外曲者
  59. 59. 59 ケース1 GAEでインシデントが発⽣しました。 5XX系のエラーレートが⾼まっています。 🤔わたし なるほど。 でも今はGAEを使ってないから問題ないよね。 GCP Loadタスク失敗したで。 特にアナウンスはしないけど5XX系エラー増えるで。 BQ
  60. 60. 60 GAEの⾵邪がBQにうつったとでも⾔うのだろうか _⼈⼈⼈⼈⼈⼈⼈⼈⼈_ > 圧倒的波及 <  ̄Y^Y^Y^Y^Y^Y ̄
  61. 61. 61 対策 •しばらく待って再実⾏ •⼤抵、安定するのは数時間後😢 •インシデント復旧から15分は不安定 •焦らず待つ(でも焦らされる😢) •アラート⾶びまくり
  62. 62. 62 ケース2 どんなクエリでも投げておいでや。 秒で返事するで。 🤔わたし ログからサービスのスコアデータを作ろう。 ちょっと⼤きめのクエリを投げるぞ。 すまんな…… 今腹痛いから返事せえへんで…… BQ BQ
  63. 63. 63 せめて500エラー返して _⼈⼈⼈⼈⼈⼈⼈⼈⼈_ > 圧倒的無⾔ <  ̄Y^Y^Y^Y^Y^Y ̄
  64. 64. 64 対策 •⼤抵即再実⾏でOK •タイムアウト + 再実⾏を仕込む •Quotaや課⾦に注意…😢
  65. 65. 65 要するに _⼈⼈⼈⼈⼈⼈⼈⼈⼈_ > 気まぐれさん <  ̄Y^Y^Y^Y^Y^Y ̄
  66. 66. 66 ちょっと⾟い •サービスに直結は⾟い •BQこけても⼤丈夫に作る必要性 😂
  67. 67. 67 ちなみに _⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈_ > GCSも気まぐれさん <  ̄Y^Y^Y^Y^Y^Y^Y ̄
  68. 68. 68 Why Google Cloud Platform???!!!! •マネージドサービス弱い? •AWSはここまでエラーない印象 😂
  69. 69. 69 とはいえ
  70. 70. 70 それでも楽なのは間違いない •タイムアウト + 再実⾏ •単純な⽅法で回避可能 •再実⾏だらけにはなるが…… •Queueのクッション性で耐える •基盤⾃体は安定 •特にGCEの安定感すごい
  71. 71. 71 要するに •ログ基盤の要件 (⼤体)満たせました 👍👍👍
  72. 72. 72 まとめ
  73. 73. 73 運⽤楽になりました _⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈_ > GCPでIQ下がった! <  ̄Y^Y^Y^Y^Y^Y^Y ̄ 😇
  74. 74. 74 でも本当は 😇 _⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈_ > IQもっと下げたい! <  ̄Y^Y^Y^Y^Y^Y^Y ̄
  75. 75. 75 おわりです •ご清聴ありがとうございます •IQ下げる⽅法募集中です 🙇
  76. 76. 76 宣伝枠
  77. 77. 77 宣伝枠 検索ソリューション ASP 提供中 検索エンジン サジェスト機能 スペラー機能 分析基盤提供https://www.s4p.jp/

×