Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

はじめてのDatadog v2 (presented in Osaka)

936 views

Published on

02/28/2019 Datadog Meetup #2 「Datadogはじめました! in 大阪」
https://datadog.connpass.com/event/119412/

Published in: Technology
  • Be the first to comment

  • Be the first to like this

はじめてのDatadog v2 (presented in Osaka)

  1. 1. 池山 邦彦 | Kunihiko Ikeyama Sales Engineer, Datadog kunihiko.ikeyama@datadog.com はじめてのDatadog Datadog Meetup #2 - Datadogはじめました in 大阪 #datadogJP
  2. 2. Who am I ? 池山 邦彦(いけやま くにひこ) Sales Engineer, Datadog 2018年11月 Datadog入社 職務: プリセールスのエンジニアとして、モニタリングの素晴らしさを世に 伝える仕事に従事 なぜDatadogに入社したのか? - Datadog使いやすくて面白い! - 思ったより色んなことできて奥が深い - 犬のロゴかわいい
  3. 3. Datadogってナニ?
  4. 4. リアルタイムの パフォーマンス 可視化 What is Datadog クラウド時代の開発者&運用担当者のためのモニタリング&分析SaaS 強力な アラート ダッシュボード公開や チーム間のコラボレーション 根本原因の 相関と分析 履歴の分析
  5. 5. システムの可視性における三本柱 MetricsTraces トレンドやパターンを把握 システムやミドルウェアの パフォーマンス 組み合わせや集計による分析 インシデントの調査 デバッグやトラブルシューティング イベントベース Items in Shopping Cart Logins Total Trips Ad Revenue Logs サービス間の原因特定 アプリケーションのスループット レイテンシ、エラー リクエストベース ビジネス 分析
  6. 6. レガシーなモニタリングツールではクラウド時代のスピードとペースに追いつけない プラットフォーム/サービス ユニット (VM, コンテナ, ファンクション) リリース頻度 人への投資 ごく少数の ベンダー 多数のOSSや SaaSの併用 年に1度 日に一度 Ops Dev + Ops Biz + Dev + Ops Standardized/On-Premise Diverse/SaaS Time ツールの数 インスタンス、コンテナ、 マイクロサービス等々 頻度 人へのニーズ 分散集中 Waterfall Agile IntegratedSilo’d Time Time
  7. 7. インフラ アーキテクチャ 開発サイクル スタック 関係者 モニタリング 集約 モノリス ウォーターフォール 標準化されたオンプレの ベンダーソフトウェ インフラ(管理者) 開発(参加者) 次世代 分散 マイクロサービス アジャイル 多種多様で導入しやすい OSSや SaaSコンポーネント 複数のインフラ・開発チーム レガシー
  8. 8. なぜモニタリング?
  9. 9. サービスダウンに伴う機会損失 サービスのSLOは? 99.9% → 年間8.76時間のダウンまで許容 99.99% → 年間0.876時間のダウンまで許容 1時間のサービスダウンで発生する機会損失額は? 100万ドル(約1億円) / 時間 の場合… 3時間のダウンでサラリーマンの生涯所得を上回る 3分間のダウンで5万ドルの損失 = 社員1人の年収 復旧にかかる平均回復時間(MTTR)は? 失われるのはお金だけ? - 社会的信用 - 顧客満足度 - リピート率 The Cost of Downtime for the Top US Ecommerce Sites https://www.gremlin.com/ecommerce-cost-of-downtime/ サービス稼働を可視化してコントロールすること 復旧を早めてリスクを最小化すること
  10. 10. Why Datadog 250以上のインテグレーション チームを跨いだコラボレーション セルフサービス、OOTB、Fast Time to Value メトリクス、イベント、 APM、ログの相関 機械学習を含むスケーラブルなプラットフォーム
  11. 11. クラウド時代のモニタリング そのポイントは?
  12. 12. ではなく Cattle, not pets ペット 家畜
  13. 13. Tag(タグ) メトリクスに付帯 key:value 形式で1個のメトリックに複数の タグを付与することが可能 フィルタリング/グルーピング サーバーやVM、コンテナをロール、データ センター、ゾーンごとに分析可能に カスタマイズ可能 エージェント設定ファイル、 UI、インテグレーション 等々、自身でタグの付与が可能 タグごとのモニタリング・分析
  14. 14. モニタリングのポイント モニタリング対象について考えてみよう ワークメトリクス リソースメトリクス イベント APM ログ
  15. 15. モニタリングのポイント モニタリング対象について考えてみよう ワークメトリクス リソースメトリクス イベント APM ログ スループット(throughput) 単位時間あたりの処理量(通常は絶対値で表現される) 例)秒間HTTPリクエスト数/秒間DBクエリー数 成功(success) 成功した処理のパーセンテージ 例)HTTPステータス2xxの割合/成功したDBクエリーの割合 失敗(error) 失敗した処理のパーセンテージ 例)HTTPステータス5xxの割合/例外処理が発生したクエリーの割合 パフォーマンス(performance) 処理が完了するまでに要する時間といった効率 例)99%のリクエストが0.1秒以内にレスポンスされる/   クエリー時間の90パーセンタイル値
  16. 16. モニタリングのポイント モニタリング対象について考えてみよう ワークメトリクス リソースメトリクス イベント APM ログ 使用率(utilization) リソースがビジー状態になる時間の割合、もしくは、 リソースが使用されているキャパシティの割合 例)ビジー状態のディスクI/Oの時間%/合計メモリに対する使用% 飽和度(saturation) 処理しきれないリクエスト量 例)メモリのスワップ量/キューに溜まっているDBクエリー数 失敗(error) 処理そのものからは見えない内部エラー 例)ディスクデバイスエラー数/DBレプリケーションエラー数 可用性(availability) リソースがリクエストに応答可能な状態となっている時間の割合 定期的にチェックされている場合のみ観測可能 例)ディスク読み書き可能な時間%/DBにアクセス可能な時間%
  17. 17. モニタリングのポイント モニタリング対象について考えてみよう ワークメトリクス リソースメトリクス イベント APM ログ メトリクスとは別にシステムの変更といった重要な通知を イベントとして記録する 頻度としてはメトリクスほどではないが原因究明につながる 情報を含むことがある 変更(changes) コード変更のリリースやビルド、パッチ適用 等々 アラート(alerts) 生成されたアラートや3rd Party製品の通知 スケーリング(scaling events) サーバーやコンテナの追加/停止
  18. 18. モニタリングのポイント モニタリング対象について考えてみよう ワークメトリクス リソースメトリクス イベント APM ログ アプリケーション開発とインフラ運用の統合 DevOpsのチーム体制やインフラの変化(オートスケール、マイクロ サービス、コンテナ化)に伴いフルスタックでのモニタリングが必要と なった - アプリケーションのスループット、エラー、レイテンシ - トランザクションのトレーサビリティ - サービスマップ
  19. 19. 詳細な原因や傾向を分析 アプリケーションのデバッグ情報やシステムの挙動を記録したログを、 メトリクスやトレース情報と相関付けることで原因の検索/分析ワーク フローを簡素化 アプリケーショントレース との相関 ログパターン分析 モニタリングのポイント モニタリング対象について考えてみよう ワークメトリクス リソースメトリクス イベント APM ログ
  20. 20. Synthetics - 外形監視 サービスを外側から監視 複数の拠点から任意のサイトや APIエンドポイントに HTTP(S)リクエストを送信して監視 クライテリアとしてステータスコード、レスポンス時間、 ヘッダ等の指定が可能 モニター対象として通知したり、稼働状況をダッシュ ボードで可視化することが可能 プライベートベータ( 2019年2月現在)
  21. 21. Uptime Widget
  22. 22. Demo
  23. 23. 3月15日(木) Cloud Native Kansai #02 https://cnjp.connpass.com/event/117651/ 3月20日(水) Datadog CTO来日講演 w/AWS(仮) 4月9日(火)、10日(水) DevOps Days Tokyo 2019 4月16日(火) Cloud Native Days Fukuoka 4月25日(火) Cloud Native Sapporo #02 https://cnjp.connpass.com/event/119068/ 告知
  24. 24. アンケートへのご協力お願いします 今後のMeetup運営やコンテンツの 改善に向けてご意見ください
  25. 25. Now Hiring <Sales & Engineers and other> 現在、Dataogで働く仲間を募集中です 募集職種や募集要項など、話を聞いてみたいと 思われたらお気軽に下記までご連絡ください! Datadog 採用担当 email: erika.fujiwara@datadoghq.com HP: https://www.datadoghq.com/careers/
  26. 26. Let’s explore monitoring in the cloud age
  27. 27. Thank you

×