Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
Uploaded by
Rakuten Group, Inc.
759 views
大規模なリアルタイム監視の導入と展開
Rakuten Developer Meetup vol.03 大規模クラウドの仕組みと秘密 https://rakuten.connpass.com/event/254762/
Technology
◦
Read more
1
Save
Share
Embed
Embed presentation
1
/ 18
2
/ 18
3
/ 18
4
/ 18
5
/ 18
6
/ 18
7
/ 18
8
/ 18
9
/ 18
10
/ 18
11
/ 18
12
/ 18
13
/ 18
14
/ 18
15
/ 18
16
/ 18
17
/ 18
18
/ 18
More Related Content
PDF
楽天のインフラ事情 2022
by
Rakuten Group, Inc.
PDF
Snowflake Architecture and Performance
by
Mineaki Motohashi
PDF
シリコンバレーの「何が」凄いのか
by
Atsushi Nakada
PDF
Travel & Leisure Platform Department's tech info
by
Rakuten Group, Inc.
PPTX
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
by
NTT DATA Technology & Innovation
PPTX
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
by
NTT DATA Technology & Innovation
PDF
楽天における大規模データベースの運用
by
Rakuten Group, Inc.
PDF
マイクロサービス 4つの分割アプローチ
by
増田 亨
楽天のインフラ事情 2022
by
Rakuten Group, Inc.
Snowflake Architecture and Performance
by
Mineaki Motohashi
シリコンバレーの「何が」凄いのか
by
Atsushi Nakada
Travel & Leisure Platform Department's tech info
by
Rakuten Group, Inc.
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
by
NTT DATA Technology & Innovation
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
by
NTT DATA Technology & Innovation
楽天における大規模データベースの運用
by
Rakuten Group, Inc.
マイクロサービス 4つの分割アプローチ
by
増田 亨
What's hot
PDF
運用してわかったLookerの本質的メリット : Data Engineering Study #8
by
Masatoshi Abe
PPTX
リクルートを支える横断データ基盤と機械学習の適用事例
by
Tetsutaro Watanabe
PPTX
kubernetes初心者がKnative Lambda Runtime触ってみた(Kubernetes Novice Tokyo #13 発表資料)
by
NTT DATA Technology & Innovation
PDF
3分でわかるAzureでのService Principal
by
Toru Makabe
PPTX
Python に行く前に Excel で学ぶデータ分析のいろは
by
Daiyu Hatakeyama
PDF
社内エンジニアを支えるテクニカルアカウントマネージャー
by
Rakuten Group, Inc.
PPTX
技術者として抑えておきたい Power BI アーキテクチャ
by
Yugo Shimizu
PDF
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善
by
Ito Takayuki
PDF
JaSST Tokyo 2022 アジャイルソフトウェア開発への統計的品質管理の応用
by
Akinori SAKATA
PDF
機械学習モデルのサービングとは?
by
Sho Tanaka
PDF
解説!30分で分かるLEAN ANALYTICS
by
しくみ製作所
PDF
楽天サービスとインフラ部隊
by
Rakuten Group, Inc.
PPTX
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
by
Shota Shinogi
PPTX
データ収集の基本と「JapanTaxi」アプリにおける実践例
by
Tetsutaro Watanabe
PPTX
WayOfNoTrouble.pptx
by
Daisuke Yamazaki
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
by
NTT DATA OSS Professional Services
PDF
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
by
Toru Makabe
PDF
SQL大量発行処理をいかにして高速化するか
by
Shogo Wakayama
PDF
ストリーム処理を支えるキューイングシステムの選び方
by
Yoshiyasu SAEKI
PDF
ビジネスパーソンのためのDX入門講座エッセンス版
by
Tokoroten Nakayama
運用してわかったLookerの本質的メリット : Data Engineering Study #8
by
Masatoshi Abe
リクルートを支える横断データ基盤と機械学習の適用事例
by
Tetsutaro Watanabe
kubernetes初心者がKnative Lambda Runtime触ってみた(Kubernetes Novice Tokyo #13 発表資料)
by
NTT DATA Technology & Innovation
3分でわかるAzureでのService Principal
by
Toru Makabe
Python に行く前に Excel で学ぶデータ分析のいろは
by
Daiyu Hatakeyama
社内エンジニアを支えるテクニカルアカウントマネージャー
by
Rakuten Group, Inc.
技術者として抑えておきたい Power BI アーキテクチャ
by
Yugo Shimizu
CircleCIのinfrastructureを支えるTerraformのCI/CDパイプラインの改善
by
Ito Takayuki
JaSST Tokyo 2022 アジャイルソフトウェア開発への統計的品質管理の応用
by
Akinori SAKATA
機械学習モデルのサービングとは?
by
Sho Tanaka
解説!30分で分かるLEAN ANALYTICS
by
しくみ製作所
楽天サービスとインフラ部隊
by
Rakuten Group, Inc.
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
by
Shota Shinogi
データ収集の基本と「JapanTaxi」アプリにおける実践例
by
Tetsutaro Watanabe
WayOfNoTrouble.pptx
by
Daisuke Yamazaki
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
by
NTT DATA OSS Professional Services
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
by
Toru Makabe
SQL大量発行処理をいかにして高速化するか
by
Shogo Wakayama
ストリーム処理を支えるキューイングシステムの選び方
by
Yoshiyasu SAEKI
ビジネスパーソンのためのDX入門講座エッセンス版
by
Tokoroten Nakayama
Similar to 大規模なリアルタイム監視の導入と展開
PDF
Sum awsloft tko-iotloft-10-lt4-may-2020
by
Amazon Web Services Japan
PDF
需要と生産をつなぐCpsのinnovation 14 sep2016 pub
by
YamashitaKatsushi
PDF
Lt4 aws@loft #11 aws io-t for smart building
by
Amazon Web Services Japan
PDF
モニタリングプラットフォーム開発の裏側
by
Rakuten Group, Inc.
PDF
Let's_Start_IoT_with_AWS
by
Takashi Koyanagawa
PDF
AWSマネージドサービスをフル活用したヘルスケアIoTプラットフォーム
by
Hiroki Takeda
PDF
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
by
Amazon Web Services Japan
PDF
【STech I USA】2026.1.28 FYUZ 2025 in Dublin フィードバックウェビナー
by
Sojitz Tech-Innovation USA
PDF
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
by
Amazon Web Services Japan
PDF
MPLS_JAPAN_2013_IDCF
by
IDC Frontier
PDF
【HinemosWorld2014】A1-5_01_大企業のシステム基盤として利用されるAWSの運用監視の重要性を考える
by
Hinemos
PDF
IoT@Loft#20 - IoTプラットフォームを進化さ せるAWSの活用方法
by
Amazon Web Services Japan
PDF
[AWS Summit 2012] クラウドデザインパターン#6 CDP クラウド監視編
by
Amazon Web Services Japan
PDF
Micrometer/Prometheusによる大規模システムモニタリング #jsug #sf_26
by
Yahoo!デベロッパーネットワーク
PDF
YakoCloud presen 141213
by
知礼 八子
PDF
Cloudera Manager4.0とNameNode-HAセミナー資料
by
Cloudera Japan
PPTX
2016-ShowNetステージ-モニタリング
by
Interop Tokyo ShowNet NOC Team
PDF
Node-REDをIoTビジネスに適用するために苦労した3つの話
by
Tomohiro Nakajima
PDF
八子Opening IoT trend_151114
by
知礼 八子
PDF
クラウドがもたらすイノベーションプラットフォームとは
by
Atsuro Nakahashi
Sum awsloft tko-iotloft-10-lt4-may-2020
by
Amazon Web Services Japan
需要と生産をつなぐCpsのinnovation 14 sep2016 pub
by
YamashitaKatsushi
Lt4 aws@loft #11 aws io-t for smart building
by
Amazon Web Services Japan
モニタリングプラットフォーム開発の裏側
by
Rakuten Group, Inc.
Let's_Start_IoT_with_AWS
by
Takashi Koyanagawa
AWSマネージドサービスをフル活用したヘルスケアIoTプラットフォーム
by
Hiroki Takeda
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
by
Amazon Web Services Japan
【STech I USA】2026.1.28 FYUZ 2025 in Dublin フィードバックウェビナー
by
Sojitz Tech-Innovation USA
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
by
Amazon Web Services Japan
MPLS_JAPAN_2013_IDCF
by
IDC Frontier
【HinemosWorld2014】A1-5_01_大企業のシステム基盤として利用されるAWSの運用監視の重要性を考える
by
Hinemos
IoT@Loft#20 - IoTプラットフォームを進化さ せるAWSの活用方法
by
Amazon Web Services Japan
[AWS Summit 2012] クラウドデザインパターン#6 CDP クラウド監視編
by
Amazon Web Services Japan
Micrometer/Prometheusによる大規模システムモニタリング #jsug #sf_26
by
Yahoo!デベロッパーネットワーク
YakoCloud presen 141213
by
知礼 八子
Cloudera Manager4.0とNameNode-HAセミナー資料
by
Cloudera Japan
2016-ShowNetステージ-モニタリング
by
Interop Tokyo ShowNet NOC Team
Node-REDをIoTビジネスに適用するために苦労した3つの話
by
Tomohiro Nakajima
八子Opening IoT trend_151114
by
知礼 八子
クラウドがもたらすイノベーションプラットフォームとは
by
Atsuro Nakahashi
More from Rakuten Group, Inc.
PDF
EPSS (Exploit Prediction Scoring System)モニタリングツールの開発
by
Rakuten Group, Inc.
PPTX
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
by
Rakuten Group, Inc.
PDF
楽天における安全な秘匿情報管理への道のり
by
Rakuten Group, Inc.
PDF
What Makes Software Green?
by
Rakuten Group, Inc.
PDF
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...
by
Rakuten Group, Inc.
PDF
DataSkillCultureを浸透させる楽天の取り組み
by
Rakuten Group, Inc.
PDF
楽天サービスを支えるネットワークインフラストラクチャー
by
Rakuten Group, Inc.
PDF
楽天の規模とクラウドプラットフォーム統括部の役割
by
Rakuten Group, Inc.
PDF
Rakuten Services and Infrastructure Team.pdf
by
Rakuten Group, Inc.
PDF
The Data Platform Administration Handling the 100 PB.pdf
by
Rakuten Group, Inc.
PDF
Supporting Internal Customers as Technical Account Managers.pdf
by
Rakuten Group, Inc.
PDF
Making Cloud Native CI_CD Services.pdf
by
Rakuten Group, Inc.
PDF
How We Defined Our Own Cloud.pdf
by
Rakuten Group, Inc.
PDF
Travel & Leisure Platform Department's tech info
by
Rakuten Group, Inc.
PDF
OWASPTop10_Introduction
by
Rakuten Group, Inc.
PDF
Introduction of GORA API Group technology
by
Rakuten Group, Inc.
PDF
100PBを越えるデータプラットフォームの実情
by
Rakuten Group, Inc.
PDF
Rakuten Platform
by
Rakuten Group, Inc.
PDF
Kafka & Hadoop in Rakuten
by
Rakuten Group, Inc.
PDF
Unclouding Container Challenges
by
Rakuten Group, Inc.
EPSS (Exploit Prediction Scoring System)モニタリングツールの開発
by
Rakuten Group, Inc.
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
by
Rakuten Group, Inc.
楽天における安全な秘匿情報管理への道のり
by
Rakuten Group, Inc.
What Makes Software Green?
by
Rakuten Group, Inc.
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...
by
Rakuten Group, Inc.
DataSkillCultureを浸透させる楽天の取り組み
by
Rakuten Group, Inc.
楽天サービスを支えるネットワークインフラストラクチャー
by
Rakuten Group, Inc.
楽天の規模とクラウドプラットフォーム統括部の役割
by
Rakuten Group, Inc.
Rakuten Services and Infrastructure Team.pdf
by
Rakuten Group, Inc.
The Data Platform Administration Handling the 100 PB.pdf
by
Rakuten Group, Inc.
Supporting Internal Customers as Technical Account Managers.pdf
by
Rakuten Group, Inc.
Making Cloud Native CI_CD Services.pdf
by
Rakuten Group, Inc.
How We Defined Our Own Cloud.pdf
by
Rakuten Group, Inc.
Travel & Leisure Platform Department's tech info
by
Rakuten Group, Inc.
OWASPTop10_Introduction
by
Rakuten Group, Inc.
Introduction of GORA API Group technology
by
Rakuten Group, Inc.
100PBを越えるデータプラットフォームの実情
by
Rakuten Group, Inc.
Rakuten Platform
by
Rakuten Group, Inc.
Kafka & Hadoop in Rakuten
by
Rakuten Group, Inc.
Unclouding Container Challenges
by
Rakuten Group, Inc.
大規模なリアルタイム監視の導入と展開
1.
大規模なリアルタイム監視の導入と展開 Sep. 29th ,
2022 Wei He User Support Section Cloud Platform Enablement Department Rakuten Group, Inc.
2.
2 About Me 2016年 新卒入社
インフラエンジニア サーバーの構築、仕様の標準化や自動化に取り組んでいる TAMとしては、楽天市場、楽天ブックス、楽天Car等を担当 好きな言語はGo 趣味は登山と写真撮影 Wei He ( ギ・ヘ ) ユーザーサポート課 テクニカルアカウントマネジメントグループ
3.
3 TAMの仕事内容 インフラを利用する上でのPoint of Contact サービス開発者 こういうことを実現したい この機能をこう使いましょう こういうアーキテクチャにしましょう 必要に応じてエスカレーション 監視 課題発見 対策 試験
地道な改善を繰り返す サービスのシステム改善 TAM インフラ開発者 ときにはツールやシステムも作成も行う
4.
4 CONTENTS 1. 新しいメトリクス監視システムの実現 2. 社内デファクトスタンダードへの展開
5.
5 CONTENTS 1. 新しいメトリクス監視システムの実現 2. 社内デファクトスタンダードへの展開
6.
6 従来のメトリクス監視システムと課題 従来のメトリクス監視システム • Ruby による内製 •
SNMP を通してメトリクスを収集 • RRD Tool で NAS にメトリクスを保存 • メトリクス保存期間は2年 課 題 • メトリクス収集が Ruby の内製プログラムのため、 拡張が困難で、監視対象がOSと一部のミドルウェア に限定されている • メトリクスの間隔が5分に1回で、リアルタイムの データがとれない • 監視システムの開発後に利用しはじめた Kubernetesに非対応 • 監視情報に欠損が出てしまうことがある 監視システム 可視化層 データ層 収集層 監視対象
7.
7 • CNCF (Cloud
Native Computing Foundation )のCortex を採用 • マルチテナント対応 • 長期間保存 • クラスタリングによる高可用性と水平拡張性 新しいメトリクス監視システムのアーキテクチャ • サーバーやKubernetesのpodに各種の Prometheus Exporterを起動 • メトリクスを公開 • Prometheus を採用 • サーバーやKubernetesのメトリクスを収集 • TSDB(Time-series Database)に書き込み - Remote writeを利用 • Grafanaを採用 • TSDB (Time-series Database)からメトリクスを取得 従来のシステムの課題を解決できるPrometheusを中心に設計 監視システム 可視化層 データ層 収集層 監視対象
8.
8 新しいメトリクス監視システムでの工夫 1. 各サーバーに適切なexporterを 簡単にインストールさせる 2. 障害耐性を高める
9.
9 1. 各サーバーに適切なexporterを簡単にインストールさせる 背 景
既存も含む大量のサーバーに適切なexporterを定めインストールするのは不可能 • Node exporterなら問答無用にインストールできるが、OS領域でしか使えない • 各種のミドルウェアのexporterのインストールに毎回人の判断が必要 どの環境でも問答無用にインストールでき、 90%以上のユースケースを満たすexporterを導入し、管理コストを削減する https://www.netdata.cloud/ • OSSの分散リアルタイム監視システムNETDATAを導入 • OS及び各種のミドルウェアを自動で監視 - ミドルウェアはすべて自動検知 - サーバー別の設定は不要 - 1時間内の1秒単位のメトリクスを収集 • Prometheusと連携可能 • 導入が簡単 目 的 手 段
10.
10 Netdataのミドルウェアの自動検知 jobs: - name: local url:
http://localhost/server-status - name: local url: http://localhost/nginx-status 自動検知の仕組み • 可能性のあるパターンを全て設定ファイルに記述 • 一般的なパターンは事前定義済み • 一致したパターンのみメトリクスを収集 パターン設定の例:Nginx の status 監視 • いずれかのURLがnginxのstatusを返せば、 nginxを検出し監視 • 全部返せない場合はnginxが動作していないとみなす ⇒ 標準が異なるサーバーも同じ設定で監視可能
11.
11 2. 障害耐性を高める 監視システムが依存している他のシステムが落ちると監視システムも落ちる 背 景 依存している他のシステムが一部落ちた時でも、最低限の監視を可能にする 手
段 Prometheus+Thanosを採用 目 的 https://prometheus.io/ https://thanos.io/
12.
12 障害耐性の実現方法 (1/2) • マルチテナント対応 •
大量のデータの保存 • 長期間保存 • Cache によるクエリの高速化 • クラスタリングによる 高可用性と水平拡張性を実現 • システムが複雑 1. ) コンポーネントが多数 2. ) 外部依存が多数 - Kubernetes, object storage, load balancer, etc. 監視システムは Cortex が落ちても最低限の動作の保証が必要 Cortexの利点 Cortexの課題 通常利用時 Cortexにアクセス Server Server
13.
13 通常利用時 Cortexにアクセス Server Server ②障害耐性の実現方法 (2/2) • Prometheus
の local storage を利用 - Cortexがなくても短期間のメトリクスはアクセス可能 • Thanosを利用 - 複数の Prometheus を跨ってクエリ - Object Storageの機能は不使用 LBも障害時にサーバー に直接アクセス Cortexが障害時に アクセス 収集層は Prometheus + Thanos
14.
14 CONTENTS 1. 新しいメトリクス監視システムの実現 2. 社内デファクトスタンダードへの展開
15.
15 社内への展開 監視システム データの間隔 保存期間
利用の場合 従来のシステム 5分 2年 長期の傾向を把握したい時 新規のシステム 15秒 14日 通常の監視時 Netdata※ 1秒 1時間 リアルタイムの情報が必要な時 いきなり全て置き換えると抵抗がある人たちもいるので、 PoCを実施しながら、少しずつ導入。 従来のシステムとの違いを活かし共存を目指した。 3つのシステムの違い ※Netdataは新規のシステムの一部
16.
16 小規模からデファクトスタンダードへ ① 小規模サービスへ導入 POCをして小さいサービスから導入。 フィードバックを元にシステムを改善。 ② 中規模サービスへの導入 機能性と利便性が高く評価され、利用希望者が増加。 徐々に中規模サービスにも導入。 ③
デファクトスタンダード化 口コミが社内で広がり、利用希望者がさらに増加。 全サービスに導入。 ① ② ③ 小規模導入 中規模導入 デファクト スタンダードへ
17.
17 まとめ 社内デファクトスタンダードへの展開 新しいメトリクス監視システムの開発 • 既存システムと共存 • 小規模から導入し、フィードバックを元に改善 •
段階的に利用者を増やし、全社展開へ • Netdata を exporter として採用し、管理コストを削減 • Cortex と Thanos を組み合わせ、障害耐性を実現 新卒でも、課題を見つけ、解決できるシステムを 開発すれば、全社に展開することができた!!!