Submit Search
Upload
1TB/dayのログを収集・蓄積する技術
•
Download as PPTX, PDF
•
2 likes
•
2,412 views
uchan_nos
Follow
ログの出し方やタイミングなどの「ログしぐさ」の話と,cybozu.comのインフラ環境で動くログ収集基盤のアーキテクチャの紹介を行います.
Read less
Read more
Data & Analytics
Slideshow view
Report
Share
Slideshow view
Report
Share
1 of 36
Download now
Recommended
JTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun Tzu
irix_jp
脆弱性情報はこうしてやってくる
脆弱性情報はこうしてやってくる
JPCERT Coordination Center
Career - design, adaption and diversity - for EMC I&D event
Career - design, adaption and diversity - for EMC I&D event
Miya Kohno
機械学習関連情報の収集方法
機械学習関連情報の収集方法
Isao Takaesu
20181222 Talk about Security of Pairs without Their Permission
20181222 Talk about Security of Pairs without Their Permission
Typhon 666
Csirtkit20200630
Csirtkit20200630
佐々木 訓
情シス戦線異状アリ!? 自作のパケットレコーダーで海外拠点のLANを自動監視してみた
情シス戦線異状アリ!? 自作のパケットレコーダーで海外拠点のLANを自動監視してみた
cloretsblack
脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理
脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理
Takayuki Ushida
Recommended
JTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun Tzu
irix_jp
脆弱性情報はこうしてやってくる
脆弱性情報はこうしてやってくる
JPCERT Coordination Center
Career - design, adaption and diversity - for EMC I&D event
Career - design, adaption and diversity - for EMC I&D event
Miya Kohno
機械学習関連情報の収集方法
機械学習関連情報の収集方法
Isao Takaesu
20181222 Talk about Security of Pairs without Their Permission
20181222 Talk about Security of Pairs without Their Permission
Typhon 666
Csirtkit20200630
Csirtkit20200630
佐々木 訓
情シス戦線異状アリ!? 自作のパケットレコーダーで海外拠点のLANを自動監視してみた
情シス戦線異状アリ!? 自作のパケットレコーダーで海外拠点のLANを自動監視してみた
cloretsblack
脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理
脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理
Takayuki Ushida
使ってみようPTSV
使ってみようPTSV
株式会社 システムヨシイ
Keycloak入門
Keycloak入門
Hiroyuki Wada
コロナ禍の働き方のニューノーマル~NRIの数千人のテレワークを支えたサービスとは~
コロナ禍の働き方のニューノーマル~NRIの数千人のテレワークを支えたサービスとは~
aslead
第六回コンテナ型仮想化情報交換会_LinuxContainerLivemigrationCRIU
第六回コンテナ型仮想化情報交換会_LinuxContainerLivemigrationCRIU
Kengo Okitsu
180729 jtf open-audit
180729 jtf open-audit
OSSラボ株式会社
業務時間で書いたパッチは誰のもの?OSS活動にまつわる罠 (builderscon tokyo 2018)
業務時間で書いたパッチは誰のもの?OSS活動にまつわる罠 (builderscon tokyo 2018)
uchan_nos
SIOS iQ:機械学習 I T O A VMware仮想環境の性能問題の原因分析 迅速な問題解決と未然防止を実現
SIOS iQ:機械学習 I T O A VMware仮想環境の性能問題の原因分析 迅速な問題解決と未然防止を実現
softlayerjp
2015年5月期 AITCオープンラボ 「第二回 デジタルガジェット祭り!」
2015年5月期 AITCオープンラボ 「第二回 デジタルガジェット祭り!」
aitc_jp
皆さん!ふくてんが来ましたよ!!
皆さん!ふくてんが来ましたよ!!
ru pic
12thwocs 発表資料20150120
12thwocs 発表資料20150120
Kiyoshi Ogawa
さくらのナレッジの運営から見えるもの
さくらのナレッジの運営から見えるもの
法林浩之
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
WEBFARMER. ltd.
Tokyo H2O.ai Meetup#2 by Iida
Tokyo H2O.ai Meetup#2 by Iida
Hidenori Fujioka
INF-010_そのログ、ただ集めているだけではありませんか? ~IT 運用の世界にも Big Data の活用を!~
INF-010_そのログ、ただ集めているだけではありませんか? ~IT 運用の世界にも Big Data の活用を!~
decode2016
CEDEC2021 Android iOS 実機上での自動テストをより楽に有意義にする為に ~端末管理・イメージ転送・動画記録等の周辺情報のノウハウ共有~
CEDEC2021 Android iOS 実機上での自動テストをより楽に有意義にする為に ~端末管理・イメージ転送・動画記録等の周辺情報のノウハウ共有~
SEGADevTech
loggregator update
loggregator update
Ken Ojiri
Site Reliability Engineering (SRE)を可能にするOpenPIEのご紹介
Site Reliability Engineering (SRE)を可能にするOpenPIEのご紹介
OSSラボ株式会社
【15-B-L】Spinnakerで実現するデプロイの自動化
【15-B-L】Spinnakerで実現するデプロイの自動化
Developers Summit
Ipythonを使ってみよう
Ipythonを使ってみよう
株式会社 システムヨシイ
KITEMATIC便利そうだよ
KITEMATIC便利そうだよ
Kentaro Takasaki
MikanOSと自作CPUをUSBで接続する
MikanOSと自作CPUをUSBで接続する
uchan_nos
OSを手作りするという趣味と仕事
OSを手作りするという趣味と仕事
uchan_nos
More Related Content
Similar to 1TB/dayのログを収集・蓄積する技術
使ってみようPTSV
使ってみようPTSV
株式会社 システムヨシイ
Keycloak入門
Keycloak入門
Hiroyuki Wada
コロナ禍の働き方のニューノーマル~NRIの数千人のテレワークを支えたサービスとは~
コロナ禍の働き方のニューノーマル~NRIの数千人のテレワークを支えたサービスとは~
aslead
第六回コンテナ型仮想化情報交換会_LinuxContainerLivemigrationCRIU
第六回コンテナ型仮想化情報交換会_LinuxContainerLivemigrationCRIU
Kengo Okitsu
180729 jtf open-audit
180729 jtf open-audit
OSSラボ株式会社
業務時間で書いたパッチは誰のもの?OSS活動にまつわる罠 (builderscon tokyo 2018)
業務時間で書いたパッチは誰のもの?OSS活動にまつわる罠 (builderscon tokyo 2018)
uchan_nos
SIOS iQ:機械学習 I T O A VMware仮想環境の性能問題の原因分析 迅速な問題解決と未然防止を実現
SIOS iQ:機械学習 I T O A VMware仮想環境の性能問題の原因分析 迅速な問題解決と未然防止を実現
softlayerjp
2015年5月期 AITCオープンラボ 「第二回 デジタルガジェット祭り!」
2015年5月期 AITCオープンラボ 「第二回 デジタルガジェット祭り!」
aitc_jp
皆さん!ふくてんが来ましたよ!!
皆さん!ふくてんが来ましたよ!!
ru pic
12thwocs 発表資料20150120
12thwocs 発表資料20150120
Kiyoshi Ogawa
さくらのナレッジの運営から見えるもの
さくらのナレッジの運営から見えるもの
法林浩之
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
WEBFARMER. ltd.
Tokyo H2O.ai Meetup#2 by Iida
Tokyo H2O.ai Meetup#2 by Iida
Hidenori Fujioka
INF-010_そのログ、ただ集めているだけではありませんか? ~IT 運用の世界にも Big Data の活用を!~
INF-010_そのログ、ただ集めているだけではありませんか? ~IT 運用の世界にも Big Data の活用を!~
decode2016
CEDEC2021 Android iOS 実機上での自動テストをより楽に有意義にする為に ~端末管理・イメージ転送・動画記録等の周辺情報のノウハウ共有~
CEDEC2021 Android iOS 実機上での自動テストをより楽に有意義にする為に ~端末管理・イメージ転送・動画記録等の周辺情報のノウハウ共有~
SEGADevTech
loggregator update
loggregator update
Ken Ojiri
Site Reliability Engineering (SRE)を可能にするOpenPIEのご紹介
Site Reliability Engineering (SRE)を可能にするOpenPIEのご紹介
OSSラボ株式会社
【15-B-L】Spinnakerで実現するデプロイの自動化
【15-B-L】Spinnakerで実現するデプロイの自動化
Developers Summit
Ipythonを使ってみよう
Ipythonを使ってみよう
株式会社 システムヨシイ
KITEMATIC便利そうだよ
KITEMATIC便利そうだよ
Kentaro Takasaki
Similar to 1TB/dayのログを収集・蓄積する技術
(20)
使ってみようPTSV
使ってみようPTSV
Keycloak入門
Keycloak入門
コロナ禍の働き方のニューノーマル~NRIの数千人のテレワークを支えたサービスとは~
コロナ禍の働き方のニューノーマル~NRIの数千人のテレワークを支えたサービスとは~
第六回コンテナ型仮想化情報交換会_LinuxContainerLivemigrationCRIU
第六回コンテナ型仮想化情報交換会_LinuxContainerLivemigrationCRIU
180729 jtf open-audit
180729 jtf open-audit
業務時間で書いたパッチは誰のもの?OSS活動にまつわる罠 (builderscon tokyo 2018)
業務時間で書いたパッチは誰のもの?OSS活動にまつわる罠 (builderscon tokyo 2018)
SIOS iQ:機械学習 I T O A VMware仮想環境の性能問題の原因分析 迅速な問題解決と未然防止を実現
SIOS iQ:機械学習 I T O A VMware仮想環境の性能問題の原因分析 迅速な問題解決と未然防止を実現
2015年5月期 AITCオープンラボ 「第二回 デジタルガジェット祭り!」
2015年5月期 AITCオープンラボ 「第二回 デジタルガジェット祭り!」
皆さん!ふくてんが来ましたよ!!
皆さん!ふくてんが来ましたよ!!
12thwocs 発表資料20150120
12thwocs 発表資料20150120
さくらのナレッジの運営から見えるもの
さくらのナレッジの運営から見えるもの
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
Tokyo H2O.ai Meetup#2 by Iida
Tokyo H2O.ai Meetup#2 by Iida
INF-010_そのログ、ただ集めているだけではありませんか? ~IT 運用の世界にも Big Data の活用を!~
INF-010_そのログ、ただ集めているだけではありませんか? ~IT 運用の世界にも Big Data の活用を!~
CEDEC2021 Android iOS 実機上での自動テストをより楽に有意義にする為に ~端末管理・イメージ転送・動画記録等の周辺情報のノウハウ共有~
CEDEC2021 Android iOS 実機上での自動テストをより楽に有意義にする為に ~端末管理・イメージ転送・動画記録等の周辺情報のノウハウ共有~
loggregator update
loggregator update
Site Reliability Engineering (SRE)を可能にするOpenPIEのご紹介
Site Reliability Engineering (SRE)を可能にするOpenPIEのご紹介
【15-B-L】Spinnakerで実現するデプロイの自動化
【15-B-L】Spinnakerで実現するデプロイの自動化
Ipythonを使ってみよう
Ipythonを使ってみよう
KITEMATIC便利そうだよ
KITEMATIC便利そうだよ
More from uchan_nos
MikanOSと自作CPUをUSBで接続する
MikanOSと自作CPUをUSBで接続する
uchan_nos
OSを手作りするという趣味と仕事
OSを手作りするという趣味と仕事
uchan_nos
小型安価なFPGAボードの紹介と任意波形発生器
小型安価なFPGAボードの紹介と任意波形発生器
uchan_nos
トランジスタ回路:エミッタ接地増幅回路
トランジスタ回路:エミッタ接地増幅回路
uchan_nos
OpeLa: セルフホストなOSと言語処理系を作るプロジェクト
OpeLa: セルフホストなOSと言語処理系を作るプロジェクト
uchan_nos
自作言語でお絵描き
自作言語でお絵描き
uchan_nos
OpeLa 進捗報告 at 第23回自作OSもくもく会
OpeLa 進捗報告 at 第23回自作OSもくもく会
uchan_nos
サイボウズ・ラボへ転籍して1年を振り返る
サイボウズ・ラボへ転籍して1年を振り返る
uchan_nos
USB3.0ドライバ開発の道
USB3.0ドライバ開発の道
uchan_nos
Security Nextcamp remote mob programming
Security Nextcamp remote mob programming
uchan_nos
Langsmith OpeLa handmade self-hosted OS and LPS
Langsmith OpeLa handmade self-hosted OS and LPS
uchan_nos
OpeLa セルフホストなOSと言語処理系の自作
OpeLa セルフホストなOSと言語処理系の自作
uchan_nos
自動でバグを見つける!プログラム解析と動的バイナリ計装
自動でバグを見つける!プログラム解析と動的バイナリ計装
uchan_nos
1を書いても0が読める!?隠れた重要命令INVLPG
1を書いても0が読める!?隠れた重要命令INVLPG
uchan_nos
レガシーフリーOSに必要な要素技術 legacy free os
レガシーフリーOSに必要な要素技術 legacy free os
uchan_nos
Building libc++ for toy OS
Building libc++ for toy OS
uchan_nos
プランクトンサミットの歴史2019
プランクトンサミットの歴史2019
uchan_nos
Introduction of security camp 2019
Introduction of security camp 2019
uchan_nos
30分で分かる!OSの作り方 ver.2
30分で分かる!OSの作り方 ver.2
uchan_nos
Timers
Timers
uchan_nos
More from uchan_nos
(20)
MikanOSと自作CPUをUSBで接続する
MikanOSと自作CPUをUSBで接続する
OSを手作りするという趣味と仕事
OSを手作りするという趣味と仕事
小型安価なFPGAボードの紹介と任意波形発生器
小型安価なFPGAボードの紹介と任意波形発生器
トランジスタ回路:エミッタ接地増幅回路
トランジスタ回路:エミッタ接地増幅回路
OpeLa: セルフホストなOSと言語処理系を作るプロジェクト
OpeLa: セルフホストなOSと言語処理系を作るプロジェクト
自作言語でお絵描き
自作言語でお絵描き
OpeLa 進捗報告 at 第23回自作OSもくもく会
OpeLa 進捗報告 at 第23回自作OSもくもく会
サイボウズ・ラボへ転籍して1年を振り返る
サイボウズ・ラボへ転籍して1年を振り返る
USB3.0ドライバ開発の道
USB3.0ドライバ開発の道
Security Nextcamp remote mob programming
Security Nextcamp remote mob programming
Langsmith OpeLa handmade self-hosted OS and LPS
Langsmith OpeLa handmade self-hosted OS and LPS
OpeLa セルフホストなOSと言語処理系の自作
OpeLa セルフホストなOSと言語処理系の自作
自動でバグを見つける!プログラム解析と動的バイナリ計装
自動でバグを見つける!プログラム解析と動的バイナリ計装
1を書いても0が読める!?隠れた重要命令INVLPG
1を書いても0が読める!?隠れた重要命令INVLPG
レガシーフリーOSに必要な要素技術 legacy free os
レガシーフリーOSに必要な要素技術 legacy free os
Building libc++ for toy OS
Building libc++ for toy OS
プランクトンサミットの歴史2019
プランクトンサミットの歴史2019
Introduction of security camp 2019
Introduction of security camp 2019
30分で分かる!OSの作り方 ver.2
30分で分かる!OSの作り方 ver.2
Timers
Timers
1TB/dayのログを収集・蓄積する技術
1.
1TB/dayのログを 収集・蓄積する技術 サイボウズ株式会社 クラウド運用チーム 内田公太 2018/03/31 CAMPHOR-
2.
自己紹介 ▌内田公太 @uchan_nos ▌クラウド運用チーム SRE ▌2014年入社/5年目になろうとしている ▌インフラ系のソフトウェア作成
サービスの死活監視システム ブロックデバイスのリアルタイムバックアップ ログ収集・解析システム
3.
著書とか 執筆 校正 http://amzn.asia/iSc89okhttp://amzn.asia/4Kvi8gj
4.
ログとは ▌航海日誌=ログ・ブック ▌原義は「丸太」 日本船舶海洋工学会 海洋教育推進委員会 https://www.jasnaoe.or.jp/mecc/fushigi/report/report011.html
5.
IT業界での「ログ」 ▌みなさん、ログ出力してますか?? ▌アプリケーションのログ ▌アクセスログ ▌DBやファイルシステムのWrite Ahead Log ▌数値メトリクス ▌(ブログ)
6.
この発表の目的 ▌ログ出力の勘所を知る ▌スケーラブルなログ収集基盤アーキテクチャを学ぶ ▌→ログのエキスパートになる!
7.
ログしぐさ ▌ログのフォーマット ▌ログに含めるべき情報 ▌ログを出すタイミング
8.
平文 vs 構造ログ ▌平文:「ロギング」で最も典型的な形式 ▌人間が読みやすい ▌機械処理しにくい 2018-03-31T07:05:26.939624Z
localhost a.out debug: " welcome to the CAMPHOR-"
9.
平文 vs 構造ログ ▌構造ログ:プログラマなら夢見る形式 ▌機械処理しやすい { "topic":"a.out", "logged_at":"2018-03-31T07:05:26.939624Z", "severity":"debug", "utsname":"localhost", "message":"welcome
to the CAMPHOR-" }
10.
ログの読みやすさ ▌ログ駆け出しのころのログ ▌ログっぽいログ Application started. Accepted connection
from user aaa. 2018-03-23T09:10:26.939624Z localhost my-process info: "Application started." 2018-03-23T09:12:56.036020Z localhost my-process info: "Accepted connection from user aaa." 読みやすいのはこっち?
11.
ログの読みやすさと使いやすさ ▌ログをリアルタイムで読むとき 時刻などない方がすっきり ▌ログを後で調べるとき 時刻やログレベルが無いと辛い ▌自動化を進めるにつれ、後から調査する需要が増える →後者(ログっぽいログ)が圧倒的に使いやすい
12.
構造ログは読みづらい? ▌生のまま読むと非常につらい ▌加工すれば大丈夫(機械処理万歳!) {"topic":"a.out","logged_at":"2018-03-31T07:05:26.939624Z","se verity":"debug","utsname":"localhost","message":"welcome to th e
CAMPHOR-"} 2018-03-31T07:05:26.939624Z localhost a.out debug: "welcome to the CAMPHOR-"
13.
ログに含める情報 ▌後で調査に使うことがある →可能な限り、情報を含めると良い →ログ量が増えすぎると辛いので、バランス大事 ▌ローカル変数の中で、大事なものは値を出しておく
14.
ログを出すべきとき ▌重要なチェックポイント プロセスの起動と終了 バージョン情報とか、割と役に立つ
ユーザからのリクエストの開始点 ログファイルの切り替え時
15.
ログを出すべきとき ▌時間がかかる処理の前後 ログが更新されないときに場所が分かるように creating index
files ... index files created. 数分以上時間がかかるなら、時々ログを出すと親切 creating index files ... 1 minutes elapsed. 2 minutes elapsed. 長時間の処理
16.
ログを出すべき関数の階層 ▌関数呼び出し階層のどこでログを出すか ▌最下層 具体的な処理の値などが最もよく取れる場所 処理のコンテキストは分からないことが多い (ユーザのアクセス起因?定期バッチの関連?) ▌上層
処理のコンテキストは良く分かる 具体的な処理の値などは不明 handle_user_access →handle_bbs_post →save_file
17.
ログを出すべき関数の階層 ▌handle_user_access ユーザからのアクセスであること、ユーザ名、APIの種類 ▌save_file 具体的なファイルパス、ファイル内容 handle_user_access →handle_bbs_post →save_file
18.
ログを出すべき関数の階層 ▌理想:コンテキスト情報と、具体的な値が両方欲しい ▌ナイーブな解決策:2行出す Access from user
USER_NAME. Saved to file FILE_PATH, FILE_CONTENT. ▌nginxの解決策:コンテキストを下層に渡す マルチスレッドで困る
19.
コンテキストを下層に渡す ▌handle_user_access の中で ctx->log_action = "handling
user request"; handle_bbs_post(ctx, …); ▌handle_bbs_post の中で save_file(ctx, …); ▌save_file の中で log(ctx->log_action, "saved to file …"); handle_user_access handle_bbs_post save_file ctx log_action log(ctx, …)
20.
ログレベル ▌severityとも ▌チーム全体で定義を合わせると良い ▌↓サイボウズでの定義 名前 値 意味 Critical
2 errorに該当する問題のうち、特に致命的な問題。 Error 3 リクエスト処理またはプロセス全体が続行不可能になる問題が発生。 Warning 4 今のところ正常に続行できるが、将来的に問題につながり得る事象が 発生した。将来何か問題があったとき、真っ先に見返してほしいログ。 Info 6 正常な動作の軌跡。サーバが起動したとかリクエストが来たとか。 Debug 7 関数の出入りの記録や文字列解析の途中結果など、デバッグ用の情報。
21.
cybozu.com を支えるログ基盤 ▌ブログ記事 サイボウズのログ基盤 2018年版
― Cybozu Inside Out ▌規模感
22.
#customer companies: #accesses /
day: Logs / day: 20,000+ 210 millions 800 GB
23.
ログ収集 ▌なぜログを収集するのか ログが消えないようにしたい →1か所に集めておけば、バックアップしやすい (圧縮してテープに書き出すとか) ログが分散していると検索しずらい →1か所に集めておけば、grepできる
24.
ログ収集クイズ:皆さんなら、どうやって集める? HostHost • 約1000個のホスト •
800GB/日 のログ量 • ログ発生から数分で回収したい • 全ログはgrepで検索したい • アクセスログはSQLで検索したい
25.
Host 2016年以前のログ収集 Host 収集サーバ ssh x 1000+ MySQL アクセスログGzip ▌sshで全ホストからログファイルをコピーしてくる ▌Gzipファイルとして保存する ▌アクセスログはMySQLにINSERTする
26.
Host 2016年以前のログ収集 Host 収集サーバ ssh x 1000+ MySQL アクセスログGzip ▌sshで全ホストからログファイルをコピーしてくる ▌Gzipファイルとして保存する ▌アクセスログはMySQLにINSERTする SPoF
SPoF ボトルネック
27.
2016年以前のログ収集エピソード ▌収集サーバが故障してログ収集が数日止まった →追いつくのに11日かかった ▌MySQLで24時間分のログ集計が13時間かかる ▌開発環境ではVMが多すぎて追い付かない →ほとんどのVMからのログ吸い出しを停止 →VMが次々とDisk Fullに
28.
現在のログ基盤アーキテクチャ
29.
Log files Kafka Broker Kafka Broker Kafka Broker Kafka Cluster (メッセージキュー) logshipper (ログ転送 エージェント) 何らかの プロセス Log
filesLog files VMとか実機とか Kafka Broker Kafka Broker send ( 次 の ペ ー ジ へ 続 く )
30.
Kafka Broker Kafka Broker Kafka Broker Kafka Cluster (メッセージキュー) Kafka Broker Kafka Broker logarchiver (ログ保存デーモン) tailermaid (アクセスログ TSV化デーモン) poll poll Hadoop Cluster (分散基盤) write write HBase (分散KVS) HDFS (分散
File System) logkeeper (TSV -> ORC コンバータ) read write Hive (SQLエンジン) batch query read TSV write ORC Presto (SQLエンジン) Redash (SQL用UI) read ORC query LogLogLogRaw LogLogLogTSV LogLogLogORC 30
31.
要件 1/2 ▌ログを保存・閲覧できる 障害発生時の調査(ここ数日のログ)
リソース調整(N 年前からの負荷の変化) ▌ログを集計できる 全ログを日付、ホスト名、トピック名で絞り込める アクセスログをブラウザからSQLで集計できる 構造ログに対しクエリで絞り込める
32.
要件 2/2 ▌ログ欠損しない(なるべく) at
least onceポリシー ▌大量のログを扱える 現在:800GB/day(非圧縮) 将来:10倍の量には耐えたい ▌ログ収集の経路を冗長化したい ▌ログ収集の遅延を数分以下にしたい
33.
スループット ある時、Kafkaクラスタへの書き込みができなくなった →すぐに回復したので、Kafkaのスループットは申し分ない
34.
新ログ収集基盤の故障 ▌ほとんどのコンポーネントが冗長化されている ▌HDFS:3レプリカ→2台同時死亡までは耐える ▌Kafka:3ブローカ→2台同時死亡までは耐える ▌ZooKeeper:5台クラスタ→2台同時死亡までは耐える
35.
分散システムは難しい 3/12の障害エピソード 1. 「VMのディスクの空き容量が少なくなっている」 というアラートが飛んできて緊急対応開始 2.
logshipperが止まっており、ログが回収されてない! 3. Kafkaの調子が悪く、新規ログ書き込みが出来ないっぽい 4. チームで協力し奮闘、何とかKafkaを復活させる Kafkaの障害復旧、普段から鍛えてないと厳しい世界 分散システムはバグが絶えない →公式文書通りにならないことも良くある 約5時間の奮闘
36.
発表まとめ ▌ログしぐさ 平文 vs
構造ログ ログを出すべきとき ログを出す関数階層 ▌サイボウズのログ基盤 古いログ基盤 新しいログ基盤
Editor's Notes
Over nineteen thousands companies are using our services. One ninety millions accesses per day. About Twenty five tibibytes data are written to storages everyday.
Download now