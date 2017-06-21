淺談系統監控 與 AWS CloudWatch 的應用 Rick Hwang AWS User Group Taiwan Jun 21, 2017 1
田野調查 ● 有多少人是開發人員？ (開發 Business Logic) ● 有多少人負責系統維運、監控、CI/CD？ ● 有沒人專職做監控？ ● 有人需要值班監控的？ ● 有人是自己從開發、測試、維運的？ ● 有人是屬於 Leader, P...
● Software Developer, Guitarist ● Experiences ○ Technical Manager, 91APP (EC) ■ System Operation and Administrator ■ Micro...
Questions 零、服務的 SLA 是多少？ 一、如何確認服務是正常的？ 二、如何知道現在系統的狀況？ 三、要監控哪些指標？ 四、異常的通報方式？ 6
監控的目標 SLA: 99.99% 8
SLA: Service Level Agreement ● Yearly / Monthly ● Uptime ● Percentage 9
SLA - by Yearly 10 SLA Downtime Day Hour Min 99% 1% 3.65 87.6 5,256 99.9% 0.1% 0.365 8.76 525.6 99.99% 0.01% 0.0365 0.876 ...
When Shutdown or Stop the Services ? ● Abnormal ● Depoyment ● Maintenance ● Security Issues ● Shutdown the Business 11
監 控 12
監 控 Watch Monitor Observe Measure Control Command Handle Manage 13 Dashboard Console Targets
Commands Dashboard => Show Something ● Health Status ● Sum of Biz TX ● Sys Resources ● … Push or Pull Data 14 Target Servi...
16 一、如何確認服務是正常的？
想像 Launch 一台 EC2 之後，怎麼確定它好了？ 17
18 老闆、主管、其他人：現在系統正常嗎？ 怎麼確認是正常的？ 花多少時間？
Health Check 每個 System or Service 都要有一個方法可以確定狀態 狀態只有三種： 19
● Operator 看得懂，會用 ● Tester 看得懂，會用 ● Developer 看得懂 ● PM 看得懂 ● 老闆看的懂 ● 老闆的老闆看的懂 ● 客戶也看得懂 ● 有 API Health Check … 必須 20
Levels of Health Check ● Light / Static Health Check ● Layer Health Check ● Deep Health Check 22
Levels of Health Check - Example 23 ASG ELB (Internet-Facing) Route 53 Web App ASG Web Servers ELB (Internal ELB) App Serv...
Levels of Health Check 24 ● Light / Static Health Check ○ Application 自己是正常的, 像是: Tomcat, IIS 正常運作 ● Layer Health Check ○ ...
25 Service A Service B Service C Service D Service E (Third Party) Service Dependencies (Internal)
Levels of Health Check 26 ● Light / Static Health Check - Application Self ● Layer Health Check - App to App ● Deep Health...
● 開發好的應用程式，交給其他單位 (Test、Operation) 部署時 ，用來確認部署正確性、確認點 ● CD 時可以自測 ● 跨很多系統時，釐清問題的基本參考點，特別是 Micro Service 架構 Health Check 的用途...
Health Check 的設計 28 ● Levels of Health Check: Light/Static, Layer, Deep ● 把 Health Check 設計成 API，增加可測性 ○ ElasticSearch Hea...
Recap 29 ● 東西能動就好了，什麼叫能動？ ● 如何定義 Health Check？ ● 從哪一些層面切入？ ● 如何設計 Health Check？
二、如何知道現在服務的狀況 31 此時此刻
你正在參加 AWS User Group 怎麼知道現在系統的狀況？ 你現在可以知道哪些資訊？ 用什麼方式？ 32
33Dashboard (侏羅紀公園)
● Operator：你、我 ● Developer：你、我 ● PM / 業務 / 老闆： ○ 系統正常嗎？ ○ 現在流量多少？ ○ 線上多少人？ ○ 訂單成立多少？ 34 需要知道監控資訊的人
● 透過 Dashboard ○ 值班人員需要有電腦 ○ Dashboard 可能資訊太多 ○ Dashboard 要開電腦 ● 可不可用手機取得系統狀況？ ○ Health Check ○ Key Metrics 35 取得監控資訊的方式
36 Static Health Check Layer Health Check ELB Info
37 CloudWatch Reporter CloudWatch Reporter / Alamer CloudWatch Event (time-based) Channels by Services Operators Operators...
CloudWatch Reporter - Design Principle ● 隨時可以知道系統的狀況 - Mobile / Slack ● 監控指標的設定很容易使用，Operator 不需特別學習 ● 監控指標的設定要能夠版控、進 GIT、...
Recap 39 ● 如何隨時掌握系統資訊？ ● 誰需要這樣的資訊？ ● 這系統放哪？ ● 資訊跟 Health Check 的關係？
41 三、監控哪些指標？ 怎麼知道哪些？指標從哪來？
42 EC2 CloudWatch Metrics
43 ELB/ALB CloudWatch Metrics
44 如果我想要看的指標 CloudWatch 沒有怎麼辦？
我想知道： Nginx Connection Avarage 45
我想知道：系統的 TCP Connection Status 46
我想知道：HTTP and HTTPS 的狀況 47
我想知道：Nginx HTTP 2XX, 3XX, 4XX Requests 48
49 希望這些指標是即時的
CloudWatch Custom Metrics 50 aws cloudwatch put-metric-data --metric-name mem --namespace /CWL-Demo/App --unit Percent ...
怎麼知道有哪一些指標？ 這些指標從哪來的？ 51
52http://docs.aws.amazon.com/elasticloadbalancing/latest/application/load-balancer-cloudwatch-metrics.html
為什麼 ALB 會有這些指標？ 怎麼知道要看這些？ 哪來的？ 53
系統測試、效能測試 54
系統測試 55 經過系統測試之後，發現、定義的數據與資訊，最後會轉化成監 控指標。這些數據與資訊包含商業資訊、系統性資訊等。 ● 系統測試時發現，需要注意 Quene Task 的資訊，像是 Sum of Producing、Sum of Qu...
56 CloudWatch Events
經過效能測試之後，發現、定義的系統性數據與資訊。 ● JVM Heap Size ● TCP Connections ● Surge Quene - ELB 效能測試 57
58Source: http://booklook.morningstar.com.tw/pdf/0139022.pdf 健檢報告的指標，都是經過無數 臨床經驗 (監控) 與科學實驗 (測試) 得來的。
59 監控指標跟山一樣多
整理 - 監控哪些指標 60 ● CloudWatch 提供的指標 ● CloudWatch 沒有提供的指標 - Custom Metrics ● 探索未知的指標，包含系統性、商業性 ○ 系統是動態的 (Auto Scaling Group)，...
61 分類監控指標的層級
62 Business (EC, IoT, Backing) Login / Logon Shopping Car User Sessions Device Sessions Invention / Stock eDM / SMS Push S...
這些監控數據放哪？ 需要多大的儲存空間？ 放存放多久？ 花多少成本？老闆買單？ 大數據？Hadoop？ Spark？EMR? WxF ... 63
大數據！？Hadoop？Spark？ 64 更多成本！
如果監控系統掛了？ 監控的系統的 SLA？ 監控系統需要的成本？ 怎麼教育訓練其他同事？ 找人怎麼找？JD 怎麼寫？ JD 寫出來了，薪水怎麼開？ 出的起香蕉只能請到猴子。。。 65
About Monitor System ● 監控系統也是系統，需要有 HA / Reliability、自己的 SLA ● 『監控指標』從哪來？需要開發程式蒐集 ● 誰來『監控』監控系統？ ● 在商業模式還沒成功之前 (賺錢)，監控系統能用就...
68 其實，Monitor 也可以很容易
CloudWatch Logs 69
● CloudWatch Alarms ● CloudWatch Dashboard ● CloudWatch Logs ● CloudWatch Filters ● CloudWatch Metrics ● CloudWatch Events...
Features ● Monitor Logs from Amazon EC2 Instances in Real-time ● Monitor AWS CloudTrail Logged Events ● Archive Log Data R...
72 CloudWatch Logs ● 可以直接儲存 Log Data，不用管理與維護，用多少付多少 ● 可以在 Console 查詢 Log，支援 json, csv 格式 ○ 不用擔心查詢資料量太大，機器會掛掉 ● 可以設定 Retent...
73 EC2 Instances awslogs driver Logs Log Groups Log Stream A Log Stream B Log Stream C Log Stream N Alarms Filters [ts, ho...
74 CloudWatch Logs - Workflow ● 規劃 Log 的目錄結構，與 Log Groups / Log Streams ○ 要跟 Developer 溝通，不要產出沒有結構化的 Log ○ 可以放商業邏輯相關的資訊，做為...
Example - Monitor EC2 TCP States ● 寫 Script 蒐集 TCP States ● 每分鐘取樣一次 TCP States ● 透過 awslogs 把數據傳到 CloudWatch Logs ○ Log Gr...
An Script to Sample TCP States 76 #!/bin/sh ts=$(date +%Y-%m-%dT%H:%M:%S) logts=$(date +%Y%m%d) all_tcp_log="/var/log/tcp/...
CloudWatch Log - awslogs.conf ## awslogs config [general] state_file = /var/awslogs/state/agent-state [/var/log] file = /v...
## Install awslogs AWS_REGION=us-east-1 BUCKET_NAME=cwl-demo cd /tmp curl https://s3.amazonaws.com/aws-cloudwatch/download...
Log Groups, Log Streams 79
FILER_PATTERN="[ts, hostname, scope=ALL, tcp_all, tcp_time_wait, tcp_established, tcp_fin_wait1, tcp_fin_wait2, tcp_close_...
CloudWatch Metric with AWS Console 81
CloudWatch Metric with AWS Console 82
83 Metric Filter [ts, hostname, scope=SYS, tcp_all, tcp_time_wait, tcp_established, tcp_fin_wait1, tcp_fin_wait2, tcp_clos...
CloudWatch Custom Metrics 84
85 CloudWatch Dashboard
CloudWatch Alarms 86 Metric Filter [ts, hostname, scope=SYS, tcp_all, …. Alarms
Recap: CloudWatch Logs, Filters, Metric, Alarms 87 EC2 Instances awslogs driver Logs Log Groups Log Stream A Log Stream B ...
88 Business (EC, IoT, Backing) Login / Logon Shopping Car User Sessions Device Sessions Invention / Stock eDM / SMS Push S...
Log 的規劃 89 ● 思考要監控哪一些指標、資訊，寫 Log 時就要想清楚 ● Log 的資料結構關係到 Filter (Query) 怎麼下，以及呈現資訊的完整性 ● 規劃 Log Groups, Log Stream, 還有 Metri...
Recap ● 結構化系統的 Log，留下有意義的資訊 ● 用 CloudWatch Logs 取代 put-metric 方法 ● 把指標分層級，也做分工 ● 找到服務的特徵值 ● 『大數據』是行銷要用詞，不要隨便亂跳 90
補充：CloudWatch Logs - Filter events 91 查 Auto Scaling Group 機器的 Log 很好用！
補充：CloudTrail to CloudCloud Logs 92
補充：CloudTrail to CloudCloud Logs 93
95 四、異常通報
異常通報常見的問題 ● False Alarm (誤報) ● 輕重緩急不分 ● 找錯人 → 造成無形的溝通成本 ● 狼來了現象 → 最後沒人看 ○ 訊息太多 ○ Email / 推播塞爆了 ○ False Alarm ● 通知方式紊亂 ● 權責...
異常通報的維度 ● 異常的等級 ● 通報的方式 ● 通報的對象 97
98 等級：國家級 方法：手機訊息插播、警報聲 對象：全國公民
異常通報的等級 99
戒備狀態 - 美國國家防禦等級 100 Source: https://zh.wikipedia.org/zh-tw/%E6%88%92%E5%A4%87%E7%8A%B6%E6%80%81
101 超級戰艦 Battleship 2012
Log Level - bunyan (node.js) 102 https://github.com/trentm/node-bunyan#levels
Log Level - Log4j (java) 103 https://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html
異常通報等級的定義 104 ● Info：一般資訊 - CloudWatch Reporter ⇒ 要知道，但有空再看 ⇒ Operator ○ 突然一根 HTTP 4XX, 5XX ● Warning：請留意系統狀況 ⇒ 要有人知道、留意到 ...
異常通報的等級與 Health Check 105
異常通報的方法 106
異常通報的方法 107 以下是常見的通報方法 ● Email ● Mobile Push ($) ● Slack ($) / Telegram / Line ($) ● SMS ($$) ● Voice Call ($$$) 容易因洗版 而被忽...
異常通報的等級 x 方法 x 對象 108 等級 方法 對象 案例 Info Email IM: Slack Operators 隨選資訊、Reporter Warning IM: Slack、Telegram Operators、Develo...
異常通報系統的設計 ● 高可用 ● 免維護 ● 容易測試與開發 ● 容易管理與配置 109
EC2 CloudWatch Alarms Operators CloudWatch Event (time-based) SNS-Adapter Slack-Notifier SNS Topic Info, Warning Info Deve...
Recap 零、服務的 SLA 是多少？ 一、如何確認服務是正常的？ 二、如何知道現在系統的狀況？ 三、要監控哪些指標？ 四、異常的通報方式？ 112
Commands Dashboard => Show Something ● Health Status ● Sum of Biz TX ● Sys Resources ● … Push or Pull Data 113 Target Serv...
Health Check 每個 System or Service 都要有一個方法可以確定狀態 狀態只有三種： 114
115 Business (EC, IoT, Backing) Login / Logon Shopping Car User Sessions Device Sessions Invention / Stock eDM / SMS Push ...
異常通報的等級 x 方法 x 對象 116 等級 方法 對象 案例 Info Email IM: Slack Operators 隨選資訊、Reporter Warning IM: Slack、Telegram Operators、Develo...
Modern Solutions for System Monitor 117 ● ELK: Elasticsearch + Logstash + Kibana ● Collected + CloudWatch => 可以取代 Cacti / ...
Why AWS CloudWatch？ ● 可以滿足大部分系統監控的需求 ● 部署 awslogs driver 與配置 metrics 簡單 ● 不需要自己管理監控系統，不需要擔心監控系統自己會掛掉 ● 不需要擔心 Log 儲存空間的問題，或...
When? 當有數百台機器要監控 橫跨數個 AWS Regions、數個 VPC 要監控的時候 資源是動態的 (Auto Scaling Group) 自己蓋 ELK 、或者裝 Cacti、Nagios 、InfluxDB … 這些機器掛掉的時...
CloudWatch 的不足 (許願池) ● Dashboard 不能像 Grafana 那樣 configurable，然後分享給社群。 ○ Grafana Dashboard 是一個 json file. ⇒ Grafana Communi...
簡報內容構思與緣由 ● Study Notes - CloudWatch ● AWS Certified SysOps Administrator - Associate 準備心得 121
參考資料 ● Amazon CloudWatch Documentation ● AWS re:Invent 2014: Amazon CloudWatch Deep Dive ● AWS re:Invent 2016: From Monoli...
Related AWS Services 123 ● CloudWatch Logs, Metrics, Filters, Events, Roles ● CloudTrail / CloudFormation ● IAM ● CLI / SD...
×