© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
류 길 현
㈜엑셈 / APM본부 본부장
클라우드 환경에서
비즈니스 애플리케이션의
성능 통합 모니터링 방안
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
1 클라우드향 application 특징
2 클라우드향 application 모니터링 대응방안
3 Cloud vs On-premise 모니터링 비교
4 다양한 관리 솔루션 연동 필요성
5 클라우드 솔루션 소개 및 사례
발표 순서
6 AI 기술을 통한 장애 예측
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
클라우드 환경의 성능 모니터링
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
 WAS서버, 컨테이너 증가, 축소가 잦음
 모니터링 대상의 잦은 변경
 Monolithic 시스템 (X)
 모니터링 대상이 많고, 서비스의 연계도 복잡
 중앙 집중화된 모니터링 관리의 어려움
 복잡한 서비스 호출로 경로 추적, 장애 추적이 어려움
MicroService Architecture
클라우드향 Application 특징
Auto Scaling 구조
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
클라우드향 Application 모니터링 대응방안
1 Auto Scale In/Out 대상 컨테이너 자동 모니터링 대상 추가
모니터링 대상 Application이
Scale Out 되는 경우,
모니터링 대상에 자동으로 추가
• 인스턴스 : i-8fd6aa30
• 리전 : ap-northeast-2
별도의 등록 절차없이
해당 instance 증가 시
정보를 자동으로 수집하여
모니터링 지원
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
클라우드향 Application 모니터링 대응방안
2 복잡한 구조의 서비스 연계를 통합적으로 모니터링 제공
0.000s/1
8.329s/1
8.229s/1
0.247s/1
7.825s/1
0.246s/1
7.823s/1
0.070s/1
0.060s/1
7.820s/1
7.618s/10.000s/1
8.329s/1
8.229s/1
0.247s/1
7.825s/1
0.246s/1
7.823s/1
0.070s/1
0.060s/1
7.820s/1
7.618s/1
서비스 호출 구조를
자동으로 Topology를
구성하여
전체 구성 관점에서
모니터링 지원
특정 서비스 호출이
지연되거나 장애발생
시에 전체 연계 중
어떤 구간에서 문제가
발생하는 지 End-to-End
추적 기능 지원
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
클라우드향 Application 모니터링 대응방안
3 신속한 장애 대응을 위한 초단위 실시간 모니터링 필요
출처: https://aws.amazon.com/ko/blogs/aws/new-high-resolution-custom-metrics-and-alarms-for-amazon-cloudwatch/
5분단위 기본 모니터링
(제약: 기본 10개 지표)
2009년
(제약: 추가 비용 발생)
2010년
1분단위 Detailed Monitoring
2015년
(제약: 추가 비용 발생)
10초단위 Enhanced Monitoring
(RDS)
1초단위 High-Resolution Metrics
(User Application)
(제약: 추가 비용 발생, 0.3$/알람당,
데이터 전송 Agent 개발)
2017.07.
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
클라우드향 Application 모니터링 대응방안
4 Infra 외의 Application, Business 단위 통합 모니터링 대응 필요
• 단위 트랜잭션 관점이 아닌 주문량,
체결량, 매출액 현황 등 비즈니스 관점의
모니터링 제공
• 비즈니즈 관점의 구간별 성능
모니터링을 제공하며, 각 Tier별
업무(1레벨-2레벨 등) 레벨의 정의와
구간별 상세 성능 모니터링
Business Dashboard
AWS Infra Availability 99.99% Business Availability & Monitoring IMPORTANT!
<
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
클라우드향 Application 모니터링 대응방안
5 관리/운영자에 의존적인 방식보다는 AI기반 Smart 모니터링
고정된 Alert 임계치 설정
사후 문제 분석
기존 정상 부하 패턴에 따른 이상치 탐지시 Smart 알람
1분후, 30분후, 60분후의 부하를 사전 예측 제공
전통적 모니터링 Smart 모니터링
학습된 정상구간(1) 표시
1분 후 예측 값
15분 후 예측 값
30분 후 예측 값
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
Cloud vs On-premise 모니터링 솔루션 비교
On-premise Monitoring SaaS Monitoring
 엔지니어 직접 설치, 지원
 라이선스 기반
 APM, DPM 포인트 단위 및
E2E 관점의 상세 모니터링
 거래 추적, 상세 Trace 분석
지원
 AWS Marketplace에 EC2이미지로 제공
 On Click 설치 지원
 라이선스 방식(AWS Billing or BYOL)
 On-premise 방식에 추가적으로
CloudWatch 등 AWS지표 추가 수집 지원
Cloud(AWS)-Support
 Cloud, On-premise 모두 지원
 Serverless
 SMS+APM+DPM 혼합된 형태
 대규모 서버를 통합 관점 모니터링
성능 데이터 수집/분석 레벨 지원
 원격으로 모니터링 데이터 전송필요
- 비교적 느린 모니터링 시간(분단위)
- 기업 데이터 전송 보안 이슈
InterMax(APM)
MaxGauge(DPM)
MaxGauge Air
Max ge for Aurora
InterMax on AWS
(2018.상반기 marketplace
등록 예정)
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
클라우드 환경의 다양한 관리 솔루션 연동 필요성
- AWS-console, Openshift, Kubernetes 등 연동 지원
 빈번한 Auto Scaling시 signal 이벤트 연동을 통한 모니터링 환경 자동화 구성
모니터링 대상
서비스 명
Project명
클라우드 플랫폼 모니터링 솔루션
모니터링 서버
대상 그룹
Service명
WAS 컨테이너Pods Name+#
1
2
3
1
2
3
1
2
3
자동 등록
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
엑셈의
클라우드향 모니터링 솔루션
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
EXEM의 클라우드향 모니터링 솔루션은?
 100% 순수 자체 개발기술을 활용해 클라우드 서비스를 지원하는 솔루션
 에이전트 설치 방식
 JVM Auto Attached 방식 지원
 각 에이전트들이 public/private
클라우드에 위치한 수집 서버로 성능
데이터를 전송하는 방식
에이전트방식
 Oracle, MySQL, Maria, Aurora,
SQL Server 등 다양한 DBMS
모니터링 지원
 DB Session, Lock, SQL Trend
분석 등 상세 모니터링
이기종DBMS통합관리
 Apache Tomcat, Jboss, Jeus 등
다양한 WAS와 Java 데몬 등
 Springboot, Docker, Container, EC2,
IIS, .NET 등
다양한App환경지원
 운영체제 성능 정보, 클라우드
인프라 성능 등 통합 모니터링
 CloudWatch 연동 모니터링 제공
 Network Packet I/O 등
시스템리소스모니터링
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
EXEM의 클라우드향 제품 Line-Up
㈜엑셈
클라우드
솔루션
APM
InterMax
MFA
(Aurora) MFM
(MySQL)
MFM
(MariaDB)
DPM
MaxGauge
MFM
(SQL Server)
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
DBMS 성능 최적화를 위한 전문 솔루션
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
DBMS 성능 수집 데이터 종류
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
APM 솔루션의 주요 핵심 기능
AI 기술을 통한 실시간 부하 예측 모니터링
장애 예측 시스템 시스템 확장성 및 안정성
비즈니스 관점, E2E 모니터링시스템 통합 대시보드
InterMax
핵심기능
DPM
System
APM
Dashboard
실시간 성능 지연 트랜잭션 모니터링WAS, DB, Systems 통합 모니터링 제공
설치 용이성 및 수평적 확장, 부하 최소화
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
실시간 성능 모니터링 – Topology View
 모든 노드(instance)들에 대한 실시간 성능 모니터링과 장애 발생
시 알람(이벤트) 발생 및 원인 분석 기능 제공
 실시간 액티비티 현황과 주요 지표 추이, 트랜잭션 패턴 차트를
통하여 서비스 현황 파악이 용이
REAL-TIME MONITORING
 전체 시스템 아키텍처에 대한 자동 토폴로지 구성
 전체 시스템 알람 현황 및 트랜잭션 현황을 한 눈에 파악
 주요 업무별, 구간별, 노드별 그룹핑을 통하여 효율적인 시스템
관리/운영 모니터링 가능
TOPOLOGY VIEW
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
E2E – Transaction Path View
 개별 트랜잭션의 End-to-End 플로우를 통해 직관적인
거래 흐름과 지연 구간 파악 가능
 구간 별 응답시간을 제공하여 서비스에 영향을 주는
구간을 즉시 분석 가능
TRANSACTION PATH VIEW
 거래 전문 수집 / GUID 추적 / 거래 지연 trace
 WEB / WAS / DB / TP / C-프로세스 / JAVA / .NET 등 모든
구간 모니터링 Agent 제공
 실제 사용자 처리단인 브라우저 응답시간 제공
 (HTML, AJAX, Embedded API 방식 등)
END-TO-END MONITORING
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
Business 관점(대시보드)
 비즈니즈 관점의 구간별 성능 모니터링 제공
 금융권(업무단위) – 여신, 수신, 전자금융, 상품처리 등
비즈니즈 단위 구간별 상세 성능 모니터링 기능
 단위 트랜잭션 관점이 아닌 주문 건수, 매출액 현황 등
비즈니스 관점의 모니터링 제공
BUSINESS DASHBOARD(Multi-Tier)
 단순히 WEB-WAS-DB로 구성된 환경에서도 비즈니즈
트랜잭션 관점의 대시보드 제공
 WAS-instance 단위 혹은 Micro Service 단위의 업무 그룹핑
관리를 통한 비즈니즈 모니터링 제공
BUSINESS DASHBOARD
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
다양한 통합 대시보드 – 구축 사례
S제조사 – 대시보드 구축
공정단위별 업무 그룹핑을 통한 통합 대시보드 구축
L 유통사 – 대시보드 구축
K공공기관 – 대시보드 구축
TPS TPS TPS TPS TPS
응답시간(ms) 응답시간(ms) 응답시간(ms) 응답시간(ms) 응답시간(ms)
원 달러(SPOT)
원위안(SPOT)
이종통화(SPOT)
기타
CDM TPM
EtoE
응답시간
업무별
추적
S금융기관 – 대시보드 구축
지역별 주요 성능 지표 모니터링용 통합 대시보드 구축
업무별 주요 성능 지표 중심의 통합 대시보드 구축
업무별/구간별 통합 모니터링용 대시보드 구축
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
엑셈의
클라우드 모니터링을 위한 AI 기술
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
장애 예측 시스템 – AI기술(딥러닝 학습)
서버 네트워크라우터디바이스 로그파일
다양한 성능 데이터 수집
Platform
3’rd Party Solutions Data
부하 예측 장애 예측 비정상 탐지 부하 패턴 분석
임계
구간
주요 지표별 비정상 탐지 기능 다양한 연관 지표 상관 분석/진단
• 다양한 성능 데이터 수집/가공2
• 사전 장애 예측:4
•원천 데이터 수집1
Predictive Alert, Anomaly Detection, Root-Cause-Analysis
• 사전 장애 예측 및
장애 패턴 학습(딥러닝)
3
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
분야 AI 적용 분야 상세 기능 및 적용기술 비고
부하/
장애
예측
부하 예측
(Load Forecast)
 과거 수집 데이터로 인공지능이 학습하여 미래 부하 예측
- 과거 약 3개월간 System Metric 데이터로 인공지능이 학습
- 지난 1시간 동안 System Metric 데이터로 앞으로
1분, 30분, 60분전의 부하량을 사전에 예측
장애 예측
(Failure Forecast)
 수집된 데이터의 트랜드를 예측하여 미래 특정 시점에
장애가 발생할지를 미리 알려주는 기능
- 실데이터로 학습해서 adaptation하므로 기존 머신러닝 방식
대비 예측 정확도 향상
- 예) Tablespace full, Disk full, CPU 과사용 등
비정상 탐지
(Anomaly Detection)
 과거 데이터를 기반으로 신뢰 궤적을 그리고 관측치가
그 범위를 벗어나는 경우 비정상 탐지로 간주
- 기존 데이터 패턴과 다른 이상 그래프 파형 감지
3/10 3/11 3/12 3/13 3/14 3/15 3/16 3/17
3/18
AI 적용 분야(1/2)
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
분야 AI 적용 분야 상세 기능 및 적용기술 비고
장애
분석
부하 패턴 분석
(Load Pattern Clustering)
 부하 패턴을 몇개 유형으로 범주화하여 학습
- 예) 특정 이벤트 일(월말 정산일, 수강 신청일 등)
요일별/시간대별 부하 패턴(주간 온라인, 야간 배치 등)
인과 관계 분석
(Causality Analysis)
 비정상 발생 후, 인공지능에서 해당 문제에 대한 연관
지표 학습을 통하여 증상/징후를 찾아주는 기능
- 특정 지표의 문제가 다른 지표와 관련이 있는지 확인
근본 원인 분석
(Root-Cause Analysis)
 장애 발생시 장애의 근본 원인을 찾아주는 기능
- 사전에 고객사별 장애의 원인 및 분석하는 방법을 Rule로
등록, 장애가 발생했을 때, 인공지능 Rule Engine에서 장애에
대한 근본 원인을 찾아주는 기능
Smart
알람
지능형 임계치(알람) 설정
(Smart Alert)
 과거 수집 데이터 학습을 통한 Automatic Alert Threshold
설정
- Dynamic한 부하에 맞게 적절한 임계치가 자동으로 설정되어
적절한 알람이 발생되는 기능(=smart alarm)
?
AI 적용 분야(2/2)
감사합니다
Q&A
엑셈 홈페이지: www.ex-em.com | 문의: cloudteam@ex-em.com
© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.
AWS Summit 모바일 앱과 QR코드를
통해 강연 평가 및 설문 조사에 참여해
주시기 바랍니다.
내년 Summit을 만들 여러분의 소중한
의견 부탁 드립니다.
#AWSSummit 해시태그로 소셜 미디어에 여러분의 행사
소감을 올려주세요.
발표 자료 및 녹화 동영상은 AWS Korea 공식 소셜 채널로
공유될 예정입니다.
여러분의 피드백을 기다립니다!

클라우드 환경에서 비즈니스 애플리케이션의 성능 통합 모니터링 방안::류길현::AWS Summit Seoul 2018

  • 1.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 류 길 현 ㈜엑셈 / APM본부 본부장 클라우드 환경에서 비즈니스 애플리케이션의 성능 통합 모니터링 방안
  • 2.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 1 클라우드향 application 특징 2 클라우드향 application 모니터링 대응방안 3 Cloud vs On-premise 모니터링 비교 4 다양한 관리 솔루션 연동 필요성 5 클라우드 솔루션 소개 및 사례 발표 순서 6 AI 기술을 통한 장애 예측
  • 3.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 클라우드 환경의 성능 모니터링
  • 4.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved.  WAS서버, 컨테이너 증가, 축소가 잦음  모니터링 대상의 잦은 변경  Monolithic 시스템 (X)  모니터링 대상이 많고, 서비스의 연계도 복잡  중앙 집중화된 모니터링 관리의 어려움  복잡한 서비스 호출로 경로 추적, 장애 추적이 어려움 MicroService Architecture 클라우드향 Application 특징 Auto Scaling 구조
  • 5.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 클라우드향 Application 모니터링 대응방안 1 Auto Scale In/Out 대상 컨테이너 자동 모니터링 대상 추가 모니터링 대상 Application이 Scale Out 되는 경우, 모니터링 대상에 자동으로 추가 • 인스턴스 : i-8fd6aa30 • 리전 : ap-northeast-2 별도의 등록 절차없이 해당 instance 증가 시 정보를 자동으로 수집하여 모니터링 지원
  • 6.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 클라우드향 Application 모니터링 대응방안 2 복잡한 구조의 서비스 연계를 통합적으로 모니터링 제공 0.000s/1 8.329s/1 8.229s/1 0.247s/1 7.825s/1 0.246s/1 7.823s/1 0.070s/1 0.060s/1 7.820s/1 7.618s/10.000s/1 8.329s/1 8.229s/1 0.247s/1 7.825s/1 0.246s/1 7.823s/1 0.070s/1 0.060s/1 7.820s/1 7.618s/1 서비스 호출 구조를 자동으로 Topology를 구성하여 전체 구성 관점에서 모니터링 지원 특정 서비스 호출이 지연되거나 장애발생 시에 전체 연계 중 어떤 구간에서 문제가 발생하는 지 End-to-End 추적 기능 지원
  • 7.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 클라우드향 Application 모니터링 대응방안 3 신속한 장애 대응을 위한 초단위 실시간 모니터링 필요 출처: https://aws.amazon.com/ko/blogs/aws/new-high-resolution-custom-metrics-and-alarms-for-amazon-cloudwatch/ 5분단위 기본 모니터링 (제약: 기본 10개 지표) 2009년 (제약: 추가 비용 발생) 2010년 1분단위 Detailed Monitoring 2015년 (제약: 추가 비용 발생) 10초단위 Enhanced Monitoring (RDS) 1초단위 High-Resolution Metrics (User Application) (제약: 추가 비용 발생, 0.3$/알람당, 데이터 전송 Agent 개발) 2017.07.
  • 8.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 클라우드향 Application 모니터링 대응방안 4 Infra 외의 Application, Business 단위 통합 모니터링 대응 필요 • 단위 트랜잭션 관점이 아닌 주문량, 체결량, 매출액 현황 등 비즈니스 관점의 모니터링 제공 • 비즈니즈 관점의 구간별 성능 모니터링을 제공하며, 각 Tier별 업무(1레벨-2레벨 등) 레벨의 정의와 구간별 상세 성능 모니터링 Business Dashboard AWS Infra Availability 99.99% Business Availability & Monitoring IMPORTANT! <
  • 9.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 클라우드향 Application 모니터링 대응방안 5 관리/운영자에 의존적인 방식보다는 AI기반 Smart 모니터링 고정된 Alert 임계치 설정 사후 문제 분석 기존 정상 부하 패턴에 따른 이상치 탐지시 Smart 알람 1분후, 30분후, 60분후의 부하를 사전 예측 제공 전통적 모니터링 Smart 모니터링 학습된 정상구간(1) 표시 1분 후 예측 값 15분 후 예측 값 30분 후 예측 값
  • 10.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. Cloud vs On-premise 모니터링 솔루션 비교 On-premise Monitoring SaaS Monitoring  엔지니어 직접 설치, 지원  라이선스 기반  APM, DPM 포인트 단위 및 E2E 관점의 상세 모니터링  거래 추적, 상세 Trace 분석 지원  AWS Marketplace에 EC2이미지로 제공  On Click 설치 지원  라이선스 방식(AWS Billing or BYOL)  On-premise 방식에 추가적으로 CloudWatch 등 AWS지표 추가 수집 지원 Cloud(AWS)-Support  Cloud, On-premise 모두 지원  Serverless  SMS+APM+DPM 혼합된 형태  대규모 서버를 통합 관점 모니터링 성능 데이터 수집/분석 레벨 지원  원격으로 모니터링 데이터 전송필요 - 비교적 느린 모니터링 시간(분단위) - 기업 데이터 전송 보안 이슈 InterMax(APM) MaxGauge(DPM) MaxGauge Air Max ge for Aurora InterMax on AWS (2018.상반기 marketplace 등록 예정)
  • 11.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 클라우드 환경의 다양한 관리 솔루션 연동 필요성 - AWS-console, Openshift, Kubernetes 등 연동 지원  빈번한 Auto Scaling시 signal 이벤트 연동을 통한 모니터링 환경 자동화 구성 모니터링 대상 서비스 명 Project명 클라우드 플랫폼 모니터링 솔루션 모니터링 서버 대상 그룹 Service명 WAS 컨테이너Pods Name+# 1 2 3 1 2 3 1 2 3 자동 등록
  • 12.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 엑셈의 클라우드향 모니터링 솔루션
  • 13.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. EXEM의 클라우드향 모니터링 솔루션은?  100% 순수 자체 개발기술을 활용해 클라우드 서비스를 지원하는 솔루션  에이전트 설치 방식  JVM Auto Attached 방식 지원  각 에이전트들이 public/private 클라우드에 위치한 수집 서버로 성능 데이터를 전송하는 방식 에이전트방식  Oracle, MySQL, Maria, Aurora, SQL Server 등 다양한 DBMS 모니터링 지원  DB Session, Lock, SQL Trend 분석 등 상세 모니터링 이기종DBMS통합관리  Apache Tomcat, Jboss, Jeus 등 다양한 WAS와 Java 데몬 등  Springboot, Docker, Container, EC2, IIS, .NET 등 다양한App환경지원  운영체제 성능 정보, 클라우드 인프라 성능 등 통합 모니터링  CloudWatch 연동 모니터링 제공  Network Packet I/O 등 시스템리소스모니터링
  • 14.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. EXEM의 클라우드향 제품 Line-Up ㈜엑셈 클라우드 솔루션 APM InterMax MFA (Aurora) MFM (MySQL) MFM (MariaDB) DPM MaxGauge MFM (SQL Server)
  • 15.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. DBMS 성능 최적화를 위한 전문 솔루션
  • 16.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. DBMS 성능 수집 데이터 종류
  • 17.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. APM 솔루션의 주요 핵심 기능 AI 기술을 통한 실시간 부하 예측 모니터링 장애 예측 시스템 시스템 확장성 및 안정성 비즈니스 관점, E2E 모니터링시스템 통합 대시보드 InterMax 핵심기능 DPM System APM Dashboard 실시간 성능 지연 트랜잭션 모니터링WAS, DB, Systems 통합 모니터링 제공 설치 용이성 및 수평적 확장, 부하 최소화
  • 18.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 실시간 성능 모니터링 – Topology View  모든 노드(instance)들에 대한 실시간 성능 모니터링과 장애 발생 시 알람(이벤트) 발생 및 원인 분석 기능 제공  실시간 액티비티 현황과 주요 지표 추이, 트랜잭션 패턴 차트를 통하여 서비스 현황 파악이 용이 REAL-TIME MONITORING  전체 시스템 아키텍처에 대한 자동 토폴로지 구성  전체 시스템 알람 현황 및 트랜잭션 현황을 한 눈에 파악  주요 업무별, 구간별, 노드별 그룹핑을 통하여 효율적인 시스템 관리/운영 모니터링 가능 TOPOLOGY VIEW
  • 19.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. E2E – Transaction Path View  개별 트랜잭션의 End-to-End 플로우를 통해 직관적인 거래 흐름과 지연 구간 파악 가능  구간 별 응답시간을 제공하여 서비스에 영향을 주는 구간을 즉시 분석 가능 TRANSACTION PATH VIEW  거래 전문 수집 / GUID 추적 / 거래 지연 trace  WEB / WAS / DB / TP / C-프로세스 / JAVA / .NET 등 모든 구간 모니터링 Agent 제공  실제 사용자 처리단인 브라우저 응답시간 제공  (HTML, AJAX, Embedded API 방식 등) END-TO-END MONITORING
  • 20.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. Business 관점(대시보드)  비즈니즈 관점의 구간별 성능 모니터링 제공  금융권(업무단위) – 여신, 수신, 전자금융, 상품처리 등 비즈니즈 단위 구간별 상세 성능 모니터링 기능  단위 트랜잭션 관점이 아닌 주문 건수, 매출액 현황 등 비즈니스 관점의 모니터링 제공 BUSINESS DASHBOARD(Multi-Tier)  단순히 WEB-WAS-DB로 구성된 환경에서도 비즈니즈 트랜잭션 관점의 대시보드 제공  WAS-instance 단위 혹은 Micro Service 단위의 업무 그룹핑 관리를 통한 비즈니즈 모니터링 제공 BUSINESS DASHBOARD
  • 21.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 다양한 통합 대시보드 – 구축 사례 S제조사 – 대시보드 구축 공정단위별 업무 그룹핑을 통한 통합 대시보드 구축 L 유통사 – 대시보드 구축 K공공기관 – 대시보드 구축 TPS TPS TPS TPS TPS 응답시간(ms) 응답시간(ms) 응답시간(ms) 응답시간(ms) 응답시간(ms) 원 달러(SPOT) 원위안(SPOT) 이종통화(SPOT) 기타 CDM TPM EtoE 응답시간 업무별 추적 S금융기관 – 대시보드 구축 지역별 주요 성능 지표 모니터링용 통합 대시보드 구축 업무별 주요 성능 지표 중심의 통합 대시보드 구축 업무별/구간별 통합 모니터링용 대시보드 구축
  • 22.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 엑셈의 클라우드 모니터링을 위한 AI 기술
  • 23.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 장애 예측 시스템 – AI기술(딥러닝 학습) 서버 네트워크라우터디바이스 로그파일 다양한 성능 데이터 수집 Platform 3’rd Party Solutions Data 부하 예측 장애 예측 비정상 탐지 부하 패턴 분석 임계 구간 주요 지표별 비정상 탐지 기능 다양한 연관 지표 상관 분석/진단 • 다양한 성능 데이터 수집/가공2 • 사전 장애 예측:4 •원천 데이터 수집1 Predictive Alert, Anomaly Detection, Root-Cause-Analysis • 사전 장애 예측 및 장애 패턴 학습(딥러닝) 3
  • 24.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 분야 AI 적용 분야 상세 기능 및 적용기술 비고 부하/ 장애 예측 부하 예측 (Load Forecast)  과거 수집 데이터로 인공지능이 학습하여 미래 부하 예측 - 과거 약 3개월간 System Metric 데이터로 인공지능이 학습 - 지난 1시간 동안 System Metric 데이터로 앞으로 1분, 30분, 60분전의 부하량을 사전에 예측 장애 예측 (Failure Forecast)  수집된 데이터의 트랜드를 예측하여 미래 특정 시점에 장애가 발생할지를 미리 알려주는 기능 - 실데이터로 학습해서 adaptation하므로 기존 머신러닝 방식 대비 예측 정확도 향상 - 예) Tablespace full, Disk full, CPU 과사용 등 비정상 탐지 (Anomaly Detection)  과거 데이터를 기반으로 신뢰 궤적을 그리고 관측치가 그 범위를 벗어나는 경우 비정상 탐지로 간주 - 기존 데이터 패턴과 다른 이상 그래프 파형 감지 3/10 3/11 3/12 3/13 3/14 3/15 3/16 3/17 3/18 AI 적용 분야(1/2)
  • 25.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. 분야 AI 적용 분야 상세 기능 및 적용기술 비고 장애 분석 부하 패턴 분석 (Load Pattern Clustering)  부하 패턴을 몇개 유형으로 범주화하여 학습 - 예) 특정 이벤트 일(월말 정산일, 수강 신청일 등) 요일별/시간대별 부하 패턴(주간 온라인, 야간 배치 등) 인과 관계 분석 (Causality Analysis)  비정상 발생 후, 인공지능에서 해당 문제에 대한 연관 지표 학습을 통하여 증상/징후를 찾아주는 기능 - 특정 지표의 문제가 다른 지표와 관련이 있는지 확인 근본 원인 분석 (Root-Cause Analysis)  장애 발생시 장애의 근본 원인을 찾아주는 기능 - 사전에 고객사별 장애의 원인 및 분석하는 방법을 Rule로 등록, 장애가 발생했을 때, 인공지능 Rule Engine에서 장애에 대한 근본 원인을 찾아주는 기능 Smart 알람 지능형 임계치(알람) 설정 (Smart Alert)  과거 수집 데이터 학습을 통한 Automatic Alert Threshold 설정 - Dynamic한 부하에 맞게 적절한 임계치가 자동으로 설정되어 적절한 알람이 발생되는 기능(=smart alarm) ? AI 적용 분야(2/2)
  • 26.
  • 27.
    © 2018, AmazonWeb Services, Inc. or Its Affiliates. All rights reserved. AWS Summit 모바일 앱과 QR코드를 통해 강연 평가 및 설문 조사에 참여해 주시기 바랍니다. 내년 Summit을 만들 여러분의 소중한 의견 부탁 드립니다. #AWSSummit 해시태그로 소셜 미디어에 여러분의 행사 소감을 올려주세요. 발표 자료 및 녹화 동영상은 AWS Korea 공식 소셜 채널로 공유될 예정입니다. 여러분의 피드백을 기다립니다!