2. 2
황인균
차례
문서 개요
KPI기반 성능 평가 체계 개요
성능 관리 KPI 정의
성능 관리 KPI 수집 및 분석
성능 확보 방안 수립 및 개선
참고) 성능 모니터링 자동화 솔루션
참고) 개선 확인 항목 예
3. 3
황인균
문서 개요
※ “KPI기반의 정량적 성능 평가 체계”는 “첨부. 성능 관리 체계 수립 전략”에서 도출된 전략을 기반으로 구축되고 있다. KPI 기반
평가 체계에 대한 도출 전략은 첨부 문서를 참고한다.
많은 기업에 있어서 적합한 성능 관리 전략 없이 솔루션 벤더가 제공하는 솔루션 포트폴리오만을 고려하여
구축함으로써 성능 관리 효과를 극대화하지 못하는 경우가 빈번하다. 본 문서는 단순한 솔루션 기반의 성능
관리보다는 정량적인 성능 관리에 대한 가이드라인을 제공하고자 한다.
4. 4
황인균
KPI 기반 성능 평가 개요
본 성능 관리 체계는 일반 성과 평가 체계와 마찬가지로 정보 시스템의 성능 만족도를 파악하기 위해서 핵심
성과 지표(KPI) 기반의 정량적인 평가 체계를 정의하고 있다.
네트워크 관리(NMS) 서버 관리(SMS) 어플리케이션 관리(APM)
성능관리 KPI 체계
KPI 데이터 수집
성능 관리
성능 개선 판단
5. 5
황인균
성능 관리 KPI 정의
처리량
구분 성능 관리 KPI 상세 설명
온라인(인터페이스) 처리량 단위 시간당 처리된 트랜잭션 처리 건수(Trans/sec)를 의미한다.
배치 처리량 지정된 시간 동안에 처리된 데이턴 건수(데이터 볼륨, 수행시간 또는 Data/sec)를 의미한다.
응답시간
구분 성능 관리 KPI 상세 설명
클라이언트 클라이언트 처리 시간
메시지 변환, 화면 출력, 스크립트 수행, 암/복화, 데이터 압축/해제 처리 시간 등의 처리 시간
(초)을 의미한다. 클라이언트 PC 사양에 따라서 크게 영향을 받는다.
네트워크 처리 시간 네트워크 구간에 존재하는 각 네트워크 장비에서 처리된 시간(초)을 의미한다.
회선사용률 정보 시스템의 각 서버에 연결된 네트워크의 회선 사용률(%)을 의미한다.
시스템 리소스 사용률 네트워크 장비의 리소스(CPU, Memory) 사용률(%)을 의미한다.
어플리케이션 수행 시간 및 처리량 업무 서비스와 관련된 어플리케이션에서 수행된 시간(초)과 처리량(Trans/sec)을 의미한다.
SQL 수행 시간 및 처리량 업무 서비스와 관련된 SQL에서 수행된 시간(초)과 처리량(Trans/sec)을 의미한다.
대기 이벤트 시간
DBMS에서 발생한 대기 이벤트(CPU, IO, Buffer Memory, Lock, Latch, Network)에서 소요된 시
간(초)을 의미한다.
인터페이스 수행 시간 및 처리량 업무 서비스와 관련된 연동 시스템에서 수행된 시간(초)과 처리량(Trans/sec)을 의미한다.
서비스 리소스 사용률
업무 서비스와 관련된 서비스 리소스( 프로세스, 쓰레드, DB connection, NW connection, Pool,
etc)에 대한 사용률(%)을 의미한다.
시스템 리소스 사용률 업무 서비스와 관련된 서버들의 리소스(CPU, Memory, Disk) 사용률(%)을 의미한다.
네트워크
서버
처리량
본 평가 체계는 아래 개별 성능 목표 별 세부 기준에 따라 성능 관리 KPI 지표를 정의하고 있다.
처리량(Throughput )
응답시간(Response Time )
시스템 리소스 사용률( System Resource Usage )
6. 6
황인균
KPI 데이터 수집을 위해서는 사전에 성능 모니터링 체계 구축이 필요하다.
임계치, 측정 주기, 측정 방안, 데이터 보관 주기, 분석 주기
성능 모니터링 체계 예제
성능 관리 KPI 수집 및 분석
성능 관리 KPI 관련 솔루션 임계치 측정 주기 보관 주기 분석 주기
시스템 리소스 (CPU) 사용률(%) SMS 평균 60% 이하 5초 2년 일간
시스템 리소스(Memory) 사용률(%) SMS 평균 70% 이하 5초 2년 일간
시스템 리소스(Disk) 사용률(%) SMS 80% 이하 1일 2년 일간
시스템 리소스(CPU) 사용률(%) NMS 평균 30% 이하 1시간 1년 일간
시스템 리소스 (Memory) 사용률(%) NMS 평균 30% 이하 1시간 1년 일간
회선(WAN) 사용률(%) NMS 평균 60% 이하 5분 1년 일간
회선(LAN) 사용률(%) NMS 평균 40% 이하 5분 1년 일간
서비스 리소스 사용률(%) APM(M/W) N/A 5분 1년 일간
어플리케이션 수행 시간(초) APM(M/W)
조회 : 2초 이하
갱신 : 3초 이하
1분 1년 일간
어플리케이션 처리 건수( Trans/sec) APM(M/W) N/A 1분 1년 일간
인터페이스 수행 시간(초) APM(M/W) 평균 0.1초 이하 1분 3개월 일간
인터페이스 처리 건수(Trans/sec) APM(M/W) N/A 1분 3개월 일간
SQL 수행 시간(초) APM(DBMS) 평균 0.1 초 이하 5초 3개월 일간
대기 이벤트 시간(초) APM(DBMS) 평균 0.2 초 이하 1초 3개월 일간
Active Session 건수(건) APM(DBMS) N/A 5초 3개월 일간
미들웨어
( 어플리케이션 포
함)
DBMS
네트워크
서버
※ 정보 시스템 구축 단계에서는 성능 테스트 수행시에 유입되는 부하량을 기반으로 성능 관리 KPI 데이터를 수집하고 결과를 분석한다.
7. 7
황인균
성능 확보 방안 수립 및 개선
KPI 데이터 수집
성능 관리자
성능 개선 완료
성능 관리자
성능 튜닝
개발자/SQL 튜닝 전문가
Application 전문가
System 전문가
개선 방안 수립
SQL 튜닝 전문가
Application 전문가
System 전문가
성능 장애 원인 분석
SQL 튜닝 전문가
Application 전문가
System 전문가
목표
달성
조치 결과 통보
N
Y
SQL 튜닝 전문가가 이슈 발생시 모니터링
도구를 이용하여 원인 파악
SQL 튜닝 전문가는 원인 파악 후 2일 이내에
튜닝 가이드 제공(기한 초과시 다음 회차
이관)
개발자 또는 DBMS 전문가는 튜닝 가이드에
따라 조치
조
치
파
악
및
조
치
절
차
산
출
물
Application 전문가가 이슈 발생 시 모니터
모니터링 도구를 이용하여 원인 파악
Application 전문가는 원인 파악 후 2일
이내에 튜닝 가이드 제공(기한 초과시 다음
회차 이관)
개발자 또는 솔루션 담당자는 Application
튜닝 가이드에 따라 조치
System 전문가가 이슈 발생시 모니터링
도구를 이용하여 원인 파악
System 전문가는 원인 파악 후 2일 이내에
튜닝 가이드 제공(기한 초과시 다음 회차
이관)
System 담당자는 System 튜닝 가이드에
따라 조치
SQL 튜닝 가이드 Application 튜닝 가이드 System 튜닝 가이드
※ 성능 목표에 도달할 때까지 반복적으로 수행된다.
수집된 성능 관리 KPI 결과가 사전 협의된 성능 목표치를 달성하지 못한 경우, 성능 확보 방안 수립, 개선 활동 수행 필요
8. 8
황인균
참고) 성능 모니터링 자동화 솔루션
성능 모니터링 체계 구축에서 결코 간과할 수 없는 것은 “성능 모니터링 자동화 솔루션”이다. 성능 관리 KPI 데이터는
정보 시스템으로부터 주기적으로 수집되고 측정된 결과치가 사전 정의된 임계치를 초과할 경우 자동으로 경고(Alert)를
생성시켜야 하기 때문에, 정보 시스템 각 영역에 적합한 성능 모니터링 솔루션 선택은 필수 불가결하다.
과거, SMS/NMS 기반의 성능과
장애 관리는 오늘날, 정보 시스템
구조가 복잡해지고 그리고 인프라
리소스 사용을 증가시키는 실제
원인은 프로그램 또는 SQL 인
경우가 많아지고 있다.
APM에 대한 필요성이 증가되는
배경이라 할 수 있다.
Application
/PKG
Middleware
SQL
( DB Query)
DBMS
Server
Storage
Network
Database
어플리케이션
모니터링( APM )
시스템/네트워크
관리( SMS/NMS )
성
능
모
니
터
링
성
능
테
스
트
&
성
능
튜
닝
9. 9
황인균
DBMS
스키마,SQL 프로시저, 공유메모리 영역, 데이터베이스 파일 관리, 세그먼트 관리, 정렬 영
역, 롤백 세그먼트 관리, Locking 관리, 유저(세션)관리등과 주로 관련되어 있으면 각 세부
영역별로 개선 방안 수립 필요
업무 서비스 프로그램
솔루션 패키지, 개발 프레임워크, 디자인 패턴 등 세부 영역별로 상세한 개선 방안 수립 필
요
IT 인프라
리소스 과다 사용, 부적합한 파라미터 세팅, 환경 구성 오류 등과 관련되어 있으며 각 세부
영역별로 개선 방안 수립 필요
참고) 개선 확인 항목 예