Lg Cns System Management Improvement(Summary)

Microsoft Consulting Services
IT 서비스 관리 및 관리 프로세스 고도화 방안

김성수

IT 서비스 관리 관리 프로세스

• 관리 프로세스 고도화
 관리 프로세스는 통상 2-3 단계를 거쳐 고도화 가능

 고객 특성에 맞는 관리 프로세스가 확립되어야 함
 서버 장애 패턴 및 처리 Know-how가 축적되어야 함
 궁극적인 목표는 Service Level Management가 가능한 수준
 Service Level Management의 정의에는 서비스 수준에 대한 정책이 필요함 (Scorecard)

서비스 모니터링
가용성
& 관리

SLA
Service Level 관리 Metrics To-Be 레벨
Monitoring

Capacity
변경 관리 용량 관리 Monitoring

Availability
Metrics Estimated Level
문제 관리 Monitoring After MOM Project
서비스 데스크 및 가용
성을
Incident 관리 고려 Incident
한 Detection
Reactive Proactive 설계 Monitoring

Page 2


 MOM의 Infra 적용 시 가능 해지는 영역

서비스 모니터링 SLA 중 서버
용량 평가에 대한 기초 자료 제공 가능 가용성
& 관리 가용성, 성능 및
장애 이력 부문
SLA 지원 가능
Service Level 관리 Metrics
Monitorin
g 성능 평가, 증설
기준 자료 제공
가능
총체적 문제 Capacity
관리를 위해서는 변경 관리 용량 관리 Monitorin
Incident 관리 g
프로세스 개발
필요
Availabilit
y Metrics
문제 관리 Monitorin
g
서비스 데스크 및 가용
Incident 관리 성을
Incident
고려 Detection
Reactive Proactive 한 Monitorin
설계 g

KEDB 축적 후 가능, SLA Scorecard와 연계 되는 수준
MOM 적용 후 수용 가능한 역량

MOM 적용 후 수용 가능하지만 기능 추가나 보완이 필요 (부분 지원 가능)

Page 3


기능 서비스 모니터링 및 관리 수행 사고 관리 수행

서버 기능 모니터링
YES 자동화 작업
자동 처리 가능
수행
서버 가용성 네트워크 가용성
NO
모니터링 모니터링

YES 운영자 작업
서버 성능 네트워크 성능 운영자 처리 가능
수행

서버 응용 응용 프로그램 NO 작업
피드백
프로그램 가용성 응답 시간 결과
모니터링 모니터링 YES
KB KB 작업 조치

NO
YES
서버 장애 NO
신규 장애 처리 장애 해결
운영
NO
YES
Noti 피드백
모니터링 Rule YES
서비스 정지 ficat 장애 해결 처리
조정
ion
NO

YES 장애 처리 이력
임계값 초과
+
Unintended
Down Time
+
KEDB
현업 SM(SD) 담당자
통지
장애등급책정 및
장애 발생 인지 NO YES
통보
자동화
유선/메일 유선/메일
1 2

Page 4



성능 및 상태 성능 및 상태 반영
정보 분석 정보 가용성 분석 가용성 정보
장애 처리 이력
운영

현 상태 데이터 누적 현 상태 데이터 이력 정보

Ticketing Workflow Sample

Alert 1 2
Alert 생성 상태 정보
필터링

장애
관리(Ticke Business
Ticket 생성
ting 사례) Logic 적용 수동 장애 처리 자동 장애 처리
(Trouble (Auto
Ticketing) Ticketing)
MOM에서
Alert 접수
Update

Service
서비스 메트릭 보고서
Level Service Level
Managem Agreement
ent

(다음 페이지)

Page 5


기능 서비스 수준 관리 및 모니터링

서비스 메트릭 및 보고서
Service Level
Agreement

반영 및 변경 조정
분석
관리


서비스 수준
설계 및 수정 SLA 체결
요구 사항 합의 서버 가용성 네트워크 가용성

Service
용량 관리 DB 용량 및 서비스 서버 성능 네트워크 성능
Level 예산 합의
Update 수준 문제 해결 모니터링 모니터링
Managem
ent 서버 응용 응용 프로그램
프로그램 가용성 응답 시간
관련
요구 사항 변경 관리 SLA 준수 모니터링 모니터링
프로세스

서비스 수준 조정 서비스 수준
임계값 예외 보고서

용량 관리 DB
(서비스 수준
관리 DB)
CMDB

Page 6



YES 자동화 작업
자동 처리 가능
수행
NO

YES 운영자 작업
서버 성능 네트워크 성능 운영자 처리 가능
수행

서버 응용 응용 프로그램 NO 작업
피드백
프로그램 가용성 응답 시간 결과
모니터링 모니터링 YES
KB KB 작업 조치

NO
YES
서버 장애 NO
신규 장애 처리 장애 해결
운영
NO
YES
Noti 피드백
모니터링 Rule YES
서비스 정지 ficat 장애 해결 처리
조정
ion
NO

YES 장애 처리 이력
임계값 초과
+
Unintended
Down Time
+
KEDB
통지
장애 발생 인지 NO YES
통보
자동화
1 2

Page 7



성능 및 상태 성능 및 상태 반영
정보 분석 정보 가용성 분석 가용성 정보
장애 처리 이력
운영

현 상태 데이터 누적 현 상태 데이터 이력 정보

Ticketing Workflow Sample

Alert 1 2
Alert 생성 상태 정보
필터링

장애
관리(Ticke Business
Ticket 생성
ting 사례) Logic 적용 수동 장애 처리 자동 장애 처리
(Trouble (Auto
Ticketing) Ticketing)
MOM에서
Alert 접수
Update

Service
서비스 메트릭 보고서
Level Service Level
Managem Agreement
ent

(다음 페이지)

Page 8



서비스 메트릭 및 보고서
Service Level
Agreement

반영 및 변경 조정
분석
관리


서비스 수준
설계 및 수정 SLA 체결
요구 사항 합의 서버 가용성 네트워크 가용성

Service
용량 관리 DB 용량 및 서비스 서버 성능 네트워크 성능
Level 예산 합의
Update 수준 문제 해결 모니터링 모니터링
Managem
ent 서버 응용 응용 프로그램
관련
요구 사항 변경 관리 SLA 준수 모니터링 모니터링
프로세스

서비스 수준 조정 서비스 수준
임계값 예외 보고서

용량 관리 DB
(서비스 수준
관리 DB)
CMDB

Page 9



기술 데이터

조직 데이터

비즈니스 데이터

재무 데이터

UML이나 시퀀스
다이어그램을 통해 정의
(처리 프로세스 및
R&R의 정의)
부하 관리
Service 서비스 수준
Level 성능 관리
요구 관리
Managem 리소스 관리
ent 모델링 및
용량 관리 DB 애플리케이션
관련 용량(or 서비스
관리
수준) 평가 (서비스 수준
프로세스 관리 DB)

변경 관리 개발 관리
서비스 수준 관리

용량 계획
보고서
(서비스 수준 계획)

Page 10


모니터링 및 장애처리 주요 프로세스 Diagram

사용자 담당자 접수 시스템 관리자 2선 지원 관리자 Vendor 지원

문제보고
문제 등록

Information/ Howto

장애증상 및 정보

심각도 및
우선순위 판별

조치가능여부
Check

진행
KEDB Check
방향
(상-하)
조치 상황 Update 조치상황
Update

장애 및 조치 상황 보고

라우팅
장애 분석 및
조치

조치 상황 Update 장애 처리
정보 Update
Routing 장애 조치 상황 보고

지원 요청

Page 11


모니터링 및 장애처리 주요 프로세스 Diagram

사용자 담당자 접수 시스템 관리자 2선 지원 관리자 Vendor 지원

장애 분석 및 조치

장애 처리 상황 보고

문제 DB
Update

장애 이력 DB
Update
진행
방향 모니터링
(상-하) 검토 및 반영

KEDB
Update
For
Proactive
결과 통지 Service

결과 승인

Case Close

장애 처리 완료 보고

Page 12



용량 관리 DB (= 서비스 수준 관리 = Configuration Management DB)의 정의 및 Break-down

Support Cycle

시작
Incident 관리
KEDB
DB CMDB 정보 영역

Capacity
Incidents
SLAs

통합 IT 서비스 영역
Service 가능
Level 가용성
Managem 문제 및
장애관리 라이센스
ent
용량 관리 DB Finance
관련 (서비스 수준
프로세스 관리 DB) 변경관리

변경 관리 CMDB 지원 인력

위치(Location)

자산

적용 버전 관리(Release)

문서

시스템 상태 KB(KEDB)
변경 관리 DB 장애 이력 DB
DB
Incidents
종료

Page 13



Proactive 서비스

Proactive 통합 가능
서비스

Proactive
Analysis Incident 관리
장애 이력 DB KEDB
DB

분석 대상의 선정

Priority (High 이상)
Service
Level 발생 빈도
Managem
관련 파급 문제의 수
ent
업무 중요도
관련 용량 관리 DB
프로세스 해결 기간(장애 시간) (서비스 수준
관리 DB)
동일한 장애가 예상
CMDB
보안 문제

기타 분석 및 정책

예방
작업
예방정비
(정기점검)
시스템 상태
변경 관리 DB 구성 관리 DB
DB
예방조치
(비 정기)

Page 14



Downtime 산정 및 Incident 관리 Cycle

Downtime

조치 시간

Response Recovery
Time Time
감지 시간

Service Incident 감지 원인 조사 조치 복구 복구 및 Incident
n 및 요청 및 분류 프로세스 가동 n+1
Level
Managem
ent 로깅 (Incident 처리 상태 정보,
관련 장애 이력 DB, KEDB)
프로세스
가용성

가동 시간 – Downtime (장애 이력 DB)
가용성 = X 100

가동 시간 (총 시간 – 계획된 Downtime)

목표 가동 시간 – Downtime
목표 가용성 = X 100

목표 가동 시간

Page 15



Downtime 산정 및 Incident 관리 Cycle

Downtime

조치 시간

Response Recovery
Time Time
감지 시간

Service Incident 감지 장애 분석 조치 복구 복구 및 Incident
n 및 요청 (원인 (장애 프로세스 가동 n+1
Level 조사 및 처리)
Managem 분류)
ent
관련
처리 우선 순위의 결정 요인
프로세스
Incident(문제점) 상태 정보 KEDB (Known Error DB)
Impact 비즈니스 Impact
신규 신규
SLA에 의거

사용자 수 접수 기술 영역

동일 로직 혹은 컴포넌트 예정 작업 증상/문제점 Keywords

Urgency 빠른 대응이 필요한 경우 작업 할당/ Dispatch 관련 문제점

Pain Value를 관련 Incident의 수 x 기간 x WIP (Work in Progress) 원인
이용한 평가 심각도 x 가중치 On-Hold Resolution (조치)
Return Value에 대한 조치 Resolved 발생 빈도
우선 순위 결정
8:2 법칙 (80% of Benefits in Closed 심각도
first 20% of Effort

Page 16


기능 서비스 모니터링 및 Notification

Monitoring
Event 발생 Alert 발생 Notification
Rule

YES

NO
반영 가능? 입력

Notification Group

수동 장애 감지 장애 분석 AD, DNS, DHCP Network Administrators

SQL 2000,2005 Database Administrators
운영
IIS 6.0 IIS Administrators

MOM 2005 MOM Administrators

SMS 2003 SMS Server Administrators
장애 내역 및 분석 기록
SMS Client Administrators
장애 일시 -
CA CA Administrators
접수자 -
IAS IAS Administrators
장애 분류 Categories, Sub categories,
NetKeeper NetKeeper Administrators
Routing 그룹
WSUS WSUS Administrators
원인 조사 Categories, Sub categories,
Routing 그룹 네트워크 관리 그룹 Real Network 관리자
처리 상태 정보 Update 일시, 내용 및 영역 시스템 관리 그룹 관리 그룹 및 책임자
장애 관련 정보 첨부 파일, 장애 처리 요청서 서비스 데스크 사용자 지원 데스크

Page 17


기능 서비스 모니터링 및 관리 수행

서비스 수준 관리

Severity Level (MOM Default)
1 Success
Information 레벨 용량 관리 DB
2 Information (서비스 수준
서버 가용성 네트워크 가용성 관리 DB)
3 Warning Warning 레벨
4 Error
서버 성능 네트워크 성능
5 Critical Error
Critical 레벨 모니터링 모니터링 CMDB 정보 영역
6 Security Issue
서버 응용 응용 프로그램 Capacity
7 Service Unavailable 프로그램 가용성 응답 시간 SLAs
IT 서비스 영역
운영
가용성
Customization
라이센스

Finance
LG Customized Severity Level 변경관리
Business Logic에 의해 재정의된 레벨
1 Critical 지원 인력
SLA에 의해 정의된 증상
2 High KEDB 증상 위치(Location)
3 Medium 자산
증상 A
4 Low 버전 관리(Release)
증상 B
5 Question 문서
증상 C KEDB에 기 정의된 문제점
6 Unspecified KB(KEDB)

Incidents

Page 18


기능 서비스 모니터링 및 관리 수행

Impact
SLA에 의해 정의 및 조정
High Medium Low

High 1 2 3
Urgency

Medium 2 3 4

Low 3 4 5

Priority Code 분류 초기 응답 시간 해결 시간
CMDB 정보 영역
1 Critical 30 분 2 시간
Capacity
2 High 4 시간 8 시간
SLAs
3 Medium 6 시간 24 시간
IT 서비스 영역
4 Low 1 일 72 시간
운영
가용성
5 Information/Planning 3 일 -
라이센스

Finance
Customized Severity Level 변경관리
Business Logic에 의해 재정의된 레벨
1 Critical 지원 인력
SLA에 의해 정의된 증상
2 High KEDB 증상 위치(Location)
3 Medium 자산
증상 A
4 Low 버전 관리(Release)
증상 B
5 Question 문서
증상 C KEDB에 기 정의된 문제점
6 Unspecified KB(KEDB)

Incidents

Page 19


• 향후 고도화 권고 작업
영역 기능 방안

네트워크 모니터링 1  네트워크 팀과 협의를 통해 네트워크 상황 및 소통량을 검지 및 분석할 수 있는 역량 필요
사용자 애플리케이션 2  Management Pack이나 모니터링 툴 구매, 개발 및 연계
서비스 모니터링 1  SLA 수준의 모니터링을 위해서는 서비스 모니터링 고도화 필요 (서비스 품질, 응답 시간 모니터링)

1  모니터링 룰이 서버, 애플리케이션, 서버 역할, 서비스 수준 목표, 임계값 설정, Alert Filtering
모니터링 등에 대해 상세히 정의 및 적용되어야 함
모니터링 규칙
2  Alert 발생 시 중복 내용 제거 및 통합

1  자동 감지 및 Notification은 모든 서비스 장애를 수용할 수 없으므로 이 부분을 위한 개발 필요
수동 감지 및 보고  분석 후 자동 감지가 가능한 항목은 자동 감지에 반영해야 감지로 인한 지연 시간을 단축할 수
2
있음
 장애 이력과 처리 및 효과적인 해결 정보, Workaround 축적 필요
1  관련 문제, 파급 효과, 문제 처리 정보 Keyword 및 분야별 정보 검색 필요
KEDB 혹은 Company
장애 분석
Knowledge DB 2  SLA와 관련 하여 처리 우선 순위 결정이 가능해야 함
 사전 조치가 가능한 항목 분석 (예: 윈도우 보안, 버그, 서버 설정 문제 등)
 통지 그룹, 처리 그룹의 상세 정의
 Incident 및 문제 처리 시스템 화 (개발 필요함)
1  처리 내용이 검색 가능하고 정해진 룰에 따라 입력되어야 함
장애 처리 장애 처리 프로세스  처리 내역이 축적되어야 함
2
 처리 내역 통계 분석이 가능해야 함
 장애 분석 및 처리 프로세스가 자동화 작업과 연계 가능하도록 구현
 필수 항목 입력 강제화
2  하드웨어 및 자원 관리 부문 보완
변경 관리 변경 관리 프로세스
 구성 관리를 포함할 수 있음
용량 관리 용량 관리 룰 2  용량 관리가 가능한 데이터는 축적 가능하나 SLA에 관련하여 용량 분석 기준은 보완해야 함

Page 20


• 향후 고도화 권고 작업
영역 기능 방안

 협의를 통해 재구성되나 시스템 성격 및 수준에 따라서 문서가 아닌 템플릿을 보유해야 함
SLA 템플릿 2
 제안할 수 있는 SLA Scorecard 보유
2  Scorecard에 기준한 통계 보고 및 근거 자료 제시
통계 분석 및 보고
3  보고서 작성의 유연성 및 성능
SLA  제공 서비스 수준에 따른 HW, SW, 인원 비용 산정 및 평가
2  템플릿 및 Scorecard와 연계하여 작성
SLA 분석  보장 불가능한 항목 제거, 서비스 수준 예외 항목 정의
3
 정책 및 Rule 반영 요구의 수용
 서비스 가용성 산정

1 1 단계
High Level SLA Metric 사례 SLA 및 투자 평가 루틴 사례 2 단계
2
3 3 단계

IT BSC
목표 대비 가동율
1
변경 관리 응답 시간 재무 전체
효익 효익
0.5
보안 문제 처리 재무적으로 표현된 전체 효익
0 IT 성과 지표 ROI

원인 분석 정보 축적 cost cost
SLA / charge back
편의성 자동화
IT cost IT cost
(actual cost) (standard cost)

예산 / Budgeting
cost

Page 21


• 기타 Error Review
서버종류 Alerts 대응 조치

 서비스 응답 없음: 서비스 점검 w/ 벤더사 기술 지원 인력
Service Unavailable
 대상: 3rd Vendor’s solution
 Blocking: 간혹 발생(뒤에 설명)
 Active Directory Object, UPN, 복제 지연, GPO: 복제 시간이 긴 경우, 네트워크에 문제가
Critical
있는 경우 등 여러 가지 경우가 있음. AD 점검 및 정비(Clean-up) 작업 필요.
 SQL 서버 Space Analysis TimeOut
SQL
 시스템 셧다운(정비 등을 위한 셧다운이라면 ‘Planned’로 Check하고 셧다운)
Error  서버 Not found, AD Replication 관련(AD 관리 팩으로 점검, 기술 지원 요청), RPC Error 들
 기타 Error들
 웹 페이지 Internal Error: 웹 사이트는 VisualStudio 웹 테스트로 Recording해서 결과를
Warning 확인할 수 있음.
 기타 내용: Replication 시간, Runtime Error, Machine Account Error 등
 전체적으로 서버에 실질적으로 장애를 일으키는 경우는 많지 않은 것으로 판단됩니다.
 전반적으로 AD 관련 Alert이 많은데 이유는 네트워크, 복제량, 설정 문제일 수 있습니다.
 서버가 특화되어 사용되지 않고, 겸용으로 사용하는 경우가 많은 것 같습니다. 이것은 중요도가 높은 업무라면 분리를 고려하는 것이 낫습니다.
 데이터를 축적해서 충분한 정보를 얻기 까지 현재의 모니터링을 지속하는 것이 낫습니다(무조건 줄이기 보다는) 그러나 큰 의미 없는 성능
Counter와 Timeout 시간 조정 등은 충분히 검토하신 후 조정할 수 있습니다. 또 이것은 나중에 개선 지표로 사용될 수 있습니다.
 Alert이 발생하는 빈도가 높은 내용을 하나씩 검토하여 조정하면 모니터링 내용이 자동으로 적절하게 조정이 될 수 있습니다.
 Warning 내역을 조치해서 Critical 쪽의 문제가 해결되는 경우도 있으므로 되도록 Error나 Warning 레벨의 문제도 정기적으로 점검해야 합니다.
 SQL Backup 스케줄이 실패하는 것은 복구 시 많은 데이터를 잃을 수 있으므로 바로 조치해야 합니다.
 네트워크 상황과 서버 튜닝(SQL, IIS, AD 등)을 잘해두면 Alert이 대폭 감소합니다.

Page 22


 오른쪽의 모니터링 프로세스를 지킬 수 있도록 프로세스를 정합니다.


서버 성능 네트워크 성능

서버 응용 응용 프로그램

YES
서버 장애

NO

모니터링 Rule YES 알
서비스 정지
조정 림
NO

YES
임계값 초과

통지
장애 발생 인지
통보


Page 23


 원인이 어느 정도
파악되면 적합한
담당자에게 할당
 해결이 되면
Company
Knowledge에 내용
Update
 분류나 기타 정보의
입력은 Custom Field를
임의로(규칙을 정해서)
정하여 입력하면
편리하다.
 Ticket ID의
Naming Convention을
정해서 Ticket ID만으로
어느 정도 어떤 종류의
문제인지 알 수 있도록
하는 것이 좋습니다.
Ticket ID 예: 날짜-
서버이름-소프트웨어-
영역분류-일련번호, 즉
20060131-LGEMOM-
SE2Q-SQL-
Performance-0023

Page 24


 Severity
 발생 빈도
 성능 관련 적용 Rule
Check하여 적당한
수치인지 검토하여
상황에 맞게 변경한다.

Page 25


 Blocking 발생
 SPID 404로 인해
114를 사용하지 못함.
 Blocking은 시스템
관리자가 풀 수 없으며
애플리케이션 담당자와
내용을 검토하여
Blocking 이유를
해소하거나 Timeout
시간을 연장하는 방법이
있다. 이와 같은 문제의
해결 책임은
애플리케이션 담당자에
있다.

Page 26


 오른쪽 그림에서와
같이 Product
Knowledge 탭의 정보를
사용하여 원인을 파악할
수 있다.
 불필요한 Locking에
의해 Blocking이
되었다면 이를 해소하면
된다. 예: Nolock
옵션의 사용 등

Page 27



Page 28



Page 29



Page 30

© 2006 Microsoft Corporation. All rights reserved.
Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information herein is for informational
purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted
to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation.
MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.
Page 31

Lg Cns System Management Improvement(Summary)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (7)

Similar to Lg Cns System Management Improvement(Summary)

Similar to Lg Cns System Management Improvement(Summary) (9)

Lg Cns System Management Improvement(Summary)