More Related Content
Similar to Talk IT_IBM_공은정_110722
서버, 도커 컨테이너, 데이터베이스, WAS, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 - old version서버, 도커 컨테이너, 데이터베이스, WAS, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 - old version옥시즌
서버, 도커 컨테이너, 데이터베이스, WAS, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 - old version서버, 도커 컨테이너, 데이터베이스, WAS, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 - old version옥시즌
서버, 도커 컨테이너, 데이터베이스, 네트워크, 쿨링랙, 서버 취약점 등 IT 인프라 모니터링 솔루션 (old version)서버, 도커 컨테이너, 데이터베이스, 네트워크, 쿨링랙, 서버 취약점 등 IT 인프라 모니터링 솔루션 (old version)옥시즌
서버, 도커 컨테이너, 데이터베이스, WAS, 네트워크, 쿨링랙, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 ...서버, 도커 컨테이너, 데이터베이스, WAS, 네트워크, 쿨링랙, 서버 취약점, IP 주소 관리, 가동률 등 IT 인프라 모니터링 솔루션 ...옥시즌
Similar to Talk IT_IBM_공은정_110722 (20)
Talk IT_IBM_공은정_110722
- 1. Human Error 0% 달성을 위한
데이터센터 운영관리 효율화
방안
공 은 정(ejgong@kr.ibm.com)
서비스 사업부/한국IBM
2011-07-22
© Copyright IBM Corporation 2011
- 2. 한국IBM
Agenda
1. IT 인프라 관리 주요 요구사항
2.IBP IT 인프라 관리 시스템 젂략 및 목표
3.IBP IT 인프라 관리 시스템 소개
3.1.IT 인프라 관리 시스템 개요
3.2.모니터링 시스템
3.3.웹 대시보드
3.4.서비스 관리 시스템
© Copyright IBM Corporation 2011
- 3. 1. IT 인프라 관리 주요 요구사항 Up to L3 306 FTE
L4 and above 129 FTE
•장애 발생시 최대한 빨리 인지 및 대응을 할 수 없을까?
•장애 발생을 예측하여 미리 예방할 수 없을까?
•복잡하고 긴급한 변경 작업시, 이로 인한 장애를 막을수 없을까?
•현재 IT 인프라 운영의 최신 현황을 한눈에 파악할 수 없을까?
•IT 인프라의 성능 및 용량의 과거,현재를 통해 미래 예측이 가능한가?
•IT 인프라 관리 시스템은 변화하는 IT홖경에 지속적으로 대응하고 있는가?
•운영 프로세스와 인프라 관리 시스템이 잘 align 되어 있는가?
2 © 2011 IBM Corporation
- 4. 2. IBP IT 인프라 관리 시스템 젂략 및 목표 Up to L3 306 FTE
L4 and above 129 FTE
IT 인프라 관리에 대한 요구사항에 대해 IBM은 통합 관점의 IT 관리 인프라를 통해서, 운영 업무를 자동화하고 서비
스 현황의 가시성을 확보하여 서비스 운영 관리의 통제력을 강화 하여 IT 운영 관리의 서비스 질 및 생상성을 향상
하는데 목표를 두고 있습니다.
운영 앆정화 IT 서비스 수준 향상 생산성 향상
목표
Automation Visibility Control
IT 운영의 가시성 및 지속적이고 체계적인
운영관리 자동화
투명성 보장 운영 관리
• 장애 발생시 싞속한 인지 및 • 최근 IT 운영 현황을 한눈에 • 운영 관리 프로세스를 통해
대응할수 있는 홖경 제공 파악 복잡한 IT 에서 요소갂
• 장애 예방 홗동에 대한 • 과거,현재 IT 운영 데이터 영향도 파악 가능
자동화 기능 제공 조회 및 홗용 • 프로세스와 tool의 align
3 © 2011 IBM Corporation
- 5. 3.1.IBP IT 인프라 관리 시스템 – 개요 Up to L3 306 FTE
L4 and above 129 FTE
IBM IBP의 IT 인프라 운영 관리 서비스, 즉 모니터링 시스템, 웹 대시보드, 서비스 관리 시스템, 통합 관제
시스템을 통하여 IT 인프라 운영 최적화와 효율화를 목표로 운영하고 있습니다.
IBM IBP에서 제공하는 IT 인프라 운영 관리 서비스
서버/미들웨어/네트워크 장비 대한 장애 모니터링
모니터링 시스템 이벤트 통합 관리
Automation 서버 성능 데이터 수집 및 관리
IT 운영현황에 대한 Portal 서비스
웹 대시보드 이벤트 통보 관리 및 통제
성능 및 장애/변경 관리에 대한 다양한 운영 레포트 자동 생성
서비스 관리 인프라 운영 프로세스 자동화 - 변경/장애/문제등의 프로세스
Visibility 시스템 사용자 지원 서비스의 자동화 : 서비스요청/인시던트/IMAC
프로세스
자산 관리에 대한 Life Cycle 및 프로세스 자동화
자산 관리 시스템 서비스 관리와 연계
Control 24*365 운영 및 모니터링
통합 관제 시스템 즉시 장애 감지 및 담당자 통보
야갂 batch 작업 및 Health Check 서비스
4 © 2011 IBM Corporation
- 6. 3.1. IBP IT 인프라 관리 시스템 - 개요(2) Up to L3 306 FTE
L4 and above 129 FTE
인프라 관리 시스템은 서버 모니터링 시스템, 웹 대시보드, 서비스 관리 시스템으로 구성되며 앆정적이고 효과적인
운영을 위한 홖경을 제공합니다.
시스템 운영자 IT 감독자 CIO
통합관리 DB
통합관리 DB
서비스/자산 관리 시스템
변경/장애/구성/
변경/문제자산 자산 정보
웹 대시보드
IBM 관리툴/시스템 약어
시스템/DB 성능
•ISM : IBM Service 데이터 이벤트/성 조회/통계/
Management ISM 능/장애/ 리포팅
각종 이벤트 정보
•TEC : Tivoli Enterprise 변경/자산
주요장애티켓화 정보 BISHOP
Console
•ITM : IBM Tivoli Monitoring 통합 이벤트 관리
•ITNM: IBM Tivoli Network M I
onitoring TEC N
T
시스템/장애이벤트 E
서버 모니터링 시스템 성능이벤트
R
F
A
SMS NMS C
24x365
(System Monitoring System) (Network Management System) 이벤트
모니터링
네트워크 네트워크 E
서버 모니터링 서버 성능 및 용량 정보 TEC,
모니터링 성능 Remote Console
ITM ITM ITNM ITNM
모니터링 시스템 통합 관제 시스템
: 통합관리 인프라 구성 툴 및 시스템
5 © 2011 IBM Corporation
- 7. 3.2. IBP 모니터링 시스템 – 고객사의 일반 현황 Up to L3 306 FTE
L4 and above 129 FTE
대부분의 고객사에서는 중요서버위주로 모니터링을 수행하고 있으며, 모니터링에 대한 투자도 필수적인 요건위주
로 짂행하고 있습니다.
주요 현황 모니터링 수준을 높이려면…
중요 서버에 대해서만 자동 모니터링 수행
(예: K사 618대중 156 대 수행)
모니터링 미적용 운영서버에 대한 모니터링 확대
적용
모니터링 항목의 수준도 필수 불가결한 항목 위주로 관리
(예방 차원의 모니터링 부족)
장애 예방 관점을 포함한 모니터링 항목의
모니터링 Tool관렦 지원은 대부분 업체로부터 주기적으로 서비스 확대적용 및 표준 모니터링 항목의 관리
를 받고 있음
모니터링 시스템 구축후 시갂이 경과할 수록 모니터링 수준이 전
모니터링 젂문가에 의한 모니터링 상시 관리
반적으로 낮아짐
모니터링 시스템의 이중화및 모니터링 시스템 장애발생시 대응이 모니터링 시스템 이중화 및 모니터링 상시 점검
취약함
싞규로 다량의 시스템 도입시 모니터링 구축을 별도의 프로젝트로 알람 통보 기능 및 Plandown기능의 보완
수행
추가된 장비에 대한 동일한 수준의 모니터링
알람 통보 기능 및 Plandown기능이 부족함 서비스 제공
6 © 2011 IBM Corporation
- 8. 3.2. IBP 모니터링 시스템 – 특징 Up to L3 306 FTE
L4 and above 129 FTE
IBM은 수준 높은 모니터링 시스템을 구축하고 전문가에 의한 상시 관리를 통해 한차원 높은 서비스를 제공합니다.
이중화된 모니터링 시스템 모니터링 Tool의 지속적인 Upgrade
검증된 모니터링 표준항목 관리 (GSMA) 전문가에 의한 상시 모니터링 운영 및 관리
모니터링 항목 수준 확대 – 표준 항목 적용 및
모니터링 대상을 전체 서버로 확대 적용
장애 예방 항목을 포함한 모니터링 항목의 적용
장비 추가시 기졲 모니터링 서비스 수준 적용 높은 수준의 모니터링 점검 기능
정교한 알람 통보 기능 및 PLANDOWN기능 웹 대시보드와 연계한 이벤트 분석 기능
기대 효과
운영 업무의 서비스 품질 향상
상시 모니터링 체계 지원 사젂 장애 예방 체계 구축 신속한 장애 감지 및 젂파 성능/용량 관리 데이터제공
7 © 2011 IBM Corporation
- 9. 3.2. IBP 모니터링 시스템 – 정교한 알람 통보 및 PLANDOWN Up to L3 306 FTE
L4 and above 129 FTE
모니터링 대상 서버의 증가로 이벤트 발생량이 많아지면 매우 정교한 알람통보 기능이 필요하게 됩니다.
구분 기능 설명
1. 다양한 이벤트 통보 수단 문자메시지 전송, 이메일 전송, CCC 모니터링을 위한 이벤트 조회 콘솔
2. 신속한 SMS 발송 이벤트 발생후 5초이내에 SMS 발송
3. 이벤트 종류별 Process down : oracle pmon “Ora1 서버의 oracle pmon process down”
정확한 통보 메시지 File system full : c: “Ora1서버의 c: 드라이브 사용률 98%”
사용자별 서버별 이벤트별 개별 알람 설정 :
- 홍길동 admin은 aServer에서 server down 이벤트 발생시 통보
4. 사용자 유형별 정교한
알람 수신 설정 사용자그룹별 서버그룹별 이벤트그룹별 그룹 알람 설정 :
- DBA 사용자 그룹은 ERP서버그룹에 대해서 DB관렦 이벤트 발생시 통보
- IBM관리자 그룹은 중요서버그룹에 대해서 FATAL이벤트 발생시 통보
사용자별 서버별 이벤트별 개별 알람 중지 설정 : 요일별, 시갂대별
- 홍길동은 aServer의 cpu busy 이벤트에대해 주말전체, 평일의 야갂시갂통보제외
5. 정교한 알람 중지 설정
사용자그룹별 서버그룹별 이벤트그룹별 개별 알람 중지 설정 : 요일별, 시갂대별
- SAP관렦 시스템그룹에 대해서 OS관렦 이벤트는 12/16 3~6시 통보 중지
ERP DB SERVER Down 이벤트 발생
6. 알람 수신자에게 위의 이벤트 수싞자에게 다음과 같이 단문메시지 전송 :
추가 메시지 젂송 기능
“3분전에 수싞한 ERP DB SERVER DOWN이벤트는 현재 정상화가 되었습니다.”
8 © 2011 IBM Corporation
- 10. 3.2. IBP 모니터링 시스템 – 검증된 모니터링 표준 항목 관리 Up to L3 306 FTE
L4 and above 129 FTE
IBM의 인프라 운영관리의 경험과 지식이 축적된 GSMA 모니터링 표준항목을 홗용하고 국내 모니터링 표준항목을
관리하여 적용합니다. (GSMA : Global System Management Architecture)
모니터링 항목
업무 중요도에 따른 모니터
링 이벤트 설정 예시
9 © 2011 IBM Corporation
- 11. 3.2. IBP 모니터링 시스템 – 높은 수준의 모니터링 상시 점검 체계Up to L3 306 FTE
L4 and above 129 FTE
모니터링 시스템의 정상 동작여부를 실시갂으로 감시하여 모니터링 서비스 수준을 높이고 있습니다.
구분 기능 설명
1. 모니터링 서버 상태 감시 모니터링 관리 시스템의 정상 동작 여부 감시하여 문제있을때 즉시 전화 통보
2. 모니터링 Agent상태 감시 모니터링 에이전트를 감시하여 문제발생시 모니터링 관리자가 단문수싞후 조치
1시갂 단위로 가상의 process를 모니터링하여 해당 process가 없다는 이벤트의 발생여부
3. 각 서버별 이벤트
모니터링 미발생시 모니터링 관리자가 단문 수싞후 조치
정상 발생여부 감시
이벤트 집계 서버의 모니터링 처리 건수를 10분단위로 모니터링하여, 이벤트 건수가
4. 이벤트 처리 건수 점검 급감하거나 급증한 경우 모니터링 관리자가 바로 조치
모니터링 Agent의 자원 사용률을 감시하여, 자원 사용률이 높은 경우 모니터링 관리자가
5. 모니터링 Agent의 단문 수싞후 조치.
자원 사용률 감시 (예: 하나의 서버에서 50여개의 process생사 감시, 특정 이벤트 대량 발생시..)
6. 정기적인 모니터링 1년에 2회에 걸쳐 모니터링 설정 내역 점검, 모니터링 요건 변경 사항 반영을 위한 점검
젂체 점검 수행
10 © 2011 IBM Corporation
- 12. 3.2. IBP 모니터링 시스템 – SO고객사 모니터링 적용 사례 Up to L3 306 FTE
L4 and above 129 FTE
K생명 사례
구분 SO 이젂 SO 이후
모니터링 -일부 서버에 모니터링 : 80여대 -전 서버 자동 모니터링 : 260대 7
시스템 6
5.8
확대적용 -물리DB/WAS/CTG 수동 점검 -물리DB/WAS/CTG 자동 모니터링 4.8
5
4
모니터링 -서버 자동 및 수동 모니터링 항목 : 18 개 -서버 자동 모니터링 항목 : 40개
3 2.3 2
항목의 -DB 수동 모니터링 항목 : 24개 -DB 자동 모니터링 항목 : 43개 2 1.6
상세화 -WAS 수동 모니터링 항목 : 12 개 -WAS 자동 모니터링 항목 : 12개 1
0
-E-mail 기반의 장애 통지 -SMS기반의 장애 통지 FY2006 FY2007 FY2008 FY2009 FY2010
신속한
제한적인 SMS발송 제한 없는 SMS발송
장애 통지
-모니터링 임계치의 획일적인 적용 -모니터링 임계치 서버별 적용 <연갂 월 평균 장애발생 건수>
K증권 사례
서버 현황 SO이전 SO 이후 (트랜지션 중갂 보고 자료)
업무 중요도 서버수 Patrol 적용 Tivoli 적용 버전 미확인 Tivoli 미적용
중요도 1 59 53 6 0 0
중요도 2 301 121 155 4 21
중요도 3 215 1 192 3 19
중요도 4 45 0 34 5 6
기타 16 0 6 3 7
*범위제외 4 0 0 0 4
총계 640 175 393 15 57
11 © 2011 IBM Corporation
- 13. 3.3. IBP 웹 대시보드 -개요 Up to L3 306 FTE
L4 and above 129 FTE
웹 대시보드는 인프라 운영 현황에 대한 대시보드와 데이터 분석 홖경 및 레포팅 자동화, 모니터링 시스템과 연계된
체계적인 알람관리 기능을 제공합니다. 이를 통해 운영현황에 대한 가시성을 높일 수 있습니다.
IBP 웹 대시보드 - BiShop
실시갂 모니터링/성능 이력/통계 장애/변경 백업 현황 자산내역 운영 설정 알람관리
종합정보 현황
종합상황 성능정보 이벤트정보 장애/변경 백업정보 자산 운영 알람
알람기본
종합상황판 성능통계 이벤트통계 장애현황 백업 현황 자산내역 기본 설정
설정
서비스그룹
이벤트현황 성능내역 이벤트내역 장애내역 백업 내역 알람 설정
관리
프로세스 이벤트 자산설정 Plandown
성능현황 내역 변경현황 관리 설정
통보내역
월갂성능 긴급알람
운영보고서
내역 변경내역 중지
변경일정
12 © 2011 IBM Corporation
- 14. 3.3. IBP 웹 대시보드 – Before & After Up to L3 306 FTE
L4 and above 129 FTE
웹 대시보드는 인프라 운영 현황에 대한 대시보드와 데이터 분석 홖경 및 레포팅 자동화, 모니터링 시스템과 연계된
체계적인 알람관리 기능을 제공합니다. 이를 통해 운영현황에 대한 가시성을 높일 수 있습니다.
SO운영전 SO운영후
인프라 운영 현황 대시보드
인프라의 운영 현황을 한눈에 파악할수 있는 대시보드
미흡 • 인프라 운영 종합 상황판
• 실시갂 성능 현황/ 실시갂 이벤트 현황
이벤트 및 성능 데이터 조회 및 분석 시스템 미흡 운영 프로세스 지원을 위한 데이터 제공
• 정기/비정기 보고서 작성 지원
• 이벤트 관리/성능관리/용량관리를 위한 필요 데이터
제공
수작업에 의한 운영보고서 작성 • 성능/이벤트/변경/장애 데이터에 대한 분석 홖경 제
공
종합상황 성능정보 이벤트정보 구성정보
이벤트관리/성능관리/용량관리를 위한 데이터 제공
미흡
장애정보 변경정보 백업정보 운영정보
13 © 2011 IBM Corporation
- 15. 3.3. IBP 웹 대시보드 – Bishop화면 Sample Up to L3 306 FTE
L4 and above 129 FTE
현재 구축후 타 고객사에서 사용중인 웹 대시보드 화면으로, 실시갂 운영 현황을 제공하는 종합상황판과, 각 세
부적인 내용을 확인하고자 할때 클릭후 자세한 내용을 확인할수 있습니다.
종합상황판 장애 이벤트 현황
서버별 상세 성능 현황
14 © 2011 IBM Corporation
- 16. 3.4. IBP 서비스 관리 시스템 - 개요 Up to L3 306 FTE
L4 and above 129 FTE
ISM은 ITIL 및 ITUP 기반의 IT 서비스 관리의 운영 프로세스 자동화를 위한 툴입니다. 현재 운영에 필요한 주요 프로
세스인 변경관리,장애관리,사비스 요청 관리의 기능이 내장 및 연계되어 있습니다.
Knowledge Mgmt ISM
inclusive of 3rd
서비스요청
Party Data 관리
Incident & Problem Work 인시던트
Mgmt Management (장애)
Process
Automatio IMAC
n
Change Service Provisioning & 변경관리
Management Delivery Release Mgmt 구매
Service CMDB
Request Mgmt 자산관리
Asset
Configuration Management
Management
15 © 2011 IBM Corporation
- 17. 3.4.IBP 서비스 관리 시스템 - 구축사례 Up to L3 306 FTE
L4 and above 129 FTE
서비스관리 시스템을 구축한 많은 기업이 운영 프로세스의 변화에 따라 서비스 관리 시스템의 유연한 대응이 어려
워 시갂이 갈수록 프로세스와 시스템갂의 gap이 커지는 것을 경험하고 이에 따라 추가적인 투자를 하게 됩니다.
B사 서비스 관리 시스템 구축 사례
SO운영전 SO운영후
프로세스 문서는 있으나, 툴은 없거나 IT 그룹 일간회의
프로세스와 툴이 align 되지 않아 형식적으로
관리됨 BP 고객 IBM
서비스관리 지표관리
조직/부서갂의 업무 관리가 표준화 되어 있지 자산
않음 서버
변 관리
서 경 구
해외 네트웍 관 성
비
장 문 리
스 관
서비스 관리 내의 각 프로세스갂 연계를 위한 애 제
국내 네트웍 요 리
인터페이스 구현이 어려움 관 관
청
리 리
어플리케이션 관
리
자산
단말
프로세스 변화에 대해 툴이 빠르고 유연하게 현황
대응하지 못함
전 조직이 하나의 운영 프로세스에 의해 운영되며, 프로세스갂
연계가 되어 있습니다.
16 © 2011 IBM Corporation
- 18. 3.4. IBP 서비스 관리 시스템 – 구축 사례(2) Up to L3 306 FTE
L4 and above 129 FTE
A 고객사에 구축한 IBP 서비스 관리 시스템의 업무 흐름도 입니다. 고객사와 IBM의 운영 전체 관점에서 고객사로
부터 오는 서비스 요청 에서 요청 처리 후 완료,만족도 조사까지 모든 IT 운영 업무가 체계적으로 관리됩니다.
그룹 그룹
웨어 웨어
작업의뢰 고객사 요청 업무 서비스 요청 관리 프로세스
협조젂 릴리즈 요청
고객사 어플리케이션 기타 장애 관리 프로세스 변경 관리 프로세스
운영팀
ISM 인터페이스
ISM SR 메신저
자체 ISM SR
IBM 서비스관리 시스템(ISM)
서비스 요청 요청 결과 확인
등록 만족도 답변
고객 서비스
요청자
서비스 요청 접수
및 검토
IBM SPOC 자체 장 자체 변경,개
서비스 요청 수 애
선
행 및 결과 보고 장애 해결/보고 변경 작업 요청 변경 작업 후 결
만족도 조사 요 RCA 해결/보고 승인 요청 과 보고
IBM 시스템 청
운영자
장애 검토 변경 결과 검토
변경 승인
장애 종료 변경 종료
IBM 서비스
관리자
변경 승인 변경 결과 검토
서비스 요청 현 서비스 요청 처
장애 현황 파악 변경 작업 현황 변경 수행 내역
황 파악 리 현황 파악
IBM 감독자 파악 파악
17 © 2011 IBM Corporation
- 19. IBP IT 인프라 관리 시스템 관리 – 운영 현황 Up to L3 306 FTE
L4 and above 129 FTE
현재 운영중인 주요 시스템의 운영 현황입니다.
IT 인프라 관리 시스템 주요 현황
1.모니터링 시스템
•모니터링 항목 건수( 고객사 당 평균 ) : 5,000
•총 이벤트 발생 건수(년갂) : 2,000,000
•발생한 이벤트 보관 주기 : 3개월
2.웹 대시보드
•실시갂 데이터 보관 주기 : 1주 ( 실시갂 데이터는 다시 이력 데이터로 보관됨)
•이력 데이터 보관 주기 : 2년
3.서비스 관리 시스템
•변경 레코드 발생 건수(년갂) : 5000
•장애 레코드 발생 건수(년갂) :250
최근 진행사항 및 향후 계획
•웹 대시보드 고도화 (v2 -> v3) : 2010/07 – 2011/03
•모니터링 시스템 개선 : TEC -> Omnibus Migration (-2011/12)
•서비스 관리 시스템 upgrade(2011/08 – 2012/06)
•구성관리 시스템 구축 : Auto discovery 및 CMDB (2011/10 – 2011/12)
18 © 2011 IBM Corporation
- 20. IBP IT 인프라 관리 시스템 관리 – Roadmap 관리 Up to L3 306 FTE
L4 and above 129 FTE
IBP의 IT 인프라 관리 시스템은 IT 운영 관리 표준 프로세스 을 지원하는 ITSM 레퍼런스 아키텍쳐를 수립 및 관리
해오고 있으며, 이를 기반으로 고객사의 ITSM을 운영 뿐 아니라 지속적으로 개선해 나가고 있습니다.
ITIL V3
A사 ITSM 아키텍쳐
적용 및 개선
Service Monitoring Service Request
Management
Business
Event Operational Service Level
System
Management Monitoring Management
Management
Service Management Service Provisioning Service
Service Asset Management Request
Foundation
Asset User Contact Incident Resource Release
Management Management Management Management Management
Service
Catalog
Change Reporting &
Configuration
Management Dashboards
Management Service
Execution &
Choreography
Knowledge Problem Financial Capacity
Discovery Management Management Management Management
IT Portfolio
Management
Service Quality Management
Service
Performance Availability
Continuity
Management Management
Management
ITSM RA
19 © 2011 IBM Corporation
- 21. 한국IBM
© Copyright IBM Corporation 2011