Talk IT_IBM_문현국_110722
- 1. Human Error 0% 달성을 위한
스마트 IT 인프라 관리
문 현 국(hkm@kr.ibm.com)
소프트웨어그룹/한국IBM
2011-07-22
© Copyright IBM Corporation 2009
- 2. 한국IBM
Agenda
1.Introduction Human Error
2.How to avoid human errors in IT
© Copyright IBM Corporation 2009
- 4. 한국IBM
Introduction to Human Error
Definition of Human Error:
Human Error는 상황이 요구하는 것과, 사람이 의도하는 것 그리고 사람의 실제 행동이 서로 불일치 하는 경우를 말합
니다.
© Copyright IBM Corporation 2009
- 5. 한국IBM
Inevitability of Human Error
Source: Brown, A. (2004): Coping with Human Error in IT systems. Queue, 35-41.
© Copyright IBM Corporation 2009
- 6. 한국IBM
Why Do Errors Happen: Limitations of Human Behavior
Information Bottleneck
Attention
Habit Forming
Perception 자신이 지각 하는 대로 사물을 해석
Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156.
© Copyright IBM Corporation 2009
- 8. 한국IBM
Why Do Errors Happen: Limitations of Human Behavior
고정 임계치
Mean time to recovery
Fixed threshold
alert at 11 am
© Copyright IBM Corporation 2009
- 9. 한국IBM
Why Do Errors Happen: Limitations of Human Behavior
Dynamic 임계치
Possible Shortened MTTR
Incident Avoidance
Abnormal behaviour
alert at 7 am
© Copyright IBM Corporation 2009
- 10. 한국IBM
Why Do Errors Happen: Limitations of Human Behavior
Capacity
Memory
Accessibility
인간은 항상 논리적 일 수 없음
Logical
잘못된 가정이나 유추로 인해 Error가 발생하며, 이를 해결하기 위한
Reasoning
시도는 종종 더 큰 재난을 부름
Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156.
© Copyright IBM Corporation 2009
- 11. 한국IBM
Why Do Errors Happen: Limitations of Human Behavior
Coming back up...coming...coming
Coming...almost there!
© Copyright IBM Corporation 2009
- 12. 한국IBM
Why Do Errors Happen: Limitations of Human Behavior
Ooops!
© Copyright IBM Corporation 2009
- 13. 한국IBM
Why Do Errors Happen: Limitations of Human Behavior
Time to get a Bigger Wrecker!
© Copyright IBM Corporation 2009
- 14. 한국IBM
Why Do Errors Happen: Limitations of Human Behavior
O...O...oohhh No!!
© Copyright IBM Corporation 2009
- 15. 한국IBM
Why Do Errors Happen: Accident Causation Model
Failed or
Absent Defenses
HAZARDS
Source: Reason, J. (2000): Human error: Models and management. British Medical Journal, 320: 768-770.
© Copyright IBM Corporation 2009
- 16. 한국IBM
What are the Consequences of Human Error?
Canada Hinton Train Collision(1986)
© Copyright IBM Corporation 2009
- 17. 한국IBM
What are the Consequences of Human Error?
화물열차
Jasfer Hinton Dalehurst Edson
여객열차
© Copyright IBM Corporation 2009
- 18. 한국IBM
What are the Consequences of Human Error?
화물열차
Jasfer Hinton Dalehurst Edson
여객열차
© Copyright IBM Corporation 2009
- 19. 한국IBM
What are the Consequences of Human Error?
화물열차
Jasfer Hinton Dalehurst Edson
여객열차
Active failures
•데드맨 알람 무력화
•비상브레이크 미작동
Latent conditions
•업무환경
•피로누적
Accident
© Copyright IBM Corporation 2009
- 20. 한국IBM
What are the Consequences of Human Error?
Safety inspectors forget to replace
a valve at the Piper Bravo Oil Rig
© Copyright IBM Corporation 2009
- 21. 한국IBM
What are the Consequences of Human Error?
Faulty equipment causes the
Challenger to explode on liftoff
© Copyright IBM Corporation 2009
- 22. 한국IBM
How to Avoid Human Error ? Improve System Design
We cannot change the human condition, but we can change the conditions under which humans work !
User-Centered Managing
Design Information
Design for Reducing
Errors
System Design Complexity
Constraining
Visibility
Behavior
Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156.
© Copyright IBM Corporation 2009
- 23. 한국IBM
How to Avoid Human Error ? Nurturing Safety Culture
What is Safety Culture?
Safety culture is a term used to describe the way in which safety is managed in the
workplace, and often reflects "the attitudes, beliefs, perceptions and values that
employees share in relation to safety" (Cox and Cox, 1991)..
Health and Safety Executive (HSE- 영국 소재 작업 환경의 건전성과 안전 위협 요소 관리 조직)가
말하는 Safety Culture를 만드는 요소는 다음과 같습니다:
1. 최고 관리자의 리더쉽과 헌신
2. 안전 관리를 위한 훌륭한 line management system
3. 전 직원의 참여
4. 효과적인 커뮤니케이션 및 합의된 목표
5. 변화를 위한 조직의 적극적 대응
6. 작업 환경의 건전성와 health에 대한 많은 관심
7. 개개인의 적극적이고 성실한 태도
만약 상위 조건 중 한 개 이상의 요인이 결핍되면, 조직은 safety monitoring 및 안전 이슈에 대한 awareness 정도가 낮아집
니다.
이러한 상황에서 Human Error의 발생은 더욱 빈번해지게 됩니다.
© Copyright IBM Corporation 2009
- 25. 한국IBM
Human errors most common reason for IT service outages
Human Error Triggered OOO Cloud Outage
According to OOO, the hours-long outage of its cloud
service was caused by a human error. This could turn
potential clients off from the service because of this
incident.
XXX 보험사의 주요 Batch Job 이
수행이 안되어 차질을 빚었으며, OOO outage down to 'human error'
원인은 어플리케이션 설정 파일의 "It was human error when the wrong software was loaded
잘못된 수정인 것으로 밝혀졌다. during an update," Windows client marketing manager,
"Code was sent out that should not have been. It
shouldn't have happened."
XX대학교가 2007학년도 정시모집 ‘가’군
합격자 조회 시스템을 운영하면서 전산
직원의 실수로 15분 동안 지원자 전원이
합격한 것으로 나타나 물의를 빚고 있다.
XX의 신용카드 고객 중 약 XXXX명의 계좌에서
카드대금이 이중 결제된 것으로 나타났다.
시스템에 일부 장애가 발생했고, 이를 복구하는
과정에서 전산시스템의 오류가 있었기 때문인
것으로 보인다.
© Copyright IBM Corporation 2009
- 26. 한국IBM
Typical Manual Tasks and Human errors of IT Operation
전통적 인시던트/장애 관리 환경의 이슈
수작업 관리 환경 Human Error 발생 파급 효과
장애복구 우선 순위 판단 착오
담당자 지식 및 경험에 의존한 장애 서비스 복구 지연
지연 대응
영향 평가 비즈니스에 영향
타 부문 영향 미 고려
장애 여부 확인
이상 징후 미 감지 예기치 못한 서비스 중단
정기 점검
장애 복구 조치 잘못된 조치 다른 장애 유발
장애 내용 기록 기록 누락으로 내용 공유 안됨 동일 장애 대응 지연
© Copyright IBM Corporation 2009
- 27. 한국IBM
Typical Manual Tasks and Human errors of IT Operation
전통적 변경 관리 환경의 이슈
수작업 관리 환경 Human Error 발생 파급 효과
장애 유발
Configuration 설정 변경 잘못된 설정 적용
서비스 중단
담당자 지식 및 경험에 의존한 업무 영향 판단 착오 운영 업무 지연
변경영향평가 타 부문 영향 미 고려 타 업무에 영향
적용 누락
어플리케이션 적용 서비스 중단
지연 적용
패치 적용 보안 위협
착오 적용
© Copyright IBM Corporation 2009
- 28. 한국IBM
Typical Manual Tasks and Human errors of IT Operation
가상화 환경 자원 배치 이슈
수작업 관리 환경 Human Error 발생 파급 효과
지연 확인
서비스 신청 내용 확인
미 확인
재작업
OS 이미지 착오 적용
OS 이미지 설치 및 설정 OS 설정 착오(호스트명, 사용자, IP, 자원 지연 제공
etc.)
서비스 개발/제공 지연
설치 누락
소프트웨어/패치 설치
착오 적용(버전 등) 경쟁력 저하
네트워크 장비 설정 잘못된 설정 적용
© Copyright IBM Corporation 2009
- 29. 한국IBM
Typical Manual Tasks and Human errors of IT Operation
전통적 작업 관리 환경의 이슈
수작업 관리 환경 Human Error 발생 파급 효과
작업 미 수행
작업 수행
후행 작업을 먼저 수행
작업 확인
함께 수행하면 안 될 작업을 동시
수행 서비스 영향
작업 수행일 혼동
실행된 작업을 다시 실행 서비스 지연
작업 실패 미 확인
서비스 중단
미 조치(작업 홀드)
에러 작업 복구 잘못된 복구 작업(재작업 불가 작업
재작업, 다른 복구 작업 수행, etc.)
© Copyright IBM Corporation 2009
- 30. 한국IBM
Typical Manual Tasks and Human errors of IT Operation
전통적 현황/구성 관리 환경의 이슈
Manual Task Human Error 파급 효과
정보 수집 시 누락 부정확 정보 발생
현황/구성 정보 관리 변경 내용 지연 반영
변경 내용 미 반영 잘못된 영향 평가
변경에 의한 서비스 장애
소프트웨어 라이센스 관리 라이센스 수량 확인 착오 컴플라이언스 이슈 발생
© Copyright IBM Corporation 2009
- 31. 한국IBM
How to Avoid Human Error in IT ? Automation
Improve System Nurturing
Design + safety culture + Automation
© Copyright IBM Corporation 2009
- 32. 한국IBM
How to Avoid Human Error in IT ? Automation
IT 서비스 관리
Process 지침/규정
ITSM 기반 프로세스 자동화
장애/성능 관리 Service Oriented IT Management
Operation
변경 Provisioning
Server Configuration
자원 배치 Network Device Configuration
작업/타스크
Job Scheduling
관리
현황/구성 관리 IT 자산관리, 구성관리
© Copyright IBM Corporation 2009
- 33. 한국IBM
Automation > Service Oriented IT management
서비스 중심 모델링
서비스 영향 분석
Business
Service
Management
통합 관제
통합 이벤트 관리
Consolidated 이벤트 상관
Operations 상세 분석
Management
시스템
성능
Domain Specific Management 네트워크
미들웨어
데이터베이스
어플리케이션
© Copyright IBM Corporation 2009
- 34. 한국IBM
Automation > Provisioning & Configuration
자원 배치 자동화(Provisioning 자동화)
서버/네트워크 장비 configuration
Operational task 자동화
Automation
이미지 관리 소프트웨어 분배 패치 관리
IT현황 관리 가상화 관리 타스크 자동화
Provisioning
OS 프로비저닝 서버 프로비저닝
네트워크 스토리지
SW 프로비저닝
프로비저닝 프로비저닝
서버/네트워크/스토리지 등 DBMS/WAS 등 미들웨어 어플리케이션 소프트웨어
하드웨어
데이터 센터 인프라 시스템 (물리적 통합 인프라/가상화 자원/클라우드 컴퓨팅 환경)
© Copyright IBM Corporation 2009
- 37. 한국IBM
Human Error 최소화 성공 사례 : 가상화 환경 자원 배치 자동화
작업 수행자 실수 발생률 감소
신규 서비스 개발 기간 단축
© Copyright IBM Corporation 2009
- 38. 한국IBM
How to Avoid Human Error in IT ? Automation
Tivoli 자동화 솔루션
IT 서비스 관리
Process 지침/규정
ITSM 기반 프로세스 자동화 TSRM, CCMDB, etc.
Service Oriented IT ITM, ITCAM, TBSM,
장애/성능 관리
Operation Management OMNIBus
변경 Provisioning
Server Configuration TPM, TEM, TNCM
자원 배치 Network Device Configuration
작업/타스크
Job Scheduling TWS
관리
현황/구성 관리 IT 자산관리, 구성관리 TAMforIT, TADDM
© Copyright IBM Corporation 2009
- 39. 한국IBM
Summary
:
Improve System Nurturing
Automation
Design safety culture
© Copyright IBM Corporation 2009
- 40. 한국IBM
© Copyright IBM Corporation 2009