Talk IT_IBM_문현국_110722

1,710 views

Published on

Published in: Education
  • Be the first to comment

  • Be the first to like this

Talk IT_IBM_문현국_110722

  1. 1. Human Error 0% 달성을 위한스마트 IT 인프라 관리문 현 국(hkm@kr.ibm.com)소프트웨어그룹/한국IBM 2011-07-22 © Copyright IBM Corporation 2009
  2. 2. 한국IBMAgenda 1.Introduction Human Error 2.How to avoid human errors in IT © Copyright IBM Corporation 2009
  3. 3. 한국IBM1.Introduction Human Error2.How to avoid human errors in IT © Copyright IBM Corporation 2009
  4. 4. 한국IBMIntroduction to Human Error Definition of Human Error: Human Error는 상황이 요구하는 것과, 사람이 의도하는 것 그리고 사람의 실제 행동이 서로 불일치 하는 경우를 말합 니다. © Copyright IBM Corporation 2009
  5. 5. 한국IBMInevitability of Human Error Source: Brown, A. (2004): Coping with Human Error in IT systems. Queue, 35-41. © Copyright IBM Corporation 2009
  6. 6. 한국IBMWhy Do Errors Happen: Limitations of Human Behavior  Information Bottleneck Attention  Habit Forming Perception  자신이 지각 하는 대로 사물을 해석 Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156. © Copyright IBM Corporation 2009
  7. 7. 한국IBMWhy Do Errors Happen: Limitations of Human Behavior © Copyright IBM Corporation 2009
  8. 8. 한국IBMWhy Do Errors Happen: Limitations of Human Behavior 고정 임계치 Mean time to recovery Fixed threshold alert at 11 am © Copyright IBM Corporation 2009
  9. 9. 한국IBMWhy Do Errors Happen: Limitations of Human Behavior Dynamic 임계치 Possible Shortened MTTR Incident Avoidance Abnormal behaviour alert at 7 am © Copyright IBM Corporation 2009
  10. 10. 한국IBMWhy Do Errors Happen: Limitations of Human Behavior  Capacity Memory  Accessibility  인간은 항상 논리적 일 수 없음 Logical  잘못된 가정이나 유추로 인해 Error가 발생하며, 이를 해결하기 위한 Reasoning 시도는 종종 더 큰 재난을 부름 Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156. © Copyright IBM Corporation 2009
  11. 11. 한국IBMWhy Do Errors Happen: Limitations of Human Behavior Coming back up...coming...coming Coming...almost there! © Copyright IBM Corporation 2009
  12. 12. 한국IBMWhy Do Errors Happen: Limitations of Human Behavior Ooops! © Copyright IBM Corporation 2009
  13. 13. 한국IBMWhy Do Errors Happen: Limitations of Human Behavior Time to get a Bigger Wrecker! © Copyright IBM Corporation 2009
  14. 14. 한국IBMWhy Do Errors Happen: Limitations of Human Behavior O...O...oohhh No!! © Copyright IBM Corporation 2009
  15. 15. 한국IBM Why Do Errors Happen: Accident Causation Model Failed or Absent Defenses HAZARDSSource: Reason, J. (2000): Human error: Models and management. British Medical Journal, 320: 768-770. © Copyright IBM Corporation 2009
  16. 16. 한국IBMWhat are the Consequences of Human Error? Canada Hinton Train Collision(1986) © Copyright IBM Corporation 2009
  17. 17. 한국IBMWhat are the Consequences of Human Error? 화물열차Jasfer Hinton Dalehurst Edson 여객열차 © Copyright IBM Corporation 2009
  18. 18. 한국IBMWhat are the Consequences of Human Error? 화물열차Jasfer Hinton Dalehurst Edson 여객열차 © Copyright IBM Corporation 2009
  19. 19. 한국IBMWhat are the Consequences of Human Error? 화물열차Jasfer Hinton Dalehurst Edson 여객열차 Active failures •데드맨 알람 무력화 •비상브레이크 미작동 Latent conditions •업무환경 •피로누적 Accident © Copyright IBM Corporation 2009
  20. 20. 한국IBMWhat are the Consequences of Human Error? Safety inspectors forget to replace a valve at the Piper Bravo Oil Rig © Copyright IBM Corporation 2009
  21. 21. 한국IBMWhat are the Consequences of Human Error? Faulty equipment causes the Challenger to explode on liftoff © Copyright IBM Corporation 2009
  22. 22. 한국IBMHow to Avoid Human Error ? Improve System Design We cannot change the human condition, but we can change the conditions under which humans work ! User-Centered Managing Design Information Design for Reducing Errors System Design Complexity Constraining Visibility BehaviorSource: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156. © Copyright IBM Corporation 2009
  23. 23. 한국IBMHow to Avoid Human Error ? Nurturing Safety Culture What is Safety Culture? Safety culture is a term used to describe the way in which safety is managed in the workplace, and often reflects "the attitudes, beliefs, perceptions and values that employees share in relation to safety" (Cox and Cox, 1991)..Health and Safety Executive (HSE- 영국 소재 작업 환경의 건전성과 안전 위협 요소 관리 조직)가 말하는 Safety Culture를 만드는 요소는 다음과 같습니다:1. 최고 관리자의 리더쉽과 헌신2. 안전 관리를 위한 훌륭한 line management system3. 전 직원의 참여4. 효과적인 커뮤니케이션 및 합의된 목표5. 변화를 위한 조직의 적극적 대응6. 작업 환경의 건전성와 health에 대한 많은 관심7. 개개인의 적극적이고 성실한 태도 만약 상위 조건 중 한 개 이상의 요인이 결핍되면, 조직은 safety monitoring 및 안전 이슈에 대한 awareness 정도가 낮아집 니다. 이러한 상황에서 Human Error의 발생은 더욱 빈번해지게 됩니다. © Copyright IBM Corporation 2009
  24. 24. 한국IBM1.Introduction Human Error2.How to avoid human errors in IT © Copyright IBM Corporation 2009
  25. 25. 한국IBMHuman errors most common reason for IT service outages Human Error Triggered OOO Cloud Outage According to OOO, the hours-long outage of its cloud service was caused by a human error. This could turn potential clients off from the service because of this incident. XXX 보험사의 주요 Batch Job 이 수행이 안되어 차질을 빚었으며, OOO outage down to human error 원인은 어플리케이션 설정 파일의 "It was human error when the wrong software was loaded 잘못된 수정인 것으로 밝혀졌다. during an update," Windows client marketing manager, "Code was sent out that should not have been. It shouldnt have happened." XX대학교가 2007학년도 정시모집 ‘가’군 합격자 조회 시스템을 운영하면서 전산 직원의 실수로 15분 동안 지원자 전원이 합격한 것으로 나타나 물의를 빚고 있다. XX의 신용카드 고객 중 약 XXXX명의 계좌에서 카드대금이 이중 결제된 것으로 나타났다. 시스템에 일부 장애가 발생했고, 이를 복구하는 과정에서 전산시스템의 오류가 있었기 때문인 것으로 보인다. © Copyright IBM Corporation 2009
  26. 26. 한국IBMTypical Manual Tasks and Human errors of IT Operation 전통적 인시던트/장애 관리 환경의 이슈 수작업 관리 환경 Human Error 발생 파급 효과 장애복구 우선 순위 판단 착오 담당자 지식 및 경험에 의존한 장애 서비스 복구 지연 지연 대응 영향 평가 비즈니스에 영향 타 부문 영향 미 고려 장애 여부 확인 이상 징후 미 감지 예기치 못한 서비스 중단 정기 점검 장애 복구 조치 잘못된 조치 다른 장애 유발 장애 내용 기록 기록 누락으로 내용 공유 안됨 동일 장애 대응 지연 © Copyright IBM Corporation 2009
  27. 27. 한국IBMTypical Manual Tasks and Human errors of IT Operation 전통적 변경 관리 환경의 이슈 수작업 관리 환경 Human Error 발생 파급 효과 장애 유발 Configuration 설정 변경 잘못된 설정 적용 서비스 중단 담당자 지식 및 경험에 의존한 업무 영향 판단 착오 운영 업무 지연 변경영향평가 타 부문 영향 미 고려 타 업무에 영향 적용 누락 어플리케이션 적용 서비스 중단 지연 적용 패치 적용 보안 위협 착오 적용 © Copyright IBM Corporation 2009
  28. 28. 한국IBMTypical Manual Tasks and Human errors of IT Operation 가상화 환경 자원 배치 이슈 수작업 관리 환경 Human Error 발생 파급 효과 지연 확인 서비스 신청 내용 확인 미 확인 재작업 OS 이미지 착오 적용 OS 이미지 설치 및 설정 OS 설정 착오(호스트명, 사용자, IP, 자원 지연 제공 etc.) 서비스 개발/제공 지연 설치 누락 소프트웨어/패치 설치 착오 적용(버전 등) 경쟁력 저하 네트워크 장비 설정 잘못된 설정 적용 © Copyright IBM Corporation 2009
  29. 29. 한국IBMTypical Manual Tasks and Human errors of IT Operation 전통적 작업 관리 환경의 이슈 수작업 관리 환경 Human Error 발생 파급 효과 작업 미 수행 작업 수행 후행 작업을 먼저 수행 작업 확인 함께 수행하면 안 될 작업을 동시 수행 서비스 영향 작업 수행일 혼동 실행된 작업을 다시 실행 서비스 지연 작업 실패 미 확인 서비스 중단 미 조치(작업 홀드) 에러 작업 복구 잘못된 복구 작업(재작업 불가 작업 재작업, 다른 복구 작업 수행, etc.) © Copyright IBM Corporation 2009
  30. 30. 한국IBMTypical Manual Tasks and Human errors of IT Operation 전통적 현황/구성 관리 환경의 이슈 Manual Task Human Error 파급 효과 정보 수집 시 누락 부정확 정보 발생 현황/구성 정보 관리 변경 내용 지연 반영 변경 내용 미 반영 잘못된 영향 평가 변경에 의한 서비스 장애 소프트웨어 라이센스 관리 라이센스 수량 확인 착오 컴플라이언스 이슈 발생 © Copyright IBM Corporation 2009
  31. 31. 한국IBMHow to Avoid Human Error in IT ? Automation Improve System Nurturing Design + safety culture + Automation © Copyright IBM Corporation 2009
  32. 32. 한국IBMHow to Avoid Human Error in IT ? Automation IT 서비스 관리 Process 지침/규정 ITSM 기반 프로세스 자동화 장애/성능 관리 Service Oriented IT Management Operation 변경 Provisioning Server Configuration 자원 배치 Network Device Configuration 작업/타스크 Job Scheduling 관리 현황/구성 관리 IT 자산관리, 구성관리 © Copyright IBM Corporation 2009
  33. 33. 한국IBMAutomation > Service Oriented IT management 서비스 중심 모델링 서비스 영향 분석 Business Service Management 통합 관제 통합 이벤트 관리 Consolidated 이벤트 상관 Operations 상세 분석 Management 시스템 성능 Domain Specific Management 네트워크 미들웨어 데이터베이스 어플리케이션 © Copyright IBM Corporation 2009
  34. 34. 한국IBMAutomation > Provisioning & Configuration 자원 배치 자동화(Provisioning 자동화) 서버/네트워크 장비 configuration Operational task 자동화 Automation 이미지 관리 소프트웨어 분배 패치 관리 IT현황 관리 가상화 관리 타스크 자동화 Provisioning OS 프로비저닝 서버 프로비저닝 네트워크 스토리지 SW 프로비저닝 프로비저닝 프로비저닝 서버/네트워크/스토리지 등 DBMS/WAS 등 미들웨어 어플리케이션 소프트웨어 하드웨어 데이터 센터 인프라 시스템 (물리적 통합 인프라/가상화 자원/클라우드 컴퓨팅 환경) © Copyright IBM Corporation 2009
  35. 35. 한국IBMHuman Error 최소화 성공 사례 : 인시던트 관리 자동화 © Copyright IBM Corporation 2009
  36. 36. 한국IBMHuman Error 최소화 성공 사례 : 장애 관리 자동화 © Copyright IBM Corporation 2009
  37. 37. 한국IBMHuman Error 최소화 성공 사례 : 가상화 환경 자원 배치 자동화  작업 수행자 실수 발생률 감소  신규 서비스 개발 기간 단축 © Copyright IBM Corporation 2009
  38. 38. 한국IBMHow to Avoid Human Error in IT ? Automation Tivoli 자동화 솔루션 IT 서비스 관리 Process 지침/규정 ITSM 기반 프로세스 자동화 TSRM, CCMDB, etc. Service Oriented IT ITM, ITCAM, TBSM, 장애/성능 관리 Operation Management OMNIBus 변경 Provisioning Server Configuration TPM, TEM, TNCM 자원 배치 Network Device Configuration 작업/타스크 Job Scheduling TWS 관리 현황/구성 관리 IT 자산관리, 구성관리 TAMforIT, TADDM © Copyright IBM Corporation 2009
  39. 39. 한국IBMSummary : Improve System Nurturing Automation Design safety culture © Copyright IBM Corporation 2009
  40. 40. 한국IBM © Copyright IBM Corporation 2009

×