SlideShare a Scribd company logo
1 of 40
Download to read offline
Human Error 0% 달성을 위한
스마트 IT 인프라 관리
문 현 국(hkm@kr.ibm.com)
소프트웨어그룹/한국IBM


         2011-07-22




                        © Copyright IBM Corporation 2009
한국IBM


Agenda

         1.Introduction Human Error

         2.How to avoid human errors in IT




                                             © Copyright IBM Corporation 2009
한국IBM




1.Introduction Human Error

2.How to avoid human errors in IT




                                    © Copyright IBM Corporation 2009
한국IBM


Introduction to Human Error

  Definition of Human Error:
  Human Error는 상황이 요구하는 것과, 사람이 의도하는 것 그리고 사람의 실제 행동이 서로 불일치 하는 경우를 말합
  니다.




                                                       © Copyright IBM Corporation 2009
한국IBM


Inevitability of Human Error




  Source: Brown, A. (2004): Coping with Human Error in IT systems. Queue, 35-41.
                                                                                   © Copyright IBM Corporation 2009
한국IBM


Why Do Errors Happen: Limitations of Human Behavior



                                          Information Bottleneck
      Attention
                                          Habit Forming




     Perception                           자신이 지각 하는 대로 사물을 해석




  Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156.

                                                                                                                © Copyright IBM Corporation 2009
한국IBM


Why Do Errors Happen: Limitations of Human Behavior




                                                © Copyright IBM Corporation 2009
한국IBM


Why Do Errors Happen: Limitations of Human Behavior


                          고정 임계치




                                       Mean time to recovery




                            Fixed threshold
                             alert at 11 am




                                                               © Copyright IBM Corporation 2009
한국IBM


Why Do Errors Happen: Limitations of Human Behavior


                                      Dynamic 임계치




                      Possible             Shortened MTTR
                 Incident Avoidance




                                         Abnormal behaviour
                                            alert at 7 am




                                                              © Copyright IBM Corporation 2009
한국IBM


Why Do Errors Happen: Limitations of Human Behavior




                                          Capacity
       Memory
                                          Accessibility



                                          인간은 항상 논리적 일 수 없음
      Logical
                                          잘못된 가정이나 유추로 인해 Error가 발생하며, 이를 해결하기 위한
     Reasoning
                                           시도는 종종 더 큰 재난을 부름




  Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156.

                                                                                                                © Copyright IBM Corporation 2009
한국IBM


Why Do Errors Happen: Limitations of Human Behavior




     Coming back up...coming...coming




                                        Coming...almost there!
                                                       © Copyright IBM Corporation 2009
한국IBM


Why Do Errors Happen: Limitations of Human Behavior




                             Ooops!




                                                © Copyright IBM Corporation 2009
한국IBM


Why Do Errors Happen: Limitations of Human Behavior




     Time to get a Bigger Wrecker!




                                                © Copyright IBM Corporation 2009
한국IBM


Why Do Errors Happen: Limitations of Human Behavior




                        O...O...oohhh No!!



                                                © Copyright IBM Corporation 2009
한국IBM


 Why Do Errors Happen: Accident Causation Model




            Failed or
         Absent Defenses
           HAZARDS




Source: Reason, J. (2000): Human error: Models and management. British Medical Journal, 320: 768-770.
                                                                                                        © Copyright IBM Corporation 2009
한국IBM


What are the Consequences of Human Error?


             Canada Hinton Train Collision(1986)




                                               © Copyright IBM Corporation 2009
한국IBM


What are the Consequences of Human Error?


                                                           화물열차

Jasfer          Hinton      Dalehurst                                    Edson

         여객열차




                                            © Copyright IBM Corporation 2009
한국IBM


What are the Consequences of Human Error?



                                                           화물열차

Jasfer          Hinton      Dalehurst                                    Edson

         여객열차




                                            © Copyright IBM Corporation 2009
한국IBM


What are the Consequences of Human Error?



                                                                       화물열차

Jasfer              Hinton        Dalehurst                                          Edson

         여객열차




                Active failures
                •데드맨 알람 무력화
                •비상브레이크 미작동

                                              Latent conditions
                                              •업무환경
                                              •피로누적


                     Accident

                                                        © Copyright IBM Corporation 2009
한국IBM


What are the Consequences of Human Error?


             Safety inspectors forget to replace
              a valve at the Piper Bravo Oil Rig




                                               © Copyright IBM Corporation 2009
한국IBM


What are the Consequences of Human Error?


                  Faulty equipment causes the
               Challenger to explode on liftoff




                                                  © Copyright IBM Corporation 2009
한국IBM


How to Avoid Human Error ? Improve System Design

           We cannot change the human condition, but we can change the conditions under which humans work !




                                                User-Centered               Managing
                                                    Design                 Information




                                     Design for                                          Reducing
                                       Errors
                                                          System Design                  Complexity




                                                Constraining
                                                                           Visibility
                                                  Behavior



Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156.
                                                                                                                   © Copyright IBM Corporation 2009
한국IBM


How to Avoid Human Error ? Nurturing Safety Culture

 What is Safety Culture?
 Safety culture is a term used to describe the way in which safety is managed in the
 workplace, and often reflects "the attitudes, beliefs, perceptions and values that
 employees share in relation to safety" (Cox and Cox, 1991)..


Health and Safety Executive (HSE- 영국 소재 작업 환경의 건전성과 안전 위협 요소 관리 조직)가
    말하는 Safety Culture를 만드는 요소는 다음과 같습니다:

1.   최고 관리자의 리더쉽과 헌신
2.   안전 관리를 위한 훌륭한 line management system
3.   전 직원의 참여
4.   효과적인 커뮤니케이션 및 합의된 목표
5.   변화를 위한 조직의 적극적 대응
6.   작업 환경의 건전성와 health에 대한 많은 관심
7.   개개인의 적극적이고 성실한 태도


 만약 상위 조건 중 한 개 이상의 요인이 결핍되면, 조직은 safety monitoring 및 안전 이슈에 대한 awareness 정도가 낮아집
    니다.
 이러한 상황에서 Human Error의 발생은 더욱 빈번해지게 됩니다.
                                                                       © Copyright IBM Corporation 2009
한국IBM




1.Introduction Human Error

2.How to avoid human errors in IT




                                    © Copyright IBM Corporation 2009
한국IBM


Human errors most common reason for IT service outages

           Human Error Triggered OOO Cloud Outage
           According to OOO, the hours-long outage of its cloud
           service was caused by a human error. This could turn
           potential clients off from the service because of this
           incident.




     XXX 보험사의 주요 Batch Job 이
     수행이 안되어 차질을 빚었으며,                            OOO outage down to 'human error'
     원인은 어플리케이션 설정 파일의                            "It was human error when the wrong software was loaded
     잘못된 수정인 것으로 밝혀졌다.                            during an update," Windows client marketing manager,
                                                  "Code was sent out that should not have been. It
                                                  shouldn't have happened."


   XX대학교가 2007학년도 정시모집 ‘가’군
   합격자 조회 시스템을 운영하면서 전산
   직원의 실수로 15분 동안 지원자 전원이
   합격한 것으로 나타나 물의를 빚고 있다.
                                                     XX의 신용카드 고객 중 약 XXXX명의 계좌에서
                                                     카드대금이 이중 결제된 것으로 나타났다.
                                                     시스템에 일부 장애가 발생했고, 이를 복구하는
                                                     과정에서 전산시스템의 오류가 있었기 때문인
                                                     것으로 보인다.



                                                                                        © Copyright IBM Corporation 2009
한국IBM


Typical Manual Tasks and Human errors of IT Operation

                        전통적 인시던트/장애 관리 환경의 이슈

      수작업 관리 환경                Human Error 발생         파급 효과


                            장애복구 우선 순위 판단 착오
  담당자 지식 및 경험에 의존한 장애                           서비스 복구 지연
                            지연 대응
  영향 평가                                         비즈니스에 영향
                            타 부문 영향 미 고려


  장애 여부 확인
                            이상 징후 미 감지          예기치 못한 서비스 중단
  정기 점검



  장애 복구 조치                  잘못된 조치              다른 장애 유발



  장애 내용 기록                  기록 누락으로 내용 공유 안됨    동일 장애 대응 지연



                                                     © Copyright IBM Corporation 2009
한국IBM


Typical Manual Tasks and Human errors of IT Operation

                                전통적 변경 관리 환경의 이슈

        수작업 관리 환경                   Human Error 발생         파급 효과



                                                     장애 유발
  Configuration 설정 변경            잘못된 설정 적용
                                                     서비스 중단



  담당자 지식 및 경험에 의존한               업무 영향 판단 착오         운영 업무 지연
  변경영향평가                         타 부문 영향 미 고려        타 업무에 영향


                                 적용 누락
  어플리케이션 적용                                          서비스 중단
                                 지연 적용
  패치 적용                                              보안 위협
                                 착오 적용




                                                          © Copyright IBM Corporation 2009
한국IBM


Typical Manual Tasks and Human errors of IT Operation

                           가상화 환경 자원 배치 이슈

      수작업 관리 환경               Human Error 발생            파급 효과



                           지연 확인
  서비스 신청 내용 확인
                           미 확인

                                                           재작업
                           OS 이미지 착오 적용
  OS 이미지 설치 및 설정           OS 설정 착오(호스트명, 사용자, IP,     자원 지연 제공
                           etc.)

                                                     서비스 개발/제공 지연
                           설치 누락
  소프트웨어/패치 설치
                           착오 적용(버전 등)                  경쟁력 저하



  네트워크 장비 설정               잘못된 설정 적용


                                                       © Copyright IBM Corporation 2009
한국IBM


Typical Manual Tasks and Human errors of IT Operation

                          전통적 작업 관리 환경의 이슈

      수작업 관리 환경               Human Error 발생             파급 효과


                          작업 미 수행
  작업 수행
                          후행 작업을 먼저 수행
  작업 확인
                          함께 수행하면 안 될 작업을 동시
                          수행                        서비스 영향
                          작업 수행일 혼동
                          실행된 작업을 다시 실행             서비스 지연
                          작업 실패 미 확인
                                                    서비스 중단

                          미 조치(작업 홀드)
  에러 작업 복구                잘못된 복구 작업(재작업 불가 작업
                          재작업, 다른 복구 작업 수행, etc.)




                                                        © Copyright IBM Corporation 2009
한국IBM


Typical Manual Tasks and Human errors of IT Operation

                         전통적 현황/구성 관리 환경의 이슈

       Manual Task               Human Error        파급 효과




                             정보 수집 시 누락           부정확 정보 발생
  현황/구성 정보 관리                변경 내용 지연 반영
                             변경 내용 미 반영           잘못된 영향 평가

                                                변경에 의한 서비스 장애




  소프트웨어 라이센스 관리              라이센스 수량 확인 착오     컴플라이언스 이슈 발생




                                                   © Copyright IBM Corporation 2009
한국IBM


How to Avoid Human Error in IT ? Automation




     Improve System              Nurturing
         Design          +    safety culture   +   Automation




                                                    © Copyright IBM Corporation 2009
한국IBM


How to Avoid Human Error in IT ? Automation


                 IT 서비스 관리
     Process       지침/규정
                                ITSM 기반 프로세스 자동화




                 장애/성능 관리       Service Oriented IT Management
    Operation
                    변경          Provisioning
                                Server Configuration
                   자원 배치        Network Device Configuration


                  작업/타스크
                                Job Scheduling
                    관리

                 현황/구성 관리       IT 자산관리, 구성관리




                                                          © Copyright IBM Corporation 2009
한국IBM


Automation > Service Oriented IT management


                                    서비스 중심 모델링
                                    서비스 영향 분석
                Business
                 Service
               Management

                                    통합 관제
                                    통합 이벤트 관리
             Consolidated           이벤트 상관
              Operations            상세 분석
             Management


                                    시스템
                                    성능
       Domain Specific Management   네트워크
                                    미들웨어
                                    데이터베이스
                                    어플리케이션


                                                  © Copyright IBM Corporation 2009
한국IBM


Automation > Provisioning & Configuration
 자원 배치 자동화(Provisioning 자동화)
 서버/네트워크 장비 configuration
 Operational task 자동화


            Automation

                    이미지 관리        소프트웨어 분배           패치 관리


                   IT현황    관리       가상화 관리          타스크 자동화



            Provisioning

                  OS 프로비저닝        서버 프로비저닝

                                     네트워크             스토리지
                  SW 프로비저닝
                                    프로비저닝            프로비저닝



         서버/네트워크/스토리지 등         DBMS/WAS 등 미들웨어    어플리케이션 소프트웨어
              하드웨어
                 데이터 센터 인프라 시스템 (물리적 통합 인프라/가상화 자원/클라우드 컴퓨팅 환경)

                                                                  © Copyright IBM Corporation 2009
한국IBM


Human Error 최소화 성공 사례 : 인시던트 관리 자동화




                                      © Copyright IBM Corporation 2009
한국IBM


Human Error 최소화 성공 사례 : 장애 관리 자동화




                                    © Copyright IBM Corporation 2009
한국IBM


Human Error 최소화 성공 사례 : 가상화 환경 자원 배치 자동화




      작업 수행자 실수 발생률 감소
      신규 서비스 개발 기간 단축

                                           © Copyright IBM Corporation 2009
한국IBM


How to Avoid Human Error in IT ? Automation

                          Tivoli 자동화 솔루션

                IT 서비스 관리
   Process        지침/규정
                              ITSM 기반 프로세스 자동화               TSRM, CCMDB, etc.




                              Service Oriented IT            ITM, ITCAM, TBSM,
                장애/성능 관리
  Operation                   Management                     OMNIBus

                   변경         Provisioning
                              Server Configuration           TPM, TEM, TNCM
                 자원 배치        Network Device Configuration


                 작업/타스크
                              Job Scheduling                 TWS
                   관리

                현황/구성 관리      IT 자산관리, 구성관리                  TAMforIT, TADDM



                                                              © Copyright IBM Corporation 2009
한국IBM


Summary




                     :




    Improve System          Nurturing
                                          Automation
        Design           safety culture




                                            © Copyright IBM Corporation 2009
한국IBM




        © Copyright IBM Corporation 2009

More Related Content

More from Cana Ko

북Tv365_쓰고 상상하고 실행하라_문준호_111207
북Tv365_쓰고 상상하고 실행하라_문준호_111207북Tv365_쓰고 상상하고 실행하라_문준호_111207
북Tv365_쓰고 상상하고 실행하라_문준호_111207
Cana Ko
 
북Tv365 나는 영화가 좋다 이창세_111130
북Tv365 나는 영화가 좋다 이창세_111130북Tv365 나는 영화가 좋다 이창세_111130
북Tv365 나는 영화가 좋다 이창세_111130
Cana Ko
 
북Tv365_10년의 기다림 김창수_111123
북Tv365_10년의 기다림 김창수_111123북Tv365_10년의 기다림 김창수_111123
북Tv365_10년의 기다림 김창수_111123
Cana Ko
 
북Tv365 서른 life 사전 이재은_111116
북Tv365 서른 life 사전 이재은_111116북Tv365 서른 life 사전 이재은_111116
북Tv365 서른 life 사전 이재은_111116
Cana Ko
 
북Tv365_책에 미친 청춘_김애리_111102
북Tv365_책에 미친 청춘_김애리_111102북Tv365_책에 미친 청춘_김애리_111102
북Tv365_책에 미친 청춘_김애리_111102
Cana Ko
 
북Tv365 책에 미친 청춘 김애리_111102
북Tv365 책에 미친 청춘 김애리_111102북Tv365 책에 미친 청춘 김애리_111102
북Tv365 책에 미친 청춘 김애리_111102
Cana Ko
 
북Tv365 책에 미친 청춘 김애리_111102
북Tv365 책에 미친 청춘 김애리_111102북Tv365 책에 미친 청춘 김애리_111102
북Tv365 책에 미친 청춘 김애리_111102
Cana Ko
 
Talk IT_CA_정성엽_111028
Talk IT_CA_정성엽_111028Talk IT_CA_정성엽_111028
Talk IT_CA_정성엽_111028
Cana Ko
 
북포럼 227회 재즈스타일 전진용 111026
북포럼 227회 재즈스타일 전진용 111026북포럼 227회 재즈스타일 전진용 111026
북포럼 227회 재즈스타일 전진용 111026
Cana Ko
 
Talk IT_ IBM_나병준_111025_Session2
Talk IT_ IBM_나병준_111025_Session2Talk IT_ IBM_나병준_111025_Session2
Talk IT_ IBM_나병준_111025_Session2
Cana Ko
 
111025 session 1
111025 session 1111025 session 1
111025 session 1
Cana Ko
 
Talk IT_ Oracle_정봉기_111025
Talk IT_ Oracle_정봉기_111025Talk IT_ Oracle_정봉기_111025
Talk IT_ Oracle_정봉기_111025
Cana Ko
 
북포럼_화난 원숭이들은 모두 어디로 갔을까_ 송인혁_ 111019
북포럼_화난 원숭이들은 모두 어디로 갔을까_ 송인혁_ 111019북포럼_화난 원숭이들은 모두 어디로 갔을까_ 송인혁_ 111019
북포럼_화난 원숭이들은 모두 어디로 갔을까_ 송인혁_ 111019
Cana Ko
 
북포럼_고민이 없다면 20대가 아니다_고영혁_111012
북포럼_고민이 없다면 20대가 아니다_고영혁_111012북포럼_고민이 없다면 20대가 아니다_고영혁_111012
북포럼_고민이 없다면 20대가 아니다_고영혁_111012
Cana Ko
 
Talk IT_ Oracle_최대진_111012
Talk IT_ Oracle_최대진_111012Talk IT_ Oracle_최대진_111012
Talk IT_ Oracle_최대진_111012
Cana Ko
 
Talk IT_ Oracle_전태준_111012
Talk IT_ Oracle_전태준_111012Talk IT_ Oracle_전태준_111012
Talk IT_ Oracle_전태준_111012
Cana Ko
 
Talk IT_ Agilent_최석근_111007
Talk IT_ Agilent_최석근_111007Talk IT_ Agilent_최석근_111007
Talk IT_ Agilent_최석근_111007
Cana Ko
 
북포럼_1초에 가슴을 울려라_ 최병광_111005
북포럼_1초에 가슴을 울려라_ 최병광_111005북포럼_1초에 가슴을 울려라_ 최병광_111005
북포럼_1초에 가슴을 울려라_ 최병광_111005
Cana Ko
 
Talk IT_ CA_조상원_110930
Talk IT_ CA_조상원_110930Talk IT_ CA_조상원_110930
Talk IT_ CA_조상원_110930
Cana Ko
 
북포럼_f 커머스_ 김영한_110928
북포럼_f 커머스_ 김영한_110928북포럼_f 커머스_ 김영한_110928
북포럼_f 커머스_ 김영한_110928
Cana Ko
 

More from Cana Ko (20)

북Tv365_쓰고 상상하고 실행하라_문준호_111207
북Tv365_쓰고 상상하고 실행하라_문준호_111207북Tv365_쓰고 상상하고 실행하라_문준호_111207
북Tv365_쓰고 상상하고 실행하라_문준호_111207
 
북Tv365 나는 영화가 좋다 이창세_111130
북Tv365 나는 영화가 좋다 이창세_111130북Tv365 나는 영화가 좋다 이창세_111130
북Tv365 나는 영화가 좋다 이창세_111130
 
북Tv365_10년의 기다림 김창수_111123
북Tv365_10년의 기다림 김창수_111123북Tv365_10년의 기다림 김창수_111123
북Tv365_10년의 기다림 김창수_111123
 
북Tv365 서른 life 사전 이재은_111116
북Tv365 서른 life 사전 이재은_111116북Tv365 서른 life 사전 이재은_111116
북Tv365 서른 life 사전 이재은_111116
 
북Tv365_책에 미친 청춘_김애리_111102
북Tv365_책에 미친 청춘_김애리_111102북Tv365_책에 미친 청춘_김애리_111102
북Tv365_책에 미친 청춘_김애리_111102
 
북Tv365 책에 미친 청춘 김애리_111102
북Tv365 책에 미친 청춘 김애리_111102북Tv365 책에 미친 청춘 김애리_111102
북Tv365 책에 미친 청춘 김애리_111102
 
북Tv365 책에 미친 청춘 김애리_111102
북Tv365 책에 미친 청춘 김애리_111102북Tv365 책에 미친 청춘 김애리_111102
북Tv365 책에 미친 청춘 김애리_111102
 
Talk IT_CA_정성엽_111028
Talk IT_CA_정성엽_111028Talk IT_CA_정성엽_111028
Talk IT_CA_정성엽_111028
 
북포럼 227회 재즈스타일 전진용 111026
북포럼 227회 재즈스타일 전진용 111026북포럼 227회 재즈스타일 전진용 111026
북포럼 227회 재즈스타일 전진용 111026
 
Talk IT_ IBM_나병준_111025_Session2
Talk IT_ IBM_나병준_111025_Session2Talk IT_ IBM_나병준_111025_Session2
Talk IT_ IBM_나병준_111025_Session2
 
111025 session 1
111025 session 1111025 session 1
111025 session 1
 
Talk IT_ Oracle_정봉기_111025
Talk IT_ Oracle_정봉기_111025Talk IT_ Oracle_정봉기_111025
Talk IT_ Oracle_정봉기_111025
 
북포럼_화난 원숭이들은 모두 어디로 갔을까_ 송인혁_ 111019
북포럼_화난 원숭이들은 모두 어디로 갔을까_ 송인혁_ 111019북포럼_화난 원숭이들은 모두 어디로 갔을까_ 송인혁_ 111019
북포럼_화난 원숭이들은 모두 어디로 갔을까_ 송인혁_ 111019
 
북포럼_고민이 없다면 20대가 아니다_고영혁_111012
북포럼_고민이 없다면 20대가 아니다_고영혁_111012북포럼_고민이 없다면 20대가 아니다_고영혁_111012
북포럼_고민이 없다면 20대가 아니다_고영혁_111012
 
Talk IT_ Oracle_최대진_111012
Talk IT_ Oracle_최대진_111012Talk IT_ Oracle_최대진_111012
Talk IT_ Oracle_최대진_111012
 
Talk IT_ Oracle_전태준_111012
Talk IT_ Oracle_전태준_111012Talk IT_ Oracle_전태준_111012
Talk IT_ Oracle_전태준_111012
 
Talk IT_ Agilent_최석근_111007
Talk IT_ Agilent_최석근_111007Talk IT_ Agilent_최석근_111007
Talk IT_ Agilent_최석근_111007
 
북포럼_1초에 가슴을 울려라_ 최병광_111005
북포럼_1초에 가슴을 울려라_ 최병광_111005북포럼_1초에 가슴을 울려라_ 최병광_111005
북포럼_1초에 가슴을 울려라_ 최병광_111005
 
Talk IT_ CA_조상원_110930
Talk IT_ CA_조상원_110930Talk IT_ CA_조상원_110930
Talk IT_ CA_조상원_110930
 
북포럼_f 커머스_ 김영한_110928
북포럼_f 커머스_ 김영한_110928북포럼_f 커머스_ 김영한_110928
북포럼_f 커머스_ 김영한_110928
 

Talk IT_IBM_문현국_110722

  • 1. Human Error 0% 달성을 위한 스마트 IT 인프라 관리 문 현 국(hkm@kr.ibm.com) 소프트웨어그룹/한국IBM 2011-07-22 © Copyright IBM Corporation 2009
  • 2. 한국IBM Agenda 1.Introduction Human Error 2.How to avoid human errors in IT © Copyright IBM Corporation 2009
  • 3. 한국IBM 1.Introduction Human Error 2.How to avoid human errors in IT © Copyright IBM Corporation 2009
  • 4. 한국IBM Introduction to Human Error Definition of Human Error: Human Error는 상황이 요구하는 것과, 사람이 의도하는 것 그리고 사람의 실제 행동이 서로 불일치 하는 경우를 말합 니다. © Copyright IBM Corporation 2009
  • 5. 한국IBM Inevitability of Human Error Source: Brown, A. (2004): Coping with Human Error in IT systems. Queue, 35-41. © Copyright IBM Corporation 2009
  • 6. 한국IBM Why Do Errors Happen: Limitations of Human Behavior  Information Bottleneck Attention  Habit Forming Perception  자신이 지각 하는 대로 사물을 해석 Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156. © Copyright IBM Corporation 2009
  • 7. 한국IBM Why Do Errors Happen: Limitations of Human Behavior © Copyright IBM Corporation 2009
  • 8. 한국IBM Why Do Errors Happen: Limitations of Human Behavior 고정 임계치 Mean time to recovery Fixed threshold alert at 11 am © Copyright IBM Corporation 2009
  • 9. 한국IBM Why Do Errors Happen: Limitations of Human Behavior Dynamic 임계치 Possible Shortened MTTR Incident Avoidance Abnormal behaviour alert at 7 am © Copyright IBM Corporation 2009
  • 10. 한국IBM Why Do Errors Happen: Limitations of Human Behavior  Capacity Memory  Accessibility  인간은 항상 논리적 일 수 없음 Logical  잘못된 가정이나 유추로 인해 Error가 발생하며, 이를 해결하기 위한 Reasoning 시도는 종종 더 큰 재난을 부름 Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156. © Copyright IBM Corporation 2009
  • 11. 한국IBM Why Do Errors Happen: Limitations of Human Behavior Coming back up...coming...coming Coming...almost there! © Copyright IBM Corporation 2009
  • 12. 한국IBM Why Do Errors Happen: Limitations of Human Behavior Ooops! © Copyright IBM Corporation 2009
  • 13. 한국IBM Why Do Errors Happen: Limitations of Human Behavior Time to get a Bigger Wrecker! © Copyright IBM Corporation 2009
  • 14. 한국IBM Why Do Errors Happen: Limitations of Human Behavior O...O...oohhh No!! © Copyright IBM Corporation 2009
  • 15. 한국IBM Why Do Errors Happen: Accident Causation Model Failed or Absent Defenses HAZARDS Source: Reason, J. (2000): Human error: Models and management. British Medical Journal, 320: 768-770. © Copyright IBM Corporation 2009
  • 16. 한국IBM What are the Consequences of Human Error? Canada Hinton Train Collision(1986) © Copyright IBM Corporation 2009
  • 17. 한국IBM What are the Consequences of Human Error? 화물열차 Jasfer Hinton Dalehurst Edson 여객열차 © Copyright IBM Corporation 2009
  • 18. 한국IBM What are the Consequences of Human Error? 화물열차 Jasfer Hinton Dalehurst Edson 여객열차 © Copyright IBM Corporation 2009
  • 19. 한국IBM What are the Consequences of Human Error? 화물열차 Jasfer Hinton Dalehurst Edson 여객열차 Active failures •데드맨 알람 무력화 •비상브레이크 미작동 Latent conditions •업무환경 •피로누적 Accident © Copyright IBM Corporation 2009
  • 20. 한국IBM What are the Consequences of Human Error? Safety inspectors forget to replace a valve at the Piper Bravo Oil Rig © Copyright IBM Corporation 2009
  • 21. 한국IBM What are the Consequences of Human Error? Faulty equipment causes the Challenger to explode on liftoff © Copyright IBM Corporation 2009
  • 22. 한국IBM How to Avoid Human Error ? Improve System Design We cannot change the human condition, but we can change the conditions under which humans work ! User-Centered Managing Design Information Design for Reducing Errors System Design Complexity Constraining Visibility Behavior Source: Turvey, A. (2001): Post Note: Managing Human error. Parliamentary Office of Science and Technology, 156. © Copyright IBM Corporation 2009
  • 23. 한국IBM How to Avoid Human Error ? Nurturing Safety Culture What is Safety Culture? Safety culture is a term used to describe the way in which safety is managed in the workplace, and often reflects "the attitudes, beliefs, perceptions and values that employees share in relation to safety" (Cox and Cox, 1991).. Health and Safety Executive (HSE- 영국 소재 작업 환경의 건전성과 안전 위협 요소 관리 조직)가 말하는 Safety Culture를 만드는 요소는 다음과 같습니다: 1. 최고 관리자의 리더쉽과 헌신 2. 안전 관리를 위한 훌륭한 line management system 3. 전 직원의 참여 4. 효과적인 커뮤니케이션 및 합의된 목표 5. 변화를 위한 조직의 적극적 대응 6. 작업 환경의 건전성와 health에 대한 많은 관심 7. 개개인의 적극적이고 성실한 태도 만약 상위 조건 중 한 개 이상의 요인이 결핍되면, 조직은 safety monitoring 및 안전 이슈에 대한 awareness 정도가 낮아집 니다. 이러한 상황에서 Human Error의 발생은 더욱 빈번해지게 됩니다. © Copyright IBM Corporation 2009
  • 24. 한국IBM 1.Introduction Human Error 2.How to avoid human errors in IT © Copyright IBM Corporation 2009
  • 25. 한국IBM Human errors most common reason for IT service outages Human Error Triggered OOO Cloud Outage According to OOO, the hours-long outage of its cloud service was caused by a human error. This could turn potential clients off from the service because of this incident. XXX 보험사의 주요 Batch Job 이 수행이 안되어 차질을 빚었으며, OOO outage down to 'human error' 원인은 어플리케이션 설정 파일의 "It was human error when the wrong software was loaded 잘못된 수정인 것으로 밝혀졌다. during an update," Windows client marketing manager, "Code was sent out that should not have been. It shouldn't have happened." XX대학교가 2007학년도 정시모집 ‘가’군 합격자 조회 시스템을 운영하면서 전산 직원의 실수로 15분 동안 지원자 전원이 합격한 것으로 나타나 물의를 빚고 있다. XX의 신용카드 고객 중 약 XXXX명의 계좌에서 카드대금이 이중 결제된 것으로 나타났다. 시스템에 일부 장애가 발생했고, 이를 복구하는 과정에서 전산시스템의 오류가 있었기 때문인 것으로 보인다. © Copyright IBM Corporation 2009
  • 26. 한국IBM Typical Manual Tasks and Human errors of IT Operation 전통적 인시던트/장애 관리 환경의 이슈 수작업 관리 환경 Human Error 발생 파급 효과 장애복구 우선 순위 판단 착오 담당자 지식 및 경험에 의존한 장애 서비스 복구 지연 지연 대응 영향 평가 비즈니스에 영향 타 부문 영향 미 고려 장애 여부 확인 이상 징후 미 감지 예기치 못한 서비스 중단 정기 점검 장애 복구 조치 잘못된 조치 다른 장애 유발 장애 내용 기록 기록 누락으로 내용 공유 안됨 동일 장애 대응 지연 © Copyright IBM Corporation 2009
  • 27. 한국IBM Typical Manual Tasks and Human errors of IT Operation 전통적 변경 관리 환경의 이슈 수작업 관리 환경 Human Error 발생 파급 효과 장애 유발 Configuration 설정 변경 잘못된 설정 적용 서비스 중단 담당자 지식 및 경험에 의존한 업무 영향 판단 착오 운영 업무 지연 변경영향평가 타 부문 영향 미 고려 타 업무에 영향 적용 누락 어플리케이션 적용 서비스 중단 지연 적용 패치 적용 보안 위협 착오 적용 © Copyright IBM Corporation 2009
  • 28. 한국IBM Typical Manual Tasks and Human errors of IT Operation 가상화 환경 자원 배치 이슈 수작업 관리 환경 Human Error 발생 파급 효과 지연 확인 서비스 신청 내용 확인 미 확인 재작업 OS 이미지 착오 적용 OS 이미지 설치 및 설정 OS 설정 착오(호스트명, 사용자, IP, 자원 지연 제공 etc.) 서비스 개발/제공 지연 설치 누락 소프트웨어/패치 설치 착오 적용(버전 등) 경쟁력 저하 네트워크 장비 설정 잘못된 설정 적용 © Copyright IBM Corporation 2009
  • 29. 한국IBM Typical Manual Tasks and Human errors of IT Operation 전통적 작업 관리 환경의 이슈 수작업 관리 환경 Human Error 발생 파급 효과 작업 미 수행 작업 수행 후행 작업을 먼저 수행 작업 확인 함께 수행하면 안 될 작업을 동시 수행 서비스 영향 작업 수행일 혼동 실행된 작업을 다시 실행 서비스 지연 작업 실패 미 확인 서비스 중단 미 조치(작업 홀드) 에러 작업 복구 잘못된 복구 작업(재작업 불가 작업 재작업, 다른 복구 작업 수행, etc.) © Copyright IBM Corporation 2009
  • 30. 한국IBM Typical Manual Tasks and Human errors of IT Operation 전통적 현황/구성 관리 환경의 이슈 Manual Task Human Error 파급 효과 정보 수집 시 누락 부정확 정보 발생 현황/구성 정보 관리 변경 내용 지연 반영 변경 내용 미 반영 잘못된 영향 평가 변경에 의한 서비스 장애 소프트웨어 라이센스 관리 라이센스 수량 확인 착오 컴플라이언스 이슈 발생 © Copyright IBM Corporation 2009
  • 31. 한국IBM How to Avoid Human Error in IT ? Automation Improve System Nurturing Design + safety culture + Automation © Copyright IBM Corporation 2009
  • 32. 한국IBM How to Avoid Human Error in IT ? Automation IT 서비스 관리 Process 지침/규정 ITSM 기반 프로세스 자동화 장애/성능 관리 Service Oriented IT Management Operation 변경 Provisioning Server Configuration 자원 배치 Network Device Configuration 작업/타스크 Job Scheduling 관리 현황/구성 관리 IT 자산관리, 구성관리 © Copyright IBM Corporation 2009
  • 33. 한국IBM Automation > Service Oriented IT management 서비스 중심 모델링 서비스 영향 분석 Business Service Management 통합 관제 통합 이벤트 관리 Consolidated 이벤트 상관 Operations 상세 분석 Management 시스템 성능 Domain Specific Management 네트워크 미들웨어 데이터베이스 어플리케이션 © Copyright IBM Corporation 2009
  • 34. 한국IBM Automation > Provisioning & Configuration 자원 배치 자동화(Provisioning 자동화) 서버/네트워크 장비 configuration Operational task 자동화 Automation 이미지 관리 소프트웨어 분배 패치 관리 IT현황 관리 가상화 관리 타스크 자동화 Provisioning OS 프로비저닝 서버 프로비저닝 네트워크 스토리지 SW 프로비저닝 프로비저닝 프로비저닝 서버/네트워크/스토리지 등 DBMS/WAS 등 미들웨어 어플리케이션 소프트웨어 하드웨어 데이터 센터 인프라 시스템 (물리적 통합 인프라/가상화 자원/클라우드 컴퓨팅 환경) © Copyright IBM Corporation 2009
  • 35. 한국IBM Human Error 최소화 성공 사례 : 인시던트 관리 자동화 © Copyright IBM Corporation 2009
  • 36. 한국IBM Human Error 최소화 성공 사례 : 장애 관리 자동화 © Copyright IBM Corporation 2009
  • 37. 한국IBM Human Error 최소화 성공 사례 : 가상화 환경 자원 배치 자동화  작업 수행자 실수 발생률 감소  신규 서비스 개발 기간 단축 © Copyright IBM Corporation 2009
  • 38. 한국IBM How to Avoid Human Error in IT ? Automation Tivoli 자동화 솔루션 IT 서비스 관리 Process 지침/규정 ITSM 기반 프로세스 자동화 TSRM, CCMDB, etc. Service Oriented IT ITM, ITCAM, TBSM, 장애/성능 관리 Operation Management OMNIBus 변경 Provisioning Server Configuration TPM, TEM, TNCM 자원 배치 Network Device Configuration 작업/타스크 Job Scheduling TWS 관리 현황/구성 관리 IT 자산관리, 구성관리 TAMforIT, TADDM © Copyright IBM Corporation 2009
  • 39. 한국IBM Summary : Improve System Nurturing Automation Design safety culture © Copyright IBM Corporation 2009
  • 40. 한국IBM © Copyright IBM Corporation 2009