SlideShare a Scribd company logo
1 of 72
Download to read offline
1. 들어가며
2. 네이버 검색시스템의 SRE
3. 실제 사례 소개
4. Search Reliability Engineer
대용량 처리 (High Throughput)
짧은 대기시간 (Low Latency)
장애가 발생하면 대용량 처리와 짧은 대기시간을 보장할 수 없음
https://www.pexels.com/royalty-free-images/
https://www.pexels.com/royalty-free-images/
얼마나 비용 효율적인지 증명할 수 있는가?
→ 정확한 비용 측정 / 예측의 중요성
화재가 나지 않았을 때, 예방 활동 덕분이었다는 것을 어떻게 증명할 수 있는가?
→ 정확하고 구체적인 경보 체계 확립 필요
→ 정확한 사후분석 (post-mortem) 필요
수백 개의 검색 서비스
수만 대의 서버 장비
하루 수십억 건의 검색 요청
수백억 건의 컨텐츠
수십 개의 조직
수백 명의 구성원
다양한 엔진 시스템 도구들
문제 원인 핀포인트 추적 어려움
문제 영향 범위 확정 어려움
장애 복구 완료 후에도 모든 구성요소 정상화 확인 어려움
글로벌 스케일의 서비스를 제공하면서 어떻게 하면 시스템의 신뢰성을 보장할지
고민하는 기술 분야이자 방법론, 문화
모든 검색서비스 정상 동작
1년 10분 이하 다운타임
고비용 사후처리보다 저비용 사전예방
이 목표 달성을 위한 모든 활동
검색 요청 트래픽 서버 응답시간 사용량 디스크 네트워크 사용량 등등
99.998%인데, 좋은 숫자인데… → 1년 동안 10분 장애
네이버 통합검색 10분 장애는 대재난!!!
!"#$%#&$%$'( =
*+,-
*++. + *+,-
평균 복구 시간
평균 무고장 시간
서버 2 서버 3 서버 4
서버 1
서버 5 서버 6 서버 7
서버 2 서버 3 서버 4
서버 1
서버 5 서버 6 서버 7
특정 서버에 문제가 생기면 다른 서버들이 많은 영향을 받는다!
4L / 4L 4L / 4L
+1L
3L / 4L 3L / 4L 3L / 4L
+1L+1L
2L / 4L 2L / 4L 2L / 4L 3L / 4L 3L / 4L
+1L+1L
한 친구가 죽으면 나머지 친구들은
몇 배를 받나
한 명이 현재 몇 배까지 받을 수 있나
부하증가배수 최대가용배수
가용량 경보 발생 시 미리 경보
각 서비스 담당자들에게 성능 및 컨설팅 정보 제공
최대치 대비
약 90% 감소
긴급 대응 필요 상황 대응 불필요 상황
경보 발생
실제 장애 상황
색인 업데이트 캐시 갱신 등
시간이 흐르면 정상화 되는 상황
경보 미발생 장애가 발생했으나
경보가 울리지 않는 경우
정상 상황
긴급 대응 필요 상황 대응 불필요 상황
경보 발생
실제 장애 상황
색인 업데이트 캐시 갱신 등
시간이 흐르면 정상화 되는 상황
경보 미발생 장애가 발생했으나
경보가 울리지 않는 경우
정상 상황
장점 : 그래프만 보고도 금방 장애 유무 판단 가능
단점 : 개인차 존재
다양한 장애 케이스에 대해서 모든 경우에 대한 모든 대응 자동화 (X)
빠른 대응을 위해 필요한 데이터들을 미리 모아주기 (O)
빠른 의사 결정을 위해 필요한 기본적인 상황 판단 자동화 (O)
지표의 방향을 부호로 인코딩 후
패턴 매칭으로 자동 상황 판단
335625355117664533
353265553771223344
353365344771223344
각 서비스 내부에서 일어나는 변화 집중 파악
각 서비스 내부에서 일어나는 변화 집중 파악
외부 요인들까지 고려하여
종합적인 관점에서 분석
일 월 화 수 목 금 토 일 월 화 수 목 금 토 일 월 화 수 목 금
오전 오후에 증가
점심시간 저녁시간에 감소
새벽 외 비슷한 트래픽 유지
오전 오후에 증가
점심시간 저녁시간에 감소
새벽 외 비슷한 트래픽 유지
당시 통합검색 트래픽 변화
수능 연기 발표
규모 여진 발생
규모 본진 발생
평소 대비 약 배 트래픽
화제가 되거나 컬링 등
금메달을 획득한 종목
스켈레톤 등 에 대한
검색 트래픽 대량 유입
우리나라 대표팀 경기에
많은 관심 집중
축구 경기 특유의
전반전 후반전 패턴 발생
병역 혜택이 걸린 종목은
경기 진행 상황에 따라 많은
검색 트래픽 유입
년 월 월 월
후반전
통합검색
전반전
경기 후 트래픽 증가
경기 중 트래픽 감소
후반전전반전
모바일 통합검색
하프타임 트래픽 증가
스웨덴 골
통합검색
스웨덴 골 대한민국 골
후반전전반전
일본 골
전반전 후반전 연장전
대한민국 골
통합검색
출처: MBC ‘나 혼자 산다’ 방송화면 캡쳐
버전 변경 시 트래픽 양상 변화, 통계 무효화
조작 실수나 버그 유입 가능성
실제 사용자 트래픽이 아니지만 서비스에 영향을 줄 수 있음
지표 수집에 문제가 생겨서 거짓 경보가 발생하는 경우 많음
Mapping 정보에 문제가 생기거나 수집 자체가 잘 안되는 경우 등 원인은 매우 다양
지금까지 겪어본 적 없는 문제들
언제 어디서 어떻게 발생할지 모르는 Incident
모든 경우의 수를 다 자동화하거나 시스템화 하는 것은 불가능
SRE는 시스템이 안정적으로 돌아가게 만들기 위한 ‘모든’ 활동
개발자 / 엔지니어의 심리적, 정신적 안정감도 시스템의 Reliability 에 큰 영향을 줌
일단, Incident 발생 시 필요한 두 가지 역할 정의
•
•
•
•
•
•
Icons made by Freepik from www.flaticon.com
SREcon18 Americas “Incident Command for IT—What We've Learned from the Fire Department?” Brent Chapman
Icons made by Freepik from www.flaticon.com
현재 시점
Icons made by Freepik from www.flaticon.com
Incident
감지
현재 시점
Icons made by Freepik from www.flaticon.com
Incident
감지
현재 시점
Icons made by Freepik from www.flaticon.com
상황 판단
의사 결정
외부 대화
지표 수집 / 정리
시간대별 상황 기록
Incident
감지
현재 시점
Icons made by Freepik from www.flaticon.com
상황 판단
의사 결정
외부 대화
지표 수집 / 정리
시간대별 상황 기록
Incident
감지
현재 시점
Chatbot 활용
Check in / Toss
Icons made by Freepik from www.flaticon.com
SREcon18 Americas “Your System Has Recovered from an Incident, but Have Your Developers?” Jaime Woo
Incident 처리 후 많은 사람들이
분위기, 의욕, 집중력 등 각종 문제 경험
심리적 안전 (psychological safety) 의 중요성
의료계, 코미디, 스포츠 등 다른 분야 참고
각자 스트레스 처리하는 법 익히기
언제나 문제가 발생할 수 있다는 마음가짐
Incident에서 교훈 얻기
동료들의 도움의 중요성
현실에서는 단순히 비난이 없는 것 보다 사실에 기반하여 분석하는 것이 더 중요
글쓰기, 정기 Report 발행, 교육 등 SRE 문화 전파
NAVER Search & Tech
지진에도 흔들리지 않는 네이버 검색 시스템 - 1편
지진에도 흔들리지 않는 네이버 검색 시스템 - 2편
네이버 검색의 스마트한 경보 시스템
비상 상황 대응 방법 구체화
구성원 별 역할 체계화
SRE 조직 인원 보강
명 명 명 명
2015년 2016년 2017년 2018년 2019년
Anomaly Detection, Simulation 등
다양한 측면에서 발전을 위해 노력 중
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)

More Related Content

What's hot

Gap Survey, Assessment and Analysis for DevSecOps
Gap Survey, Assessment and Analysis for DevSecOpsGap Survey, Assessment and Analysis for DevSecOps
Gap Survey, Assessment and Analysis for DevSecOpsMarc Hornbeek
 
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해Terry Cho
 
[Retail & CPG Day 2019] 마켓컬리 서비스 AWS 이관 및 최적화 여정 - 임상석, 마켓컬리 개발 리더
[Retail & CPG Day 2019] 마켓컬리 서비스 AWS 이관 및 최적화 여정 - 임상석, 마켓컬리 개발 리더[Retail & CPG Day 2019] 마켓컬리 서비스 AWS 이관 및 최적화 여정 - 임상석, 마켓컬리 개발 리더
[Retail & CPG Day 2019] 마켓컬리 서비스 AWS 이관 및 최적화 여정 - 임상석, 마켓컬리 개발 리더Amazon Web Services Korea
 
(KRUG Session) 쿠버네티스 모니터링.pdf
(KRUG Session) 쿠버네티스 모니터링.pdf(KRUG Session) 쿠버네티스 모니터링.pdf
(KRUG Session) 쿠버네티스 모니터링.pdfHyunjin Lee
 
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축Ji-Woong Choi
 
대용량 분산 아키텍쳐 설계 #4. soa 아키텍쳐
대용량 분산 아키텍쳐 설계 #4. soa 아키텍쳐대용량 분산 아키텍쳐 설계 #4. soa 아키텍쳐
대용량 분산 아키텍쳐 설계 #4. soa 아키텍쳐Terry Cho
 
Performance Testing using Loadrunner
Performance Testingusing LoadrunnerPerformance Testingusing Loadrunner
Performance Testing using Loadrunnerhmfive
 
비즈니스 리더를 위한 디지털 트랜스포메이션 트렌드 - 김지현, 김영현 AWS 사업개발 매니저 :: AWS re:Invent re:Cap 2021
비즈니스 리더를 위한 디지털 트랜스포메이션 트렌드 - 김지현, 김영현 AWS 사업개발 매니저 :: AWS re:Invent re:Cap 2021비즈니스 리더를 위한 디지털 트랜스포메이션 트렌드 - 김지현, 김영현 AWS 사업개발 매니저 :: AWS re:Invent re:Cap 2021
비즈니스 리더를 위한 디지털 트랜스포메이션 트렌드 - 김지현, 김영현 AWS 사업개발 매니저 :: AWS re:Invent re:Cap 2021Amazon Web Services Korea
 
Amazon SNS로 지속적 관리가 가능한 대용량 푸쉬 시스템 구축 여정 - AWS Summit Seoul 2017
Amazon SNS로 지속적 관리가 가능한 대용량 푸쉬 시스템 구축 여정 - AWS Summit Seoul 2017Amazon SNS로 지속적 관리가 가능한 대용량 푸쉬 시스템 구축 여정 - AWS Summit Seoul 2017
Amazon SNS로 지속적 관리가 가능한 대용량 푸쉬 시스템 구축 여정 - AWS Summit Seoul 2017Amazon Web Services Korea
 
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive [2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive Amazon Web Services Korea
 
쿠알못이 Amazon EKS로 안정적인 서비스 운영하기 - 최용호(넥슨코리아) :: AWS Community Day 2020
쿠알못이 Amazon EKS로 안정적인 서비스 운영하기 - 최용호(넥슨코리아) :: AWS Community Day 2020쿠알못이 Amazon EKS로 안정적인 서비스 운영하기 - 최용호(넥슨코리아) :: AWS Community Day 2020
쿠알못이 Amazon EKS로 안정적인 서비스 운영하기 - 최용호(넥슨코리아) :: AWS Community Day 2020AWSKRUG - AWS한국사용자모임
 
AWS Summit Seoul 2015 - 국내 사례로 본 클라우드 운영 최적화 (이주완-메가존)
AWS Summit Seoul 2015 -  국내 사례로 본 클라우드 운영 최적화  (이주완-메가존)AWS Summit Seoul 2015 -  국내 사례로 본 클라우드 운영 최적화  (이주완-메가존)
AWS Summit Seoul 2015 - 국내 사례로 본 클라우드 운영 최적화 (이주완-메가존)Amazon Web Services Korea
 
천만 사용자를 위한 AWS 아키텍처 보안 모범 사례 (윤석찬, 테크에반젤리스트)
천만 사용자를 위한 AWS 아키텍처 보안 모범 사례 (윤석찬, 테크에반젤리스트)천만 사용자를 위한 AWS 아키텍처 보안 모범 사례 (윤석찬, 테크에반젤리스트)
천만 사용자를 위한 AWS 아키텍처 보안 모범 사례 (윤석찬, 테크에반젤리스트)Amazon Web Services Korea
 
Atlassian을 이용한 애자일 ALM 소개 / JIRA 프로젝트 예산 관리 - 커브
Atlassian을 이용한 애자일 ALM 소개 / JIRA 프로젝트 예산 관리 - 커브Atlassian을 이용한 애자일 ALM 소개 / JIRA 프로젝트 예산 관리 - 커브
Atlassian을 이용한 애자일 ALM 소개 / JIRA 프로젝트 예산 관리 - 커브Atlassian 대한민국
 
E-Commerce 를 풍성하게 해주는 AWS 기술들 - 서호석 이사, YOUNGWOO DIGITAL :: AWS Summit Seoul ...
E-Commerce 를 풍성하게 해주는 AWS 기술들 - 서호석 이사, YOUNGWOO DIGITAL :: AWS Summit Seoul ...E-Commerce 를 풍성하게 해주는 AWS 기술들 - 서호석 이사, YOUNGWOO DIGITAL :: AWS Summit Seoul ...
E-Commerce 를 풍성하게 해주는 AWS 기술들 - 서호석 이사, YOUNGWOO DIGITAL :: AWS Summit Seoul ...Amazon Web Services Korea
 
당근마켓에서 IaC경험
당근마켓에서 IaC경험당근마켓에서 IaC경험
당근마켓에서 IaC경험용진 조
 
VMware Tanzu Kubernetes Connect
VMware Tanzu Kubernetes ConnectVMware Tanzu Kubernetes Connect
VMware Tanzu Kubernetes ConnectVMware Tanzu
 
Kubernetes
KubernetesKubernetes
Kuberneteserialc_w
 
Using AWS WAF and Lambda for Automatic Protection
Using AWS WAF and Lambda for Automatic ProtectionUsing AWS WAF and Lambda for Automatic Protection
Using AWS WAF and Lambda for Automatic ProtectionAmazon Web Services
 

What's hot (20)

Gap Survey, Assessment and Analysis for DevSecOps
Gap Survey, Assessment and Analysis for DevSecOpsGap Survey, Assessment and Analysis for DevSecOps
Gap Survey, Assessment and Analysis for DevSecOps
 
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
 
[Retail & CPG Day 2019] 마켓컬리 서비스 AWS 이관 및 최적화 여정 - 임상석, 마켓컬리 개발 리더
[Retail & CPG Day 2019] 마켓컬리 서비스 AWS 이관 및 최적화 여정 - 임상석, 마켓컬리 개발 리더[Retail & CPG Day 2019] 마켓컬리 서비스 AWS 이관 및 최적화 여정 - 임상석, 마켓컬리 개발 리더
[Retail & CPG Day 2019] 마켓컬리 서비스 AWS 이관 및 최적화 여정 - 임상석, 마켓컬리 개발 리더
 
(KRUG Session) 쿠버네티스 모니터링.pdf
(KRUG Session) 쿠버네티스 모니터링.pdf(KRUG Session) 쿠버네티스 모니터링.pdf
(KRUG Session) 쿠버네티스 모니터링.pdf
 
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
 
대용량 분산 아키텍쳐 설계 #4. soa 아키텍쳐
대용량 분산 아키텍쳐 설계 #4. soa 아키텍쳐대용량 분산 아키텍쳐 설계 #4. soa 아키텍쳐
대용량 분산 아키텍쳐 설계 #4. soa 아키텍쳐
 
Performance Testing using Loadrunner
Performance Testingusing LoadrunnerPerformance Testingusing Loadrunner
Performance Testing using Loadrunner
 
비즈니스 리더를 위한 디지털 트랜스포메이션 트렌드 - 김지현, 김영현 AWS 사업개발 매니저 :: AWS re:Invent re:Cap 2021
비즈니스 리더를 위한 디지털 트랜스포메이션 트렌드 - 김지현, 김영현 AWS 사업개발 매니저 :: AWS re:Invent re:Cap 2021비즈니스 리더를 위한 디지털 트랜스포메이션 트렌드 - 김지현, 김영현 AWS 사업개발 매니저 :: AWS re:Invent re:Cap 2021
비즈니스 리더를 위한 디지털 트랜스포메이션 트렌드 - 김지현, 김영현 AWS 사업개발 매니저 :: AWS re:Invent re:Cap 2021
 
Amazon SNS로 지속적 관리가 가능한 대용량 푸쉬 시스템 구축 여정 - AWS Summit Seoul 2017
Amazon SNS로 지속적 관리가 가능한 대용량 푸쉬 시스템 구축 여정 - AWS Summit Seoul 2017Amazon SNS로 지속적 관리가 가능한 대용량 푸쉬 시스템 구축 여정 - AWS Summit Seoul 2017
Amazon SNS로 지속적 관리가 가능한 대용량 푸쉬 시스템 구축 여정 - AWS Summit Seoul 2017
 
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive [2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive
 
쿠알못이 Amazon EKS로 안정적인 서비스 운영하기 - 최용호(넥슨코리아) :: AWS Community Day 2020
쿠알못이 Amazon EKS로 안정적인 서비스 운영하기 - 최용호(넥슨코리아) :: AWS Community Day 2020쿠알못이 Amazon EKS로 안정적인 서비스 운영하기 - 최용호(넥슨코리아) :: AWS Community Day 2020
쿠알못이 Amazon EKS로 안정적인 서비스 운영하기 - 최용호(넥슨코리아) :: AWS Community Day 2020
 
AWS Summit Seoul 2015 - 국내 사례로 본 클라우드 운영 최적화 (이주완-메가존)
AWS Summit Seoul 2015 -  국내 사례로 본 클라우드 운영 최적화  (이주완-메가존)AWS Summit Seoul 2015 -  국내 사례로 본 클라우드 운영 최적화  (이주완-메가존)
AWS Summit Seoul 2015 - 국내 사례로 본 클라우드 운영 최적화 (이주완-메가존)
 
멀티·하이브리드 클라우드 구축 전략 - 네이버비즈니스플랫폼 박기은 CTO
멀티·하이브리드 클라우드 구축 전략 - 네이버비즈니스플랫폼 박기은 CTO멀티·하이브리드 클라우드 구축 전략 - 네이버비즈니스플랫폼 박기은 CTO
멀티·하이브리드 클라우드 구축 전략 - 네이버비즈니스플랫폼 박기은 CTO
 
천만 사용자를 위한 AWS 아키텍처 보안 모범 사례 (윤석찬, 테크에반젤리스트)
천만 사용자를 위한 AWS 아키텍처 보안 모범 사례 (윤석찬, 테크에반젤리스트)천만 사용자를 위한 AWS 아키텍처 보안 모범 사례 (윤석찬, 테크에반젤리스트)
천만 사용자를 위한 AWS 아키텍처 보안 모범 사례 (윤석찬, 테크에반젤리스트)
 
Atlassian을 이용한 애자일 ALM 소개 / JIRA 프로젝트 예산 관리 - 커브
Atlassian을 이용한 애자일 ALM 소개 / JIRA 프로젝트 예산 관리 - 커브Atlassian을 이용한 애자일 ALM 소개 / JIRA 프로젝트 예산 관리 - 커브
Atlassian을 이용한 애자일 ALM 소개 / JIRA 프로젝트 예산 관리 - 커브
 
E-Commerce 를 풍성하게 해주는 AWS 기술들 - 서호석 이사, YOUNGWOO DIGITAL :: AWS Summit Seoul ...
E-Commerce 를 풍성하게 해주는 AWS 기술들 - 서호석 이사, YOUNGWOO DIGITAL :: AWS Summit Seoul ...E-Commerce 를 풍성하게 해주는 AWS 기술들 - 서호석 이사, YOUNGWOO DIGITAL :: AWS Summit Seoul ...
E-Commerce 를 풍성하게 해주는 AWS 기술들 - 서호석 이사, YOUNGWOO DIGITAL :: AWS Summit Seoul ...
 
당근마켓에서 IaC경험
당근마켓에서 IaC경험당근마켓에서 IaC경험
당근마켓에서 IaC경험
 
VMware Tanzu Kubernetes Connect
VMware Tanzu Kubernetes ConnectVMware Tanzu Kubernetes Connect
VMware Tanzu Kubernetes Connect
 
Kubernetes
KubernetesKubernetes
Kubernetes
 
Using AWS WAF and Lambda for Automatic Protection
Using AWS WAF and Lambda for Automatic ProtectionUsing AWS WAF and Lambda for Automatic Protection
Using AWS WAF and Lambda for Automatic Protection
 

Similar to [216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)

인공지능 식별추적시스템 성능 검증 평가 사례
인공지능 식별추적시스템 성능 검증 평가 사례 인공지능 식별추적시스템 성능 검증 평가 사례
인공지능 식별추적시스템 성능 검증 평가 사례 IMQA
 
인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화
인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화
인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화YoungSu Son
 
AI 파이프라인과 실전 테스팅 전략
AI 파이프라인과 실전 테스팅 전략AI 파이프라인과 실전 테스팅 전략
AI 파이프라인과 실전 테스팅 전략IMQA
 
Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보Jiun Bae
 
(120303) #fitalk profiling insider threats and pre-detection model
(120303) #fitalk   profiling insider threats and pre-detection model(120303) #fitalk   profiling insider threats and pre-detection model
(120303) #fitalk profiling insider threats and pre-detection modelINSIGHT FORENSIC
 
(120303) #fitalk profiling insider threats and pre-detection model
(120303) #fitalk   profiling insider threats and pre-detection model(120303) #fitalk   profiling insider threats and pre-detection model
(120303) #fitalk profiling insider threats and pre-detection modelINSIGHT FORENSIC
 
Oprj eyes of truth 20140517
Oprj eyes of truth 20140517Oprj eyes of truth 20140517
Oprj eyes of truth 20140517Cheol Hoe Kim
 
이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항
이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항
이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항JeongHeon Lee
 
(130608) #fitalk trends in d forensics (may, 2013)
(130608) #fitalk   trends in d forensics (may, 2013)(130608) #fitalk   trends in d forensics (may, 2013)
(130608) #fitalk trends in d forensics (may, 2013)INSIGHT FORENSIC
 
Cybereason v2.10
Cybereason v2.10Cybereason v2.10
Cybereason v2.10Harry Sohn
 
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래Taehoon Ko
 
[ETHCon Korea 2019] Park Sieun 박시은
[ETHCon Korea 2019] Park Sieun 박시은[ETHCon Korea 2019] Park Sieun 박시은
[ETHCon Korea 2019] Park Sieun 박시은ethconkr
 
[Main Session] 보안을 고려한 애플리케이션 개발 공정 및 실무적 수행 방법 소개
[Main Session] 보안을 고려한 애플리케이션 개발 공정 및 실무적 수행 방법 소개 [Main Session] 보안을 고려한 애플리케이션 개발 공정 및 실무적 수행 방법 소개
[Main Session] 보안을 고려한 애플리케이션 개발 공정 및 실무적 수행 방법 소개 Oracle Korea
 
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입Hoon Park
 
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례JeongHeon Lee
 
(130413) #fitalk trends in d forensics (mar, 2013)
(130413) #fitalk   trends in d forensics (mar, 2013)(130413) #fitalk   trends in d forensics (mar, 2013)
(130413) #fitalk trends in d forensics (mar, 2013)INSIGHT FORENSIC
 
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암Daehee Han
 
보안 위협과 악성코드 분석 기법
보안 위협과 악성코드 분석 기법보안 위협과 악성코드 분석 기법
보안 위협과 악성코드 분석 기법Youngjun Chang
 

Similar to [216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템) (20)

인공지능 식별추적시스템 성능 검증 평가 사례
인공지능 식별추적시스템 성능 검증 평가 사례 인공지능 식별추적시스템 성능 검증 평가 사례
인공지능 식별추적시스템 성능 검증 평가 사례
 
인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화
인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화
인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화
 
AI 파이프라인과 실전 테스팅 전략
AI 파이프라인과 실전 테스팅 전략AI 파이프라인과 실전 테스팅 전략
AI 파이프라인과 실전 테스팅 전략
 
Memento
MementoMemento
Memento
 
Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보
 
(120303) #fitalk profiling insider threats and pre-detection model
(120303) #fitalk   profiling insider threats and pre-detection model(120303) #fitalk   profiling insider threats and pre-detection model
(120303) #fitalk profiling insider threats and pre-detection model
 
(120303) #fitalk profiling insider threats and pre-detection model
(120303) #fitalk   profiling insider threats and pre-detection model(120303) #fitalk   profiling insider threats and pre-detection model
(120303) #fitalk profiling insider threats and pre-detection model
 
Oprj eyes of truth 20140517
Oprj eyes of truth 20140517Oprj eyes of truth 20140517
Oprj eyes of truth 20140517
 
이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항
이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항
이미지(비디오)를 대상으로 한 빅 데이터 시스템 기술 동향 및 고려사항
 
(130608) #fitalk trends in d forensics (may, 2013)
(130608) #fitalk   trends in d forensics (may, 2013)(130608) #fitalk   trends in d forensics (may, 2013)
(130608) #fitalk trends in d forensics (may, 2013)
 
Cybereason v2.10
Cybereason v2.10Cybereason v2.10
Cybereason v2.10
 
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
 
[ETHCon Korea 2019] Park Sieun 박시은
[ETHCon Korea 2019] Park Sieun 박시은[ETHCon Korea 2019] Park Sieun 박시은
[ETHCon Korea 2019] Park Sieun 박시은
 
[Main Session] 보안을 고려한 애플리케이션 개발 공정 및 실무적 수행 방법 소개
[Main Session] 보안을 고려한 애플리케이션 개발 공정 및 실무적 수행 방법 소개 [Main Session] 보안을 고려한 애플리케이션 개발 공정 및 실무적 수행 방법 소개
[Main Session] 보안을 고려한 애플리케이션 개발 공정 및 실무적 수행 방법 소개
 
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
 
통합관리 NetHelper 시온
통합관리 NetHelper 시온통합관리 NetHelper 시온
통합관리 NetHelper 시온
 
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례
 
(130413) #fitalk trends in d forensics (mar, 2013)
(130413) #fitalk   trends in d forensics (mar, 2013)(130413) #fitalk   trends in d forensics (mar, 2013)
(130413) #fitalk trends in d forensics (mar, 2013)
 
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
 
보안 위협과 악성코드 분석 기법
보안 위협과 악성코드 분석 기법보안 위협과 악성코드 분석 기법
보안 위협과 악성코드 분석 기법
 

More from NAVER D2

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다NAVER D2
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...NAVER D2
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기NAVER D2
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발NAVER D2
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈NAVER D2
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&ANAVER D2
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기NAVER D2
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep LearningNAVER D2
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applicationsNAVER D2
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingNAVER D2
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지NAVER D2
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기NAVER D2
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화NAVER D2
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기NAVER D2
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual SearchNAVER D2
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화NAVER D2
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지NAVER D2
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터NAVER D2
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?NAVER D2
 
[231] Clova 화자인식
[231] Clova 화자인식[231] Clova 화자인식
[231] Clova 화자인식NAVER D2
 

More from NAVER D2 (20)

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual Search
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?
 
[231] Clova 화자인식
[231] Clova 화자인식[231] Clova 화자인식
[231] Clova 화자인식
 

[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)

  • 1.
  • 2. 1. 들어가며 2. 네이버 검색시스템의 SRE 3. 실제 사례 소개 4. Search Reliability Engineer
  • 3.
  • 4. 대용량 처리 (High Throughput) 짧은 대기시간 (Low Latency) 장애가 발생하면 대용량 처리와 짧은 대기시간을 보장할 수 없음
  • 7. 얼마나 비용 효율적인지 증명할 수 있는가? → 정확한 비용 측정 / 예측의 중요성 화재가 나지 않았을 때, 예방 활동 덕분이었다는 것을 어떻게 증명할 수 있는가? → 정확하고 구체적인 경보 체계 확립 필요 → 정확한 사후분석 (post-mortem) 필요
  • 8. 수백 개의 검색 서비스 수만 대의 서버 장비 하루 수십억 건의 검색 요청 수백억 건의 컨텐츠 수십 개의 조직 수백 명의 구성원 다양한 엔진 시스템 도구들
  • 9. 문제 원인 핀포인트 추적 어려움 문제 영향 범위 확정 어려움 장애 복구 완료 후에도 모든 구성요소 정상화 확인 어려움
  • 10. 글로벌 스케일의 서비스를 제공하면서 어떻게 하면 시스템의 신뢰성을 보장할지 고민하는 기술 분야이자 방법론, 문화
  • 11. 모든 검색서비스 정상 동작 1년 10분 이하 다운타임 고비용 사후처리보다 저비용 사전예방 이 목표 달성을 위한 모든 활동
  • 12.
  • 13. 검색 요청 트래픽 서버 응답시간 사용량 디스크 네트워크 사용량 등등
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20. 99.998%인데, 좋은 숫자인데… → 1년 동안 10분 장애 네이버 통합검색 10분 장애는 대재난!!! !"#$%#&$%$'( = *+,- *++. + *+,- 평균 복구 시간 평균 무고장 시간
  • 21. 서버 2 서버 3 서버 4 서버 1 서버 5 서버 6 서버 7 서버 2 서버 3 서버 4 서버 1 서버 5 서버 6 서버 7 특정 서버에 문제가 생기면 다른 서버들이 많은 영향을 받는다!
  • 22. 4L / 4L 4L / 4L +1L 3L / 4L 3L / 4L 3L / 4L +1L+1L 2L / 4L 2L / 4L 2L / 4L 3L / 4L 3L / 4L +1L+1L 한 친구가 죽으면 나머지 친구들은 몇 배를 받나 한 명이 현재 몇 배까지 받을 수 있나 부하증가배수 최대가용배수
  • 23. 가용량 경보 발생 시 미리 경보 각 서비스 담당자들에게 성능 및 컨설팅 정보 제공
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
  • 31. 긴급 대응 필요 상황 대응 불필요 상황 경보 발생 실제 장애 상황 색인 업데이트 캐시 갱신 등 시간이 흐르면 정상화 되는 상황 경보 미발생 장애가 발생했으나 경보가 울리지 않는 경우 정상 상황
  • 32. 긴급 대응 필요 상황 대응 불필요 상황 경보 발생 실제 장애 상황 색인 업데이트 캐시 갱신 등 시간이 흐르면 정상화 되는 상황 경보 미발생 장애가 발생했으나 경보가 울리지 않는 경우 정상 상황
  • 33. 장점 : 그래프만 보고도 금방 장애 유무 판단 가능 단점 : 개인차 존재 다양한 장애 케이스에 대해서 모든 경우에 대한 모든 대응 자동화 (X) 빠른 대응을 위해 필요한 데이터들을 미리 모아주기 (O) 빠른 의사 결정을 위해 필요한 기본적인 상황 판단 자동화 (O)
  • 34.
  • 35. 지표의 방향을 부호로 인코딩 후 패턴 매칭으로 자동 상황 판단 335625355117664533 353265553771223344 353365344771223344
  • 36.
  • 37.
  • 38.
  • 39.
  • 40. 각 서비스 내부에서 일어나는 변화 집중 파악
  • 41. 각 서비스 내부에서 일어나는 변화 집중 파악 외부 요인들까지 고려하여 종합적인 관점에서 분석
  • 42.
  • 43.
  • 44.
  • 45.
  • 46.
  • 47.
  • 48. 일 월 화 수 목 금 토 일 월 화 수 목 금 토 일 월 화 수 목 금
  • 49. 오전 오후에 증가 점심시간 저녁시간에 감소 새벽 외 비슷한 트래픽 유지
  • 50. 오전 오후에 증가 점심시간 저녁시간에 감소 새벽 외 비슷한 트래픽 유지
  • 51. 당시 통합검색 트래픽 변화 수능 연기 발표 규모 여진 발생 규모 본진 발생 평소 대비 약 배 트래픽
  • 52. 화제가 되거나 컬링 등 금메달을 획득한 종목 스켈레톤 등 에 대한 검색 트래픽 대량 유입 우리나라 대표팀 경기에 많은 관심 집중 축구 경기 특유의 전반전 후반전 패턴 발생 병역 혜택이 걸린 종목은 경기 진행 상황에 따라 많은 검색 트래픽 유입 년 월 월 월
  • 53. 후반전 통합검색 전반전 경기 후 트래픽 증가 경기 중 트래픽 감소 후반전전반전 모바일 통합검색 하프타임 트래픽 증가 스웨덴 골
  • 54. 통합검색 스웨덴 골 대한민국 골 후반전전반전
  • 55. 일본 골 전반전 후반전 연장전 대한민국 골 통합검색
  • 56. 출처: MBC ‘나 혼자 산다’ 방송화면 캡쳐
  • 57. 버전 변경 시 트래픽 양상 변화, 통계 무효화 조작 실수나 버그 유입 가능성 실제 사용자 트래픽이 아니지만 서비스에 영향을 줄 수 있음 지표 수집에 문제가 생겨서 거짓 경보가 발생하는 경우 많음 Mapping 정보에 문제가 생기거나 수집 자체가 잘 안되는 경우 등 원인은 매우 다양
  • 58.
  • 59. 지금까지 겪어본 적 없는 문제들 언제 어디서 어떻게 발생할지 모르는 Incident 모든 경우의 수를 다 자동화하거나 시스템화 하는 것은 불가능 SRE는 시스템이 안정적으로 돌아가게 만들기 위한 ‘모든’ 활동 개발자 / 엔지니어의 심리적, 정신적 안정감도 시스템의 Reliability 에 큰 영향을 줌
  • 60. 일단, Incident 발생 시 필요한 두 가지 역할 정의 • • • • • • Icons made by Freepik from www.flaticon.com SREcon18 Americas “Incident Command for IT—What We've Learned from the Fire Department?” Brent Chapman
  • 61. Icons made by Freepik from www.flaticon.com
  • 62. 현재 시점 Icons made by Freepik from www.flaticon.com
  • 63. Incident 감지 현재 시점 Icons made by Freepik from www.flaticon.com
  • 64. Incident 감지 현재 시점 Icons made by Freepik from www.flaticon.com
  • 65. 상황 판단 의사 결정 외부 대화 지표 수집 / 정리 시간대별 상황 기록 Incident 감지 현재 시점 Icons made by Freepik from www.flaticon.com
  • 66. 상황 판단 의사 결정 외부 대화 지표 수집 / 정리 시간대별 상황 기록 Incident 감지 현재 시점 Chatbot 활용 Check in / Toss Icons made by Freepik from www.flaticon.com
  • 67. SREcon18 Americas “Your System Has Recovered from an Incident, but Have Your Developers?” Jaime Woo Incident 처리 후 많은 사람들이 분위기, 의욕, 집중력 등 각종 문제 경험 심리적 안전 (psychological safety) 의 중요성 의료계, 코미디, 스포츠 등 다른 분야 참고 각자 스트레스 처리하는 법 익히기 언제나 문제가 발생할 수 있다는 마음가짐 Incident에서 교훈 얻기 동료들의 도움의 중요성
  • 68. 현실에서는 단순히 비난이 없는 것 보다 사실에 기반하여 분석하는 것이 더 중요 글쓰기, 정기 Report 발행, 교육 등 SRE 문화 전파 NAVER Search & Tech 지진에도 흔들리지 않는 네이버 검색 시스템 - 1편 지진에도 흔들리지 않는 네이버 검색 시스템 - 2편 네이버 검색의 스마트한 경보 시스템
  • 69. 비상 상황 대응 방법 구체화 구성원 별 역할 체계화 SRE 조직 인원 보강 명 명 명 명 2015년 2016년 2017년 2018년 2019년 Anomaly Detection, Simulation 등 다양한 측면에서 발전을 위해 노력 중