2. 발표자 소개
2
2005.08 ~ 2008.10 인젠
2009.01 ~ 2011.08 엔초비
2011.01 ~ 2013.03 퓨쳐시스템
2013.03 ~ 2018.07 이디엄
2005년 처음 통합보안관제시스템 (ESM) 개발을 시작해서 2018년 현재까지 정보보안 기술을 연구 개발하고 있습니다.
• 로그프레소 소나 정보보호 통합플랫폼 설계 및 개발
• 로그세이 이상금융거래탐지시스템 설계 및 개발
• 로그프레소 엔터프라이즈 빅데이터 플랫폼 설계 및 개발
• 위가디아 SSLplus 설계 및 개발
• IGIMS 서버/네트워크관제 시스템 개발
• 엔초비 인스펙터 네트워크 DLP 설계 및 개발
• 에어스캔 무선보안관제시스템 개발
• 엔초비 인터넷 스톰 센터 설계 및 개발
• 네오와처 PCI-E NDIS 드라이버 개발
• 시큐플랫 ESM (.NET 기반) 설계 및 개발
3. 통합보안관제 1세대: ESM
3
2000년 초반은 방화벽 및 침입탐지시스템 등 네트워크 보안 장비들이 초기 구축되던 시기로, 로그 수집/정규화 후 이벤트 연관 분석을 통해 실시간 외부 침해
관제를 수행하는데 초점이 맞춰졌습니다.
솔루션 아키텍처 예시
사용자 인터페이스
로그 수집 및 정규화 저장
이벤트 연관 분석 서버
SYSLOG SNMP FILE DBMS
로그 수집 및 정규화 저장
에이전트
특징
기술적 한계
• SYSLOG, SNMP 등 방화벽, 침입탐지시스템에서 전송되는 로그의 실시간 수집
• 유닉스 서버 기반 운영 (솔라리스, AIX 등), 클라이언트-서버 3-Tier 환경 (델파이, 윈폼 개발)
• 보안 이벤트는 오라클 등 관계형DB, 로그는 ISAM 파일 (MyISAM 등) 저장 및 관리
• 이기종 장비 로그의 정규화 (공통 속성 추출)를 통해 일관된 탐지 룰 설정 및 통계 분석
• 패턴매칭 및 임계치 기반의 보안 경보 생성
• 에이전트, 서버 간 XML 데이터 전송, 관계형 DB 사용으로 인해 매우 낮은 수집 성능
• 고정 스키마에 맞춘 정규화로 인해 원본 로그 유실, 상세 정보 확인 어려움
• ISAM 저장 시스템은 낮은 성능으로 인해 현실적으로 과거 로그 검색이 불가능함
• 단순 조건식을 이용한 패턴 매칭 및 임계치 기반 경보로 인해 정확도 매우 낮음
- 관제팀은 이벤트 추세 모니터링, IP 블랙리스트 관리, 와치리스트 관리를 통해 극복 시도
• 고정된 통계 보고서
- 공격 횟수, 공격자IP 등 1차원 그룹에 대한 통계 가공 및 보고서 생성
• 고정된 대시보드 구축
- 사이트별 커스터마이즈로 구축에 많은 공수 투입되나, 상황 변화에 대응하지 못함
4. 통합보안관제 2세대: 종합분석시스템
4
2000년 후반은 ISAC (정보공유분석센터), 종합분석시스템 등이 구축되며, 위협트래픽관리, 취약점 관리, 웹 변조 모니터링 등 관제 업무 범위가 확대됩니다.
기존 관제시스템은 변화가 거의 없지만 추가 구성되는 분석 시스템은 웹 2.0 기술 (AJAX, RIA 등)의 확대에 따라 점차 웹 기반 시스템으로 변화되어 갑니다.
솔루션 아키텍처 예시
통합보안관제
시스템
(ESM)
특징
기술적 한계
• 보안 이벤트, 트래픽, 자산, 취약점 등 다양한 보안 정보를 가공 및 분석
• 단순 이벤트 관제에서 그룹, 영역, 이벤트, 시간대 등 다양한 차원별 통계 분석 제공
• 자산 기본정보 및 중요도 평가에 따른 위험 지수 산출 등
• 위협 트래픽 및 취약점에 대한 통합 관리 기능 제공
• 침해사고처리 프로세스 지원
• 기초적 통계 분석
- 사전정의된 항목에 대한 1차원적 기술 통계에 한정됨 (기본 Top N 수준의 한계)
• 근본적 아키텍처 변화 없음
- 다양한 데이터마트를 생성하여 기존 체계로 분석 및 연계 영역을 확대하려고 시도함
- RDBMS 기반 데이터 관리 시스템의 한계로 기본 로그 수집, 저장, 검색에서 문제 발생
(1만 EPS 수준)
종합분석시스템
위협관리
시스템
(TMS)
웹 모니터링
시스템
(WMS)
정보공유
분석센터
(ISAC)
취약점관리
시스템
(VMS)
5. 통합보안관제 3세대: SIEM
5
10Gbps급 장비 확대, 연동 장비 증가 등 로그가 폭증하기 시작하면서 성능에 대한 문제 제기가 늘어나고, 빅데이터 및 NoSQL 기술이 주목을 받기 시작합니다.
통합로그 수준의 대용량 데이터 수집, 저장, 검색 문제는 해결되나, 사이버 위협의 고도화로 복합 시나리오 기반 데이터 분석이 요구되기 시작합니다.
솔루션 아키텍처 예시 특징
기술적 한계
• 원본 로그 및 네트워크 패킷 저장
• 풀텍스트 인덱싱 및 고속 검색 지원 (20만 EPS 이상)
• KISA C-TAS 등 위협 인텔리전스 공유 및 실시간 탐지 적용
• 정규표현식, 스크립트 등을 이용해 신규 로그 수집 시 유연하게 적용 가능
• 대부분의 솔루션이 HTML5 기반 사용자 인터페이스로 전환됨
• 로그 저장 및 검색 성능은 향상되었으나, 위협 분석 수준은 발전하지 못함
- 위협 인텔리전스, APT 장비 등을 통해 식별된 IP, URL (=블랙리스트) 탐지
- 실시간 이벤트 연관 분석은 가능하나 빅데이터 연관 분석 어려움
• 단일 필드에 대한 1차원 Top N 통계 한정
- 임의 데이터 통계 및 연관 분석 불가능
• 임의의 외부 메타데이터 연관 분석 불가능
- 사전 정의된 인사DB, 자산DB, 위협DB 수준
사용자 인터페이스
빅데이터 검색/인덱싱
실시간 이벤트 연관, 위협 DB 탐지
SYSLOG SNMP FILE DBMS
위협
DB
6. 위협 인텔리전스 기반 탐지
6
OTX (Open Threat Exchange) 피드를 이용하여 IP 평
판 정보를 실시간 대조합니다.
EXIT 라우터 IP를 대조하여 TOR 프록시를 통해 접속하
는 IP를 실시간으로 탐지합니다.
랜섬웨어 등 악성코드 도메인 피드를 대조하여 내부에
서 C&C 도메인 접속 시 실시간 탐지합니다.
대량 스팸 메일을 중계 발송하는 취약한 악성 호스트 IP
주소를 실시간으로 탐지합니다.
KISA C-TAS 시스템
위협 인텔리전스 예시
SIEM (3세대) 솔루션은 내부에서 수집되는 로그 중 IP, URL, HASH 등 기준 KEY를 외부 위협 인텔리전스의 위협정보 (IoC; Indicator of Compromise) 와
실시간으로 대조하여 침해 여부를 탐지하고 경보합니다.
7. 통합보안관제 3세대: 오픈소스 기술의 한계
7
국내외 다수의 SIEM이 루씬이나 하둡 계열 오픈소스 기술을 사용하여 빅데이터 수집/저장/검색을 해결해왔으나, 검색/인덱싱과 고급 분석을 동시에 해결할 수
있는 오픈소스 기술은 존재하지 않기 때문에 3세대 아키텍처의 한계를 맞이하고 있습니다.
ELK 스택
• 2006년 구글 BigTable 공개 후 개발 시작
• Row Key 기준 정렬된 상태로 데이터 저장
• 랜덤 읽기/쓰기를 효율적으로 수행
• 지속적인 파일 병합 (Compaction) 수행
• 대규모 OLTP 수행 지원 (예: 페이스북 메신저)
• 배치 분석 워크로드에 취약
• 2007년 개발 시작, 2009년 오픈소스 전환
• 스키마가 없는 JSON 데이터 구조
• 자바스크립트 기반 API 제공
• 데이터 처리 로직을 자바스크립트 함수로 표현
• 샤드 키 기준 노드 부하 분배
• 지속적인 쓰기 부하에 취약함 (Lock 문제)
• 2010년 첫 번째 버전 배포
• Lucene 엔진으로 인덱싱 및 고속 검색 수행
• 기초적인 Aggregation 기능 제공
• 대규모 배치 분석 불가능
• 조인 및 연관분석 기능 없음
• 실시간 이벤트 연관 분석 불가
HBASE 몽고DB
8. 통합보안관제 4세대: 정보보호 통합플랫폼
8
금융권 정보보호 체계가 계정계 시스템만큼 복잡한 환경으로 발전하면서, 외부침해, 내부유출, 내부통제, 개인정보유출탐지, 서비스 가용성 모니터링 등
독립적으로 운영되는 개별 관제 체계를 하나의 정보보호 통합플랫폼으로 통합 관리할 필요성이 대두됩니다.
네트워크 보안
단말 보안
서버 보안
네트워크 운영
개인정보보호
내부 통제
방화벽
NAC
APT
네트워크 포렌식
DDoS
IPS
웹방화벽
무선 IPS
스팸차단
HTTP 프록시
매체제어
안티바이러스
DRM 암호화
패치관리
출력 관리
보안USB관리
앱위변조 방지
보안 파일서버
윈도우 권한상승관리
사용자 행위분석
DB접근제어
암호변경지원
웹쉘 차단
취약점 스캐너
ITSM
안티바이러스
PKI
OTP
암호화 키관리
통합계정권한관리
망분리
망연계
암호 초기화
DB 암호화
통합인증
소스코드 취약점분석
출입통제
CCTV
외주직원관리
반출입관리
개인(신용)정보보호
고객정보관리
협력사 고객정보공유
개인정보 모니터링
PC개인정보 검출
서버개인정보 검출
스위치 운영 로그
넷플로우 분석
9. 통합보안관제 4세대: 정보보호 통합플랫폼
9
• 외부침해에 대한 통합관제체계
• 실시간 이벤트 연관 분석 위주
• RDBMS 기반으로 제한된 로그 보관
• 2만 EPS 수준의 낮은 수집/저장 성능
ESM 통합보안관제시스템
• 실시간 빅데이터 분석 엔진 기반 연관분석
• 인사DB (PKI), 자산DB (ITSM),
위협정보 DB, 공인IP DB 연계 분석 가능
• 애플리케이션, 사용자 행위분석 등
모든 영역으로 확대된 통합 분석체계
정보보호통합 플랫폼
• 위협 인텔리전스 기반 탐지
• 빅데이터 검색 엔진 기반으로
20만 EPS의 고속 인덱싱 및 검색 지원
• ESM, TMS, SMS, NMS 연계
SIEM 보안정보 및 이벤트관리시스템
• 서버 성능 및 장애 모니터링
• 서버별 에이전트 설치
SMS 서버 관리 시스템
• 사용자 행위 프로파일링 기반
으로 이상행위, 위협, 데이터
유출 탐지
UBA 사용자 행위분석 시스템
• 네트워크 및 시스템에서 발생
하는 모든 유형의 로그를 수집
및 압축 저장
• 검색 및 모니터링 지원
통합로그 시스템
• 스위치, 라우터 장비 모니터링
• 트래픽 유형별 통계 분석
• 네트워크 토폴로지 관리
• 장애 원인 분석
NMS 네트워크 관리 시스템
• 개인정보보호법 관련 개인정보
접속기록 생성 및 저장
• 개인정보 유출 감시, 이력분석
PIMS 개인정보보호 통합관제
일 1TB, 수십 종, 수백 대의 시스템을 실시간 빅데이터 분석 플랫폼 기반으로 통합 분석
10. 통합보안관제 4세대: 정보보호 통합플랫폼
10
BNK부산은행은 실시간 빅데이터 분석 플랫폼(로그프레소)과 BI 솔루션(클릭 센스)을 연결하는 자체개발 미들웨어를 통해, 외부침해 (NBA), 내부유출 (UBA),
상황정보 (CMDB), IPDB를 통합한 독자적인 정보보호 통합플랫폼을 구축하였습니다.
BNK부산은행 정보보호통합플랫폼 구성도
일 120GB 이상
엔드포인트 EDR 통합
네트워크 포렌식 연계
외부 인텔리전스 연계
정보보호 예방활동보고서
11. 통합보안관제 4세대: 정보보호 통합플랫폼
11
KB국민은행은 60종, 약 600개 단위보안시스템을 로그프레소 소나에 기반한 정보보호 통합플랫폼으로 통합하여 가시성과 통제력을 확보했습니다.
KB국민은행 정보보호통합플랫폼 구성도
12. 탐지 모델 분류
12
실시간 패턴 매칭
위협 인텔리전스 연계
실시간 이벤트 연관
과거 행위기반 탐지
통계 기반 연관 분석
머신러닝 기반 탐지
탐지 기술 수준
문자열 패턴 일치 및 범위에 의한 단순 조건 탐지를 수행합니다.
예) DMZ 구간 서버 대상으로 OpenSSH 하트블리드 공격 탐지 시 경보
위협 인텔리전스 DB와 IP, 도메인, 바이너리 해시를 대조하여 탐지합니다.
예) 신규 실행 바이너리 해시 수집 시 바이러스토탈과 연계하여 분석 및 탐지
다단계 공격 등 이기종 이벤트 상관 관계를 실시간으로 탐지합니다.
예) 취약 서버 익스플로잇 탐지 후 아웃바운드 C&C 서버 접속 시도
현재 이벤트와 과거 행위를 대조하여 이상 여부를 실시간으로 탐지합니다.
예) 과거 6개월간 로그인한 적이 없는 IP 대역에서 로그인 시도
IP, 사번 등 공통 키를 기준으로 임계치를 초과한 대상을 연관 탐지합니다.
예) 퇴직예정자 계정에서 DRM 암호화 해제, 매체제어 위반이 과다 발생
고정된 임계치 없이 정상 범위를 벗어나는 이상치를 자동으로 탐지합니다.
예) 서비스 부하 추이가 요일별 기존 기록을 크게 벗어나는 경우 장애 탐지
13. 통계 기반 연관 분석
13
서로 다른 데이터 집합을 임계치 기반으로 필터링 후, IP나 사번 등 공통 키를 기준으로 조인하여 실제 사고 가능성이 높은 대상 집합을 추출합니다.
2개 이상 다수의 데이터 집합을 연관시켜 정교한 시나리오를 구성합니다.
방화벽 호스트/포트 스캔
아웃바운드 과다 트래픽
네트워크 침입 탐지IPS
웹방화벽 웹 공격 탐지
DRM
암호화 대량 해제
DLP
외장매체 다수 접근
대량 웹사이트 업로드
프린터 대량 문서 출력
DNS 과다 트래픽
문서 대량 열람
안티바이러스 악성코드 재감염 반복
웹 서버 공격 성공 후 내부망 스캔
치료 실패한 악성코드에 의한 DNS 요청 폭증
내부자의 대량 정보 유출 시도
14. 피벗 연관 분석 기술
14
이전 세대의 기술은 관제체계 구축 시점에 보안 컨설턴트나 엔지니어가 있어야만 통계 분석이나 새로운 시나리오를 구현할 수 있었지만, 차세대 기술은 현업도
Drag & Drop 으로 쉽게 실시간 빅데이터를 분석, 시각화하고 연관 분석된 탐지 시나리오까지 즉시 생성할 수 있는 편의성을 제공합니다.
15. 실시간 OLAP 분석
15
빅데이터를 대상으로 임의의 시나리오에 대한 통계 기반 연관 분석을 실행하려면, 실시간 빅데이터 분석 플랫폼의 강력한 성능과 기능이 뒷받침되어야 합니다.
풀텍스트 인덱싱, 인메모리 캐싱, 스키마리스 컬럼스토리지, 벡터화된 쿼리 실행, JIT 쿼리 컴파일, 브로드캐스트 조인 등 다양한 요소 기술이 적용됩니다.
컬럼 #1컬럼 #2컬럼 #3컬럼 #4 … 컬럼 #100
컬럼 #1컬럼 #2컬럼 #3컬럼 #4 … 컬럼 #100
컬럼 #1컬럼 #2컬럼 #3컬럼 #4 … 컬럼 #100
컬럼 #1컬럼 #2컬럼 #3컬럼 #4 … 컬럼 #100
레코드 #1
레코드 #2
레코드 #3
레코드 #4
컬럼 #1 레코드 #1 값 레코드 #2 값 레코드 #3 값 레코드 #4 값
컬럼 #2 레코드 #1 값 레코드 #2 값 레코드 #3 값 레코드 #4 값
컬럼 #3 레코드 #1 값 레코드 #2 값 레코드 #3 값 레코드 #4 값
컬럼 #100 레코드 #1 값 레코드 #2 값 레코드 #3 값 레코드 #4 값
Row-oriented data block
Column-oriented data block
고속 인덱싱 및 검색 고속 통계 및 연관 분석
• 20만 EPS 이상 고속 풀텍스트 인덱싱, 10억건 대상 1초 이내 검색 지원
• 수치형 및 IP 주소 타입에 특화된 가속으로 고속 검색 지원
• 필드 인덱스를 통해 특정 필드에 대한 단일 검색 및 범위 검색 지원
• 시계열 파티셔닝으로 장기간 데이터 누적 시에도 일관된 인덱싱 성능
• 스키마리스이면서 고속 OLAP 분석 성능을 달성하는 컬럼스토리지 아키텍처
• 벡터화된 쿼리 실행 구조를 통해 CPU 캐시 및 SIMD 가속 효과 극대화
• 단일 그룹 집계 뿐 아니라 임의 행/열 그룹, 집계를 이용한 피벗 분석 지원
• 로컬 및 원격 시스템 데이터 고속 조인 (조인 대상이나 데이터량 제한 없음)
16. 실시간 압축 기술
16
일 수집 로그가 수백 GB 이상으로 급격히 증가하면서 실시간 압축 기술은 필수적인 요소 기술이 되었습니다. 백업 개념으로 실행되는 일 단위 압축은 데이터를
오프라인 모드로 전환하기 때문에 과거 임의 시점의 데이터를 실시간으로 검색 및 분석할 수 없거나, 조회/분석 성능이 매우 느리다는 문제가 있습니다.
블록 단위 압축 고효율 데이터 인코딩
Variable Length Encoding
Dictionary Encoding
Run-Length Encoding
17. 컬럼스토리지 레이아웃
17
컬럼스토리지 기술은 쿼리에서 집계하는 대상 컬럼 데이터를 높은 효율로 읽을 수 있도록, 열 단위로 값 벡터를 나열하여 불필요한 I/O 작업을 회피하고 CPU
캐시 활용을 극대화 합니다. 스키마리스 컬럼스토리지 기술은 원본 로그 저장과 포맷의 변화를 수용하면서도 높은 OLAP 분석 성능을 낼 수 있도록 지원합니다.
<Slotted Page; N-ary Storage Model> <DSM; Decomposition Storage Model>
행-지향 레이아웃 열-지향 레이아웃
18. JIT 쿼리 컴파일
18
JIT 쿼리 컴파일 기술은 쿼리 실행 시점에 코드를 생성하면서 불필요한 조건 분기와 루프로 인한 오버헤드를 모두 제거함으로써, 빅데이터 OLAP 분석을 실행
할 때 최상의 성능을 도출합니다.
인터프리터 모델 JIT 쿼리 컴파일 모델
for (int i = 0; i < outputKeys.length; i++) {
objVectors[i][dstIndex] = keyVectors[i][srcIndex];
}
for (int i = 0; i < intOutputKeys.length; i++) {
intOutputVecs[i][dstIndex] = intVectors[i][srcIndex];
intOutputNulls[i][dstIndex] = intNulls[i][srcIndex];
}
for (int i = 0; i < longOutputKeys.length; i++) {
longOutputVecs[i][dstIndex] = longVectors[i][srcIndex];
longOutputNulls[i][dstIndex] = longNulls[i][srcIndex];
}
for (int i = 0; i < doubleOutputKeys.length; i++) {
doubleOutputVecs[i][dstIndex] = doubleVectors[i][srcIndex];
doubleOutputNulls[i][dstIndex] = doubleNulls[i][srcIndex];
}
outTotal[dstIndex] = total[srcIndex];
쿼리 실행 시점에 결정된 타입 메타데이터를 기반으로 불필요한 타입별 조건
분기 및 루프를 완전히 제거한 머신 코드를 동적으로 컴파일
19. 머신러닝 기반 탐지 기술
19
기존 체계 방식 머신러닝 탐지 방식
사실
A
사실
B
사실
C
사실
D
사실
E
사실
A
사실
E
사실
C
사실
A
사실
B
사실
C
사실
D
사실
E
사실
F
사실
G
사실
H
사실
I
통상 2~3가지의 이기종 데이터가 조합된 시나리오를 수십 여 개 설정
95%
사실
J
IP나 사번, 계정을 중심으로 수십 개의 차원을 모델링하여 경보 추출
사람은 경험에 의해 한 번에 2-3가지의 사실을 조합하지만, 기계는 수십개, 수백개의 차원을 동시에 검토하여 경보를 추출할 수 있습니다.
20. 머신러닝 기반 이상금융거래 차단
20
고객정보, 거래정보, 단말정보 등 수십 개의 다차원 데이터를 이용하여 이상탐지 모델을 생성하고, 실시간 거래에 적용하여 평균 0.1초 이내에 이상거래 여부
를 탐지합니다. 복잡한 다차원 데이터에 대해 정교한 이상 탐지를 수행합니다.
<거래시각> <고객연령> <연속이체횟수>
<이상거래 다차원 시각화 예시>
단말정보 고객정보 거래정보
실시간
이상거래탐지
모델
이상거래탐지
CEP 기반
피처 추출
다차원 데이터 분석
0.1초 내 실시간 탐지
21. 이상탐지 알고리즘: 군집기반
21
• 이상치 (Outlier) - 다른 데이터에 비해 상대적으로 멀리 떨어져 있는 값
• 고정적인 임계치의 문제
- 미탐 (False Negative): 임계치가 큰 경우, O2는 에러로 탐지되지 않는다.
- 오탐 (False Positive): 임계치가 작은 경우, C1 군집의 값들이 다수 에러로 탐지된다.
• 군집 기반 이상치 검출 방법론
- 인접한 군집의 밀도에 비해 상대적으로 멀리 떨어진 경우 에러로 탐지한다.
• A 값의 밀도와, A와 인접한 값의 밀도의 상대적인 비율
• LOF 스코어에 따른 이상치 분류
- 1.0 초과: 군집의 바깥쪽에 위치
(값이 클수록 멀리 떨어짐)
- 1.0 일치: 군집의 경계에 위치
- 1.0 미만: 군집의 내부에 위치
Local Outlier Factor 머신러닝 알고리즘
각 관측치의 상대적인 군집 밀도를 이용하여 이상치를 탐지합니다. 고정 임계치 기반의 경보와 달리 데이터 특성에 맞춰 알려지지 않은 이상징후를 탐지합니다.
Naive 알고리즘은 데이터 집합의 수에 따라 기하급수적으로 계산량이 증가하므로, 효율적인 최신 알고리즘을 구현하는 것이 중요합니다.
22. 이상탐지 알고리즘: 공간분할
22
Isolation Forest 머신러닝 알고리즘
Isolation Forest 알고리즘은 여러 개의 의사결정나무를 이용해서 이상치를 걸러내는 앙상블 모델을 사전에 학습할 수 있다는 유용한 특성을 가지고 있습니다.
관측치를 완전히 고립시킬 때까지 랜덤하게 차원을 선택해서 공간 분할을 반복하고, 고립시키는데 필요한 분할 횟수를 이상치 스코어링에 사용합니다.
• 기존 알고리즘은 정상 집합을 추출한 후 이상치를 판별하는 방식을 주로 사용
• LOF 등 군집기반 알고리즘은 모든 조합의 거리를 계산하므로 계산량 부하 많음
• Isolation Forest
• 인스턴스를 분리(Isolation)하는데 필요한 파티셔닝 수를 기준으로 탐지
• 필요한 파티션 횟수가 적을수록 이상치일 가능성이 높음
• 큰 정상 군집을 끝까지 분리할 필요가 없으므로 큰 집합에서도 빠른 성능
• 다차원 데이터에도 쉽게 적용 가능하고 샘플링 수가 적어도 잘 동작함
• 트리 집합은 완전히 병렬화하여 계산 가능
• 왼쪽 예시는 스코어를 기준으로 등고선을 시각화
• 통상 스코어가 0.5보다 큰 경우 이상치로 판별 가능
23. 이상탐지 알고리즘: 시계열 이상탐지
23
STL 머신러닝 알고리즘 (Seasonal and Trend decomposition using Loess)
반복성이 강한 시계열 데이터는 스무딩 알고리즘을 통해 추세를 분리하고, 푸리에 변환으로 주기적 반복 성분을 제거한 후, 잔차(noise)에서 외부 요인에 해당
되는 이상치를 이상탐지 머신러닝 알고리즘으로 추출합니다.
시계열 분석
• 시계열 데이터 = 추세 + 계절적/주기적 변동 + 노이즈
• Loess 기반 STL 알고리즘을 이용하여 시계열 성분을 분석
예측 및 이상탐지
• 미래 시계열 예측 = 추세 외삽 + 계절적 변동 + ARIMA 모형에 의한 랜덤워크 예측
• 이상징후 탐지 = 노이즈 (외부 요인)가 비정상적으로 큰 이상치 탐지 (Outlier)
Trend (추세)
Seasonal (계절성)
Random (노이즈)