© 2013 Gruter. All rights reserved.
보안 로그 분석을 위한
빅데이터 시스템
구축 사례
2013.08.29
장정식 수석 연구원
© 2013 Gruter. All rights reserved.2
Contents
• 보안: Why Big Data?
– Co-work model & Deliverables
– Data life cycle overview
– Data collection
– Storage
– Analysis
– Search on Hadoop
– Detection
– A full picture: qoobah & common
© 2013 Gruter. All rights reserved.3
Why Big Data?
• 전수 데이터
- <> Sample 데이터
- Big Data = no more sampling
- 비용 구조 개선: 더 이상 비용 때문에 확률에 의존하지
않아도 됨
• 통합 데이터
- <> 단편적인 데이터
- 다양한 정보에 대한 360도 insight 필요
- 전사 차원에서의 정보 자산 공유 및 활용
© 2013 Gruter. All rights reserved.4
Co-work model and interaction
보안
분석 전문가
분석 시스템
데이터
프로세스
수집 시스템
빅데이터
운영 팀
모니터링
및 관리
툴
저장 시스템
데이터
빅데이터
기술 팀
기술 교육
© 2013 Gruter. All rights reserved.5
Deliverables
빅데이터 운영
데이터
보안 분석 전문가
분석 시스템
데이터
프로세스
수집 시스템
모니터링 및
관리 툴
저장 시스템
빅데이터
기술 팀
운영 및 기술
교육
© 2013 Gruter. All rights reserved.6
Data life cycle: basic idea
• 데이터를 수집해서
• 통합 저장소에 저장한 다음
• 분석을 통해서 보안 위협을 찾아내고
• 모델을 만들어서
• 실시간 감지 및 대응 시스템에 적용해서
• 보안 공격에 대비한다
• 이 과정을 지속적으로 반복하면서 더 강력하고
지능적인 모델을 만들어서 변화하는 보안 위협에
대응한다
© 2013 Gruter. All rights reserved.7
Data collection
• 다양한 데이터 발생원 = 유연한 수집 시스템
• 실시간 수집 = 이벤트 스트리밍
• 다양한 프로세싱 = pluggable pipeline 구조
• scalability, reliability, extensibility, manageability
• Flume
agent collector
data
storage
data
agent collector
... ...
© 2013 Gruter. All rights reserved.8
Storage
• Main storage
- 확장성 + 안정성 + 배치 분석을 위한 M/R 지원
• 실시간 분석 결과 저장
• 검색용 index 저장소
• Hive (Hadoop)
• elasticsearch
• Hbase
© 2013 Gruter. All rights reserved.9
Analysis
• 종합적인 분석 = 다양한 데이터 ad-hoc 분석
• 시계열 분석 = archiving 된 대용량 데이터 분석
• 실시간 full text 분석
• Hive
• elasticsearch
• cloustream
• Mahout
• Tajo is coming
© 2013 Gruter. All rights reserved.10
HDFS
Search on Hadoop
• Full text 검색
• Hadoop level scalability for search
• Fresh and fast/old and slow; tiered 아키텍쳐
Search engine
ElasticSearch Index
Search engine
ElasticSearch
Index Index Index
…
Data feeding
Index
query for old dataquery for fresh data
Search proxy
periodical move
© 2013 Gruter. All rights reserved.11
Detection
• 실시간/준실시간 스트리밍 프로세싱
• clouStream
• Esper (CEP engine) +Flume
Collector
Realtime
분석 결과 저장소
데이터 Source 데이터 Sink
스트리밍
프로세싱 엔진
Rule Manager
ARM
UI (실시간 분석/관제)
© 2013 Gruter. All rights reserved.12
Qoobah – Big Data Platform
Data source/collector
(various log data)
Data Source
(Web Server)
Flume
Agent
Thrift
Source
Thrift
Sink
Temporary
Data collector/ real-time analysis
Flume Collector
Logical Node
Thrift
Source
Pipeline-Sink
Hadoop
NoSQL
(HBase)
Search
Real-time
Analysis
primary storage(File/Structured), near real-time analysis
Hadoop
DataNode
HBase
RegionServer
Cluster coordinator
Search engine
ElasticSearch
Semi-
Structured
Origin File
Index
Real-time analysis result
storage (File/Structured)
Hadoop
DataNode
HBase
RegionServer
Semi-
Structured
Origin File
Cluster Monitoring
Batch analysis/storage
Hadoop
MapReduce
Origin File
Cloustream
Hive
Hadoop
DataNode
Analysis
Result
Near real-time
analysis
Batch analysis
Data source/collector
(standard protocols
such as FTP, HTTP)
Data Source
Flume
Agent
FTP/
HTTP
Thrift
Sink
Temporary
Oracle/MySQL RDB
Cloumon
Rule Manager
ARMZookeeper
© 2013 Gruter. All rights reserved.13
Cloumon – Monitoring & Management Tools
GRUTER: YOUR PARTNER
IN THE BIG DATA REVOLUTION
Phone +82-70-8129-2950
Fax +82-70-8129-2952
E-mail contact@gruter.com
Web www.gruter.com
© 2013 Gruter. All rights reserved.
Gruter, Inc.
5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839

GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례

  • 1.
    © 2013 Gruter.All rights reserved. 보안 로그 분석을 위한 빅데이터 시스템 구축 사례 2013.08.29 장정식 수석 연구원
  • 2.
    © 2013 Gruter.All rights reserved.2 Contents • 보안: Why Big Data? – Co-work model & Deliverables – Data life cycle overview – Data collection – Storage – Analysis – Search on Hadoop – Detection – A full picture: qoobah & common
  • 3.
    © 2013 Gruter.All rights reserved.3 Why Big Data? • 전수 데이터 - <> Sample 데이터 - Big Data = no more sampling - 비용 구조 개선: 더 이상 비용 때문에 확률에 의존하지 않아도 됨 • 통합 데이터 - <> 단편적인 데이터 - 다양한 정보에 대한 360도 insight 필요 - 전사 차원에서의 정보 자산 공유 및 활용
  • 4.
    © 2013 Gruter.All rights reserved.4 Co-work model and interaction 보안 분석 전문가 분석 시스템 데이터 프로세스 수집 시스템 빅데이터 운영 팀 모니터링 및 관리 툴 저장 시스템 데이터 빅데이터 기술 팀 기술 교육
  • 5.
    © 2013 Gruter.All rights reserved.5 Deliverables 빅데이터 운영 데이터 보안 분석 전문가 분석 시스템 데이터 프로세스 수집 시스템 모니터링 및 관리 툴 저장 시스템 빅데이터 기술 팀 운영 및 기술 교육
  • 6.
    © 2013 Gruter.All rights reserved.6 Data life cycle: basic idea • 데이터를 수집해서 • 통합 저장소에 저장한 다음 • 분석을 통해서 보안 위협을 찾아내고 • 모델을 만들어서 • 실시간 감지 및 대응 시스템에 적용해서 • 보안 공격에 대비한다 • 이 과정을 지속적으로 반복하면서 더 강력하고 지능적인 모델을 만들어서 변화하는 보안 위협에 대응한다
  • 7.
    © 2013 Gruter.All rights reserved.7 Data collection • 다양한 데이터 발생원 = 유연한 수집 시스템 • 실시간 수집 = 이벤트 스트리밍 • 다양한 프로세싱 = pluggable pipeline 구조 • scalability, reliability, extensibility, manageability • Flume agent collector data storage data agent collector ... ...
  • 8.
    © 2013 Gruter.All rights reserved.8 Storage • Main storage - 확장성 + 안정성 + 배치 분석을 위한 M/R 지원 • 실시간 분석 결과 저장 • 검색용 index 저장소 • Hive (Hadoop) • elasticsearch • Hbase
  • 9.
    © 2013 Gruter.All rights reserved.9 Analysis • 종합적인 분석 = 다양한 데이터 ad-hoc 분석 • 시계열 분석 = archiving 된 대용량 데이터 분석 • 실시간 full text 분석 • Hive • elasticsearch • cloustream • Mahout • Tajo is coming
  • 10.
    © 2013 Gruter.All rights reserved.10 HDFS Search on Hadoop • Full text 검색 • Hadoop level scalability for search • Fresh and fast/old and slow; tiered 아키텍쳐 Search engine ElasticSearch Index Search engine ElasticSearch Index Index Index … Data feeding Index query for old dataquery for fresh data Search proxy periodical move
  • 11.
    © 2013 Gruter.All rights reserved.11 Detection • 실시간/준실시간 스트리밍 프로세싱 • clouStream • Esper (CEP engine) +Flume Collector Realtime 분석 결과 저장소 데이터 Source 데이터 Sink 스트리밍 프로세싱 엔진 Rule Manager ARM UI (실시간 분석/관제)
  • 12.
    © 2013 Gruter.All rights reserved.12 Qoobah – Big Data Platform Data source/collector (various log data) Data Source (Web Server) Flume Agent Thrift Source Thrift Sink Temporary Data collector/ real-time analysis Flume Collector Logical Node Thrift Source Pipeline-Sink Hadoop NoSQL (HBase) Search Real-time Analysis primary storage(File/Structured), near real-time analysis Hadoop DataNode HBase RegionServer Cluster coordinator Search engine ElasticSearch Semi- Structured Origin File Index Real-time analysis result storage (File/Structured) Hadoop DataNode HBase RegionServer Semi- Structured Origin File Cluster Monitoring Batch analysis/storage Hadoop MapReduce Origin File Cloustream Hive Hadoop DataNode Analysis Result Near real-time analysis Batch analysis Data source/collector (standard protocols such as FTP, HTTP) Data Source Flume Agent FTP/ HTTP Thrift Sink Temporary Oracle/MySQL RDB Cloumon Rule Manager ARMZookeeper
  • 13.
    © 2013 Gruter.All rights reserved.13 Cloumon – Monitoring & Management Tools
  • 14.
    GRUTER: YOUR PARTNER INTHE BIG DATA REVOLUTION Phone +82-70-8129-2950 Fax +82-70-8129-2952 E-mail contact@gruter.com Web www.gruter.com © 2013 Gruter. All rights reserved. Gruter, Inc. 5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839