2. Agenda
• 개요
1) 머신 러닝 (Machine Learning)과 테스트 데이터(Kaggle)
• 스플렁크(Splunk)와 R 연동
1) 네트워크 침입(Network Intrusion) 탐지 데이터
2) R 모델 훈련 및 저장
3) 스플렁크(Splunk)와 R 연동
• 스플렁크(Splunk)와 파이썬(Python) 연동
1) 자전거 렌탈(Bike Rental) 예측 데이터
2) 스플렁크(Splunk) 머신러닝 툴킷(Splunk MLTK – Machine Learning Toolkit)
3) 모델 훈련, 저장 및 예측
• 요약
4. 기계학습
기계학습(Machine Learning)
패턴・규칙・관계 등과 같은 특징을 추출하여 규칙을 생성
기계학습(Machine Learning)
패턴・규칙・관계 등과 같은 특징을 추출하여 규칙을 생성
기계기계 사람사람 교통교통 자동차자동차 정보 시스템정보 시스템의료의료
검색검색 분류분류 판별판별 감지감지 예측예측
추론추론 판단판단최적화최적화
의사결정의사결정 기기 제어기기 제어어드바이스어드바이스
5. 예측 모델링
- 예측 모델 : 예측하고자 하는 일이 발생할 가능성을 예측 점수로 산출
6. 캐글(Kaggle) – 데이터분석 경쟁, 2010설립, 2017년 Google 인수
발췌 : https://www.kaggle.com/competitions
9. 네트워크 침입탐지 – 비정상적인 활동 감지
발췌 : https://www.kaggle.com/what0919/intrusion-detection
10. 네트워크 침입탐지 – 비정상적인 활동 감지
발췌 : https://www.kaggle.com/what0919/intrusion-detection
공격유형
• normal
• dos
• Probe
• R2l
• u2r
11. 4가지 공격 유형
• Probe :
– 실제 공격을 시도하기 전 시스템의 사전자료(포트 등)를 수집 : port scanning
• DoS : Denial of Service.
– 서비스 거부 공격 : SYN Flood
• U2R : User to Root.
– 관리자(root) 권한을 얻으려 시도하는 패킷 : 버퍼 오버플로우 (Buffer Overflow)
• R2L : Remote to Local.
– 권한 없는 사용자가 외부에서 접근 시도하는 패킷 : 암호추측
45. Splunk와 ML 툴 연동
• R연동 – API 호출 방식
• Python 연동 – 라이브러리 호출 방식
• 훈련(fit) 과정 vs 적용(apply) 과정
– 개발/테스트 환경에서 훈련 및 최적화된 모델을 저장
– 운영환경에서 저장된 모델 적용
• 훈련 데이터 선택과 전처리(Pre-Processing)
– 결측 데이터, 형식 변환, 데이터 분할, 1차 가공 필요
– 연관성 확인을 위한 탐색 및 논리적 추론, 검증 필요