제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링
1. 하둡 클러스터 설정 고도화
및 맵리듀스 모니터링
1 7 기 엔 지 니 어 링 김 상 홍
1 7 기 엔 지 니 어 링 이 정 현
제
1
6
회
B
O
A
Z
컨
퍼
런
스
2. 하둡 클러스터 설정 고도화
및 맵리듀스 모니터링
제 1 6 회 B O A Z 컨 퍼 런 스
하둡 메이트
이정현
서울과학기술대학교 ITM전공
김상홍
국민대학교 컴퓨터공학과
3. 기존 리소스매니저 웹서버의 단점
기존 리소스매니저에서 제공해주는 웹서버에서는 한 눈에 확인이 어려움
하 둡 클 러 스 터 설 정 고 도 화 및 맵 리 듀 스 모 니 터 링
특정 애플리케이션에 대한 태스크들 상태 정보
초기 목표
4. 초기 목표
기존 리소스매니저 웹서버의 단점
기존 리소스매니저에서 제공해주는 웹서버에서는 한 눈에 확인이 어려움
하 둡 클 러 스 터 설 정 고 도 화 및 맵 리 듀 스 모 니 터 링
맵태스크 진행 상황 리듀스태스크 진행 상황
5. 초기 목표
기존 리소스매니저 웹서버의 단점
기존 리소스매니저에서 제공해주는 웹서버에서는 한 눈에 확인이 어려움
하 둡 클 러 스 터 설 정 고 도 화 및 맵 리 듀 스 모 니 터 링
리듀스태스크 진행 상황
제공되지 않는 정보
임시(Shuffled) 데이터의 크기
6. 초기 목표
1. 맵리듀스 프로그램의 주요 지표 중 하나인 임시데이터의 크기 모니터링
2. 노드별 태스크 할당 상태 모니터링
3. 맵태스크와 리듀스태스크 진행 상황을 시각적으로 표현
4. 디버깅을 위한 출력 로그 통합 확인 페이지
하 둡 클 러 스 터 설 정 고 도 화 및 맵 리 듀 스 모 니 터 링
7. 클러스터 설정
라즈베리파이(8대) 하둡 클러스터
하 둡 클 러 스 터 설 정 고 도 화 및 맵 리 듀 스 모 니 터 링
라즈베리파이 3B 전체 메모리 = 1GB
• 노드 매니저, 데이터 노드 등
• 기타 시스템 관리 대몬들
• 컨테이너 할당 최소 메모리 크기 = 1GB
요구사항
하둡 대몬 프로세스들만 띄워도 부담
8. 클러스터 설정
개인 장비(3대)로 구성
하 둡 클 러 스 터 설 정 고 도 화 및 맵 리 듀 스 모 니 터 링
각종 환경변수(*.sh) / 클러스터 속성값(*.xml) 설정
9. 클러스터 설정
EMR, CDH
하 둡 클 러 스 터 설 정 고 도 화 및 맵 리 듀 스 모 니 터 링
EMR ( /etc/hadoop/conf) CDH ( /etc/hadoop/conf)
getConf().getProps().list(System.out)
16. 한계
1. 시스템 메트릭 모니터링 부담
2. 맵리듀스 기술 활성도 낮음
3. 사실상 개인적 필요
하 둡 클 러 스 터 설 정 고 도 화 및 맵 리 듀 스 모 니 터 링
17. 목표 변경
설정 고도화 / 케이스 스터디
하 둡 클 러 스 터 설 정 고 도 화 및 맵 리 듀 스 모 니 터 링
18. HA란?
위키백과
고가용성(高可用性, HA, High Availability)이란 서버와 네트워크,
프로그램 등의 정보 시스템이 상당히 오랜 기간 동안 지속적으로 정
상 운영이 가능한 성질을 말한다. 고(高)가용성이란 "가용성이 높다"
는 뜻으로서, "절대 고장 나지 않음"을 의미한다.
HA란?