SlideShare a Scribd company logo
1 of 28
Download to read offline
서울 하둡 사용자 모임 발표자료	
  
2014년 1월	
  
최종욱 tchoi@hortonworks.com	
  	
  
오늘의 코스	
  
1.  모든 사용자를 위한 하둡	
  
2.  하둡 2, 무엇이 달라졌나
3.  하이브 0.13 프리뷰 소개	
  
모든 사용자를 위한 하둡	
  
중소기업과 부서, 학술 연구도	
  
상용 하둡 배포판을 사용하려면?	
  
빅데이터의 문턱은 높다	
  
사장님 曰 “빅데이터 우리에
게 적합한지 알아봐”	
  
전문 업체에게 물어보면 수
천만원, 수십 TB, 장비 수십
대, 집단 교육, 검증 기간을
이야기하는데 큰 투자엔 큰
수익이 있어야 하지만 확신
이 없다.	
  
점진적 적용 계획	
  
투자 대비 이익이 크면 다음 단계로,	
  
적으면 이전 단계로	
  

단일 서버	
  
•  무료	
  
•  가상머신	
  
•  낮은 성능	
  
•  1대	
  
•  지원 없음	
  
•  HDP	
  Sandbox	
  

임대 서버	
  
•  수백만원	
  
•  유동/소량	
  
•  낮은 보안	
  
•  4대 이상	
  
•  지원 포함	
  
•  HDInsight	
  

내부 서버	
  
•  수천만원	
  
•  고정/대량 	
  
•  높은 보안	
  
•  10대 이상	
  
•  지원 별도	
  
•  HDP	
  for	
  Win/
Linux	
  
빅데이터의 악몽	
  
“김대리,	
  내일 아침까지 보
고서 준비 해 와”	
  
•  건네받은 자료는 수백GB	
  
•  할 줄 아는 건 오피스 뿐	
  
•  사무실에는 고물 컴퓨터	
  
	
  
빅데이터 기술이 김대리를
도울 수 있을까?	
  

야근이다!	
  
빅데이터 맛보기	
  
1.  HD인사이트 가입	
  
(24만원 쿠폰 증정,	
  시간
당 사용료 몇천원)	
  
2.  파일 업로드	
  
3.  엑셀에서 불러오기	
  
4.  파워포인트 자료 만들기	
  
엑셀-­‐하이브 연동 기능	
  
하이브 ODBC 드라이버를
설치하면 엑셀에 하이브 쿼
리 창이 추가된다.	
  
가져올 필드, 선택 조건, 통
계 함수 등을 선택하면 자동
으로 하이브 쿼리를 생성하
며 그 결과를 가져온다.	
  
가져온 데이터로 그래프를
만들어 파워포인트에 붙여
넣을 수 있다.	
  
환상 궁합	
  
마이크로소프트	
  
•  기존에 오피스, 서버 담당	
  
•  저렴한 가격의 호스팅	
  
•  소비자에게 익숙한 기술	
  
•  오픈소스 개발에 참여 	
  

호튼웍스	
  
•  기존에 하둡 담당	
  
•  강력한 하둡 성능	
  
•  기존 제품과 호환성 담보	
  
•  오픈소스 파트너십을 리딩	
  
문턱 비용	
  
기존 방법	
  
다룰 데이터
준비 기간 	
  
-­‐-­‐-­‐-­‐	
  
컴퓨터 수십대
전문가 	
   	
  
연간 사용료
-­‐-­‐-­‐-­‐	
  
총 비용	
   	
  

	
  
	
  

	
  수TB 이상	
  
	
  몇 주	
  

	
  
	
  
	
  

	
  수천만원	
  
	
  수천만원	
  
	
  수천만원	
  

	
  

	
  수천만원	
  

HD인사이트	
  
다룰 데이터
준비 기간 	
  
-­‐-­‐-­‐-­‐	
  
있는 컴퓨터
있는 직원 	
  
월간 사용료
--­‐-­‐-­‐	
  
총 비용	
   	
  

	
  
	
  

	
  수GB	
  
	
  몇 시간	
  

	
  
	
  
	
  

	
  0원	
  
	
  0원	
  
	
  수백만원	
  

	
  

	
  수백만원	
  
엑셀 분석 이상을 원한다면	
  
전용 분석 프로그램	
  
웹사이트,	
  윈도 프로그램 등	
  
개발자를 재교육하여 추가 개발	
  
하둡 관리 서비스	
  
	
  
>	
  배포판 사업자의 일	
  

범용 분석 프로그램	
  
SAS,	
  SAP,	
  MicroStrategy 등	
  
제조사와 협력하여 추가 개발	
  
하둡 관리 서비스	
  
	
  
> 배포판 사업자의 일	
  
Q.	
  클라우드 환경에 최적화하는 방법	
  
기본에 충실	
  
•  각 배포판별 권장 사양에 맞추
어 클러스터를 구성.	
  
•  특히 가상 머신을 쓰면 디스크
및 네트워크에서 생각하지 못
한 제약이 생길 수 있음.	
  

또는 전용 서비스 구매	
  
•  이미 각 배포판에 최적화된 사
양을 제공.	
  
•  대개 배포판 사업자의 기술 지
원도 포함됨.	
  
각 배포판별 클라우드 예시 사양	
  
HDP	
  

C 배포판	
  

M 배포판	
  

인스턴스 타입	
  

Azure	
  A3	
  

AWS	
  EC2	
  
hs1.8xlarge	
  

물리 서버 기준	
  

vCPU	
  

8	
  

16	
  

8	
  

메모리	
  

14GB	
  

117GB	
  

32GB	
  

저장소	
  

4	
  x	
  1TB	
  

24	
  x	
  2TB	
  

12	
  x	
  2TB	
  

네트워크	
  

1G	
  

10G	
  

2	
  x	
  1G	
  
하둡 2, 무엇이 달라졌나	
  
빅데이터 운영체제로 거듭난 하둡	
  
하둡 1의 제한들	
  
•  대안 패러다임과 서비스에 대한 지원 부족	
  

–  모든 것들을 맵리듀스처럼 만든다	
  
–  맵리듀스에서 반복적인 작업은 10배나 느리다	
  

•  확장성	
  

–  최대 클러스터 크기가 5천대 정도	
  
–  최대 동시 작업 수는 4만개 정도	
  

•  가용성	
  

–  실패하면 대기중이거나 진행중인 작업을 중단시킨다	
  

•  자원을 맵과 리듀스 단위로만 할당	
  
–  자원 활용에 있어서 비효율적	
  
하둡 2 다목적 작업 플랫폼	
  
단일 목적 시스템	
  

다목적 플랫폼	
  

배치 응용	
  

배치,	
  인터랙티브,	
  온라인,	
  스트리밍,	
  …	
  

HADOOP	
  1.0	
  

HADOOP	
  2.0	
  
MapReduce	
  

Others	
  

(data	
  processing)	
  

MapReduce	
  

YARN	
  

(cluster	
  resource	
  management	
  
	
  &	
  data	
  processing)	
  

(cluster	
  resource	
  management)	
  

HDFS	
  

HDFS2	
  

(redundant,	
  reliable	
  storage)	
  

(redundant,	
  highly-­‐available	
  &	
  reliable	
  storage)	
  

Page	
  16	
  
얀 (YARN)
하둡 2.0의 데이터 운영 체제	
  
유연	
  

효율	
  

인터랙티브와 스트리밍 같은, 맵리듀
스(배치) 이상의 다른 목적으로 만들
어진 데이터 처리 모델을 지원	
  

기존 하드웨어에서 작동하는 하둡 내
에서 처리하고 예측 가능한 성능과 서
비스 품질을 제공	
  

공유	
  

안정적이고, 신뢰성 있으며, 보안
된 기초와 여러 작업간에 공유된
수행 서비스를 제공	
  

하둡 내에서 네이티브로 돌아가는 데이터 프로세싱 엔진들	
  
배치	
  
MapReduce	
  

인터랙티브	
  
Tez	
  

온라인	
  

HBase,	
  Accumulo	
  

스트리밍	
  
Storm	
  

인메모리	
  
Spark	
  

그래프	
  
Giraph	
  

SAS	
  
LASR,	
  HPA	
  

	
  
기타	
  
	
  

얀:	
  클러스터 자원 관리 	
  
HDFS:	
  중복되며,	
  신뢰성 있는 저장소	
  

© Hortonworks Inc. 2014

Page	
  17	
  
얀: 공유 서비스로 효율화
• 야후! 는 얀을 사용한다
• 4만개 이상의 노드가 365PB 의 데이터에 걸쳐 얀을 사용중
• 매일 ~40만개 작업을 수행하여 천만시간의 연산시간을 달성
• 얀 사용시 일일 노드 사용에서 60% – 150% 의 성능 향상 달성
• 증가된 활용성 때문에 코로케이션을 제거 (~1만개 노드 규모)
• 보다 자세한 사항은 YARN SOCC 2013 문서를 참고

© Hortonworks Inc. 2014
HDFS 2.0 고가용성
Monitor and maintain
active lock

ZooKeeper Service
ZooKeeper

ZooKeeper

Monitor and try to take
active lock

ZooKeeper

ZKFC

Monitor
liveness and
health.
Manage HA
state.

ZKFC

Monitor
liveness and
health.
Manage HA
state.

Shared Edits
JournalNode
Write

NameNode

JournalNode

JournalNode

Read

Acave

NameNode
Standby

DataNode

DataNode

.....

DataNode
Page 19
하이브 0.13	
  프리뷰	
  
얼마나 빨라졌고, 어떻게 빨라졌나	
  
가장 많은 오해	
  
•  “스팅어는 하이브랑 다르죠?”	
  

–  스팅어 = 하이브 새 버전을 이끄는 오픈소스 커뮤니티	
  
–  스팅어 1단계 = 하이브 0.11	
  
–  스팅어 2단계 = 하이브 0.12	
  
–  스팅어 3단계 = 하이브 0.13	
  

•  “스팅어는 호튼웍스가 따로 만들죠?”	
  

–  여전히 아파치 하이브	
  
–  마이크로소프트,	
  SAP, 페이스북 등과 함께 제작중	
  
–  오히려 임팔라가 아파치 재단에서 나와서 따로 제작됨	
  
내부 테스트 결과	
  
•  hcp://hortonworks.com/blog/
announcing-­‐sanger-­‐phase-­‐3-­‐
technical-­‐preview/	
  
•  상당한 성능 향상 효과	
  
•  주요 원인	
  
– 
– 
– 
– 
– 
– 
– 

맵리듀스 병목 제거	
  
불필요한 기록 최소화	
  
벡터처리 범위 확대	
  
가상머신 미리 대기	
  
네임노드 일부 캐시	
  
압축 성능 향상	
  
…	
  
맵리듀스 병목 제거	
  
•  기존에는 맵리듀스로 작
업하면 불필요하게 맵 작
업을 하기 위해 디스크에
전부 기록해야 해서 느렸
다.	
  
•  맵리듀스를 보다 작은 단
위로 쪼개어 리듀스-­‐리듀
스가 가능하도록 만들었
다.	
  
미리 대기 및 네임노드 캐시	
  
•  요청이 올 때 자식 컨테이
너를 만들어서 느렸다.	
  이
젠 컨테이너를 미리 만들
어서 바로 응답한다.	
  
•  대용량 자료를 처리하면
네임노드에 병목현상이
생긴다. 위치 자료를 캐시
해서 네임노드 병목을 없
앴다.	
  
압축 성능 향상	
  
•  ORCFile 에서 압축 성능이
높은 Gzip을 적용,	
  Parquet
에서는 Snappy가 기본인
것과 대조적이다.	
  
•  Gzip은 압축률이 높지만
Snappy는 CPU 점유율이
낮은 것이 특징이다.	
  
•  Snappy는 GPL이라서 사용
자가 직접 설치해야 한다.	
  
“Snappy	
  naave	
  library	
  not	
  
loaded”라는 메시지가 나
오면 성능이 떨어진다.	
  
컬럼 단위 저장과 벡터화	
  
•  데이터를 레코드 단위가
아닌,	
  컬럼 단위로 저장하
여 필요한 컬럼만 읽는다.	
  
•  컬럼 단위로 처리할 때에
벡터화를 적용해서 객체
재활용율을 높여 처리 성
능을 최적화한다.	
  
결론	
  
•  하이브 =	
  스팅어	
  
•  예전 하이브에서 빠진 기능은 없고, 새 기능은 많
으며,	
  성능은 훨씬 더 좋다.	
  
•  다른 경쟁 제품들은 조인, 분석 함수 등 핵심 기능
을 없애고 성능을 얻은 뒤에 기능을 추가하는 방
식으로 접근한다.	
  
정리	
  
1.  모든 사용자를 위한 하둡: 샌드박스, 서버 임대와 오
피스 호환 등의 기술로 가볍게 하둡을 써볼 수 있다.	
  
2.  하둡 2, 무엇이 달라졌나:	
  얀의 도입으로 더 적은 노
드로 더 많은 일을 하고,	
  HDFS	
  HA의 도입으로 클러
스터가 더 안전해졌다.
3.  하이브 0.13 프리뷰 소개: 다양한 최적화 기법의 도
입으로 성능이 대폭 향상되었다.	
  

More Related Content

What's hot

about hadoop yes
about hadoop yesabout hadoop yes
about hadoop yesEunsil Yoon
 
하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다민철 정민철
 
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스Teddy Choi
 
하둡 설치(의사분산모드)
하둡 설치(의사분산모드)하둡 설치(의사분산모드)
하둡 설치(의사분산모드)Kwangyoung Jeon
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례Taehyeon Oh
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Gruter
 
20180714 하둡 스터디 종료 보고 및 연구과제 발표자료
20180714 하둡 스터디 종료 보고 및 연구과제 발표자료20180714 하둡 스터디 종료 보고 및 연구과제 발표자료
20180714 하둡 스터디 종료 보고 및 연구과제 발표자료BOMI KIM
 
하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기beom kyun choi
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGruter
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Channy Yun
 
하둡완벽가이드 Ch9
하둡완벽가이드 Ch9하둡완벽가이드 Ch9
하둡완벽가이드 Ch9HyeonSeok Choi
 
하둡 타입과 포맷
하둡 타입과 포맷하둡 타입과 포맷
하둡 타입과 포맷진호 박
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례Gruter
 

What's hot (20)

about hadoop yes
about hadoop yesabout hadoop yes
about hadoop yes
 
hadoop ch1
hadoop ch1hadoop ch1
hadoop ch1
 
하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다
 
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
 
하둡 설치(의사분산모드)
하둡 설치(의사분산모드)하둡 설치(의사분산모드)
하둡 설치(의사분산모드)
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례
 
Hadoop overview
Hadoop overviewHadoop overview
Hadoop overview
 
Hadoop administration
Hadoop administrationHadoop administration
Hadoop administration
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013
 
20180714 하둡 스터디 종료 보고 및 연구과제 발표자료
20180714 하둡 스터디 종료 보고 및 연구과제 발표자료20180714 하둡 스터디 종료 보고 및 연구과제 발표자료
20180714 하둡 스터디 종료 보고 및 연구과제 발표자료
 
HBase 훑어보기
HBase 훑어보기HBase 훑어보기
HBase 훑어보기
 
하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기
 
Hdfs
HdfsHdfs
Hdfs
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
하둡완벽가이드 Ch9
하둡완벽가이드 Ch9하둡완벽가이드 Ch9
하둡완벽가이드 Ch9
 
Hadoop발표자료
Hadoop발표자료Hadoop발표자료
Hadoop발표자료
 
하둡 타입과 포맷
하둡 타입과 포맷하둡 타입과 포맷
하둡 타입과 포맷
 
Apache hive
Apache hiveApache hive
Apache hive
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
 

Similar to 서울 하둡 사용자 모임 발표자료

Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter
 
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)Sang Don Kim
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2Seong-Bok Lee
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big dataH K Yoon
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data OverviewKeeyong Han
 
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...hoondong kim
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)Channy Yun
 
Hadoop engineering v1.0 for dataconference.io
Hadoop engineering v1.0 for dataconference.ioHadoop engineering v1.0 for dataconference.io
Hadoop engineering v1.0 for dataconference.iodaumkakao
 
091106kofpublic 091108170852-phpapp02 (번역본)
091106kofpublic 091108170852-phpapp02 (번역본)091106kofpublic 091108170852-phpapp02 (번역본)
091106kofpublic 091108170852-phpapp02 (번역본)Taegil Heo
 
Tdc2013 선배들에게 배우는 server scalability
Tdc2013 선배들에게 배우는 server scalabilityTdc2013 선배들에게 배우는 server scalability
Tdc2013 선배들에게 배우는 server scalability흥배 최
 
[찾아가는세미나] 클라우드 데이터 가상화솔루션
[찾아가는세미나] 클라우드 데이터 가상화솔루션[찾아가는세미나] 클라우드 데이터 가상화솔루션
[찾아가는세미나] 클라우드 데이터 가상화솔루션해은 최
 
[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준NAVER D2
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoGruter
 
OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316기한 김
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래Wooseung Kim
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)SeungYong Baek
 
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseSQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseNAVER Engineering
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습동현 강
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Hyoungjun Kim
 

Similar to 서울 하둡 사용자 모임 발표자료 (20)

Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
 
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big data
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
Hadoop engineering v1.0 for dataconference.io
Hadoop engineering v1.0 for dataconference.ioHadoop engineering v1.0 for dataconference.io
Hadoop engineering v1.0 for dataconference.io
 
091106kofpublic 091108170852-phpapp02 (번역본)
091106kofpublic 091108170852-phpapp02 (번역본)091106kofpublic 091108170852-phpapp02 (번역본)
091106kofpublic 091108170852-phpapp02 (번역본)
 
Tdc2013 선배들에게 배우는 server scalability
Tdc2013 선배들에게 배우는 server scalabilityTdc2013 선배들에게 배우는 server scalability
Tdc2013 선배들에게 배우는 server scalability
 
[찾아가는세미나] 클라우드 데이터 가상화솔루션
[찾아가는세미나] 클라우드 데이터 가상화솔루션[찾아가는세미나] 클라우드 데이터 가상화솔루션
[찾아가는세미나] 클라우드 데이터 가상화솔루션
 
[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
 
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseSQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouse
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 

서울 하둡 사용자 모임 발표자료

  • 1. 서울 하둡 사용자 모임 발표자료   2014년 1월   최종욱 tchoi@hortonworks.com    
  • 2. 오늘의 코스   1.  모든 사용자를 위한 하둡   2.  하둡 2, 무엇이 달라졌나 3.  하이브 0.13 프리뷰 소개  
  • 3. 모든 사용자를 위한 하둡   중소기업과 부서, 학술 연구도   상용 하둡 배포판을 사용하려면?  
  • 4. 빅데이터의 문턱은 높다   사장님 曰 “빅데이터 우리에 게 적합한지 알아봐”   전문 업체에게 물어보면 수 천만원, 수십 TB, 장비 수십 대, 집단 교육, 검증 기간을 이야기하는데 큰 투자엔 큰 수익이 있어야 하지만 확신 이 없다.  
  • 5. 점진적 적용 계획   투자 대비 이익이 크면 다음 단계로,   적으면 이전 단계로   단일 서버   •  무료   •  가상머신   •  낮은 성능   •  1대   •  지원 없음   •  HDP  Sandbox   임대 서버   •  수백만원   •  유동/소량   •  낮은 보안   •  4대 이상   •  지원 포함   •  HDInsight   내부 서버   •  수천만원   •  고정/대량   •  높은 보안   •  10대 이상   •  지원 별도   •  HDP  for  Win/ Linux  
  • 6. 빅데이터의 악몽   “김대리,  내일 아침까지 보 고서 준비 해 와”   •  건네받은 자료는 수백GB   •  할 줄 아는 건 오피스 뿐   •  사무실에는 고물 컴퓨터     빅데이터 기술이 김대리를 도울 수 있을까?   야근이다!  
  • 7. 빅데이터 맛보기   1.  HD인사이트 가입   (24만원 쿠폰 증정,  시간 당 사용료 몇천원)   2.  파일 업로드   3.  엑셀에서 불러오기   4.  파워포인트 자료 만들기  
  • 8. 엑셀-­‐하이브 연동 기능   하이브 ODBC 드라이버를 설치하면 엑셀에 하이브 쿼 리 창이 추가된다.   가져올 필드, 선택 조건, 통 계 함수 등을 선택하면 자동 으로 하이브 쿼리를 생성하 며 그 결과를 가져온다.   가져온 데이터로 그래프를 만들어 파워포인트에 붙여 넣을 수 있다.  
  • 9. 환상 궁합   마이크로소프트   •  기존에 오피스, 서버 담당   •  저렴한 가격의 호스팅   •  소비자에게 익숙한 기술   •  오픈소스 개발에 참여   호튼웍스   •  기존에 하둡 담당   •  강력한 하둡 성능   •  기존 제품과 호환성 담보   •  오픈소스 파트너십을 리딩  
  • 10. 문턱 비용   기존 방법   다룰 데이터 준비 기간   -­‐-­‐-­‐-­‐   컴퓨터 수십대 전문가     연간 사용료 -­‐-­‐-­‐-­‐   총 비용          수TB 이상    몇 주          수천만원    수천만원    수천만원      수천만원   HD인사이트   다룰 데이터 준비 기간   -­‐-­‐-­‐-­‐   있는 컴퓨터 있는 직원   월간 사용료 --­‐-­‐-­‐   총 비용          수GB    몇 시간          0원    0원    수백만원      수백만원  
  • 11. 엑셀 분석 이상을 원한다면   전용 분석 프로그램   웹사이트,  윈도 프로그램 등   개발자를 재교육하여 추가 개발   하둡 관리 서비스     >  배포판 사업자의 일   범용 분석 프로그램   SAS,  SAP,  MicroStrategy 등   제조사와 협력하여 추가 개발   하둡 관리 서비스     > 배포판 사업자의 일  
  • 12. Q.  클라우드 환경에 최적화하는 방법   기본에 충실   •  각 배포판별 권장 사양에 맞추 어 클러스터를 구성.   •  특히 가상 머신을 쓰면 디스크 및 네트워크에서 생각하지 못 한 제약이 생길 수 있음.   또는 전용 서비스 구매   •  이미 각 배포판에 최적화된 사 양을 제공.   •  대개 배포판 사업자의 기술 지 원도 포함됨.  
  • 13. 각 배포판별 클라우드 예시 사양   HDP   C 배포판   M 배포판   인스턴스 타입   Azure  A3   AWS  EC2   hs1.8xlarge   물리 서버 기준   vCPU   8   16   8   메모리   14GB   117GB   32GB   저장소   4  x  1TB   24  x  2TB   12  x  2TB   네트워크   1G   10G   2  x  1G  
  • 14. 하둡 2, 무엇이 달라졌나   빅데이터 운영체제로 거듭난 하둡  
  • 15. 하둡 1의 제한들   •  대안 패러다임과 서비스에 대한 지원 부족   –  모든 것들을 맵리듀스처럼 만든다   –  맵리듀스에서 반복적인 작업은 10배나 느리다   •  확장성   –  최대 클러스터 크기가 5천대 정도   –  최대 동시 작업 수는 4만개 정도   •  가용성   –  실패하면 대기중이거나 진행중인 작업을 중단시킨다   •  자원을 맵과 리듀스 단위로만 할당   –  자원 활용에 있어서 비효율적  
  • 16. 하둡 2 다목적 작업 플랫폼   단일 목적 시스템   다목적 플랫폼   배치 응용   배치,  인터랙티브,  온라인,  스트리밍,  …   HADOOP  1.0   HADOOP  2.0   MapReduce   Others   (data  processing)   MapReduce   YARN   (cluster  resource  management    &  data  processing)   (cluster  resource  management)   HDFS   HDFS2   (redundant,  reliable  storage)   (redundant,  highly-­‐available  &  reliable  storage)   Page  16  
  • 17. 얀 (YARN) 하둡 2.0의 데이터 운영 체제   유연   효율   인터랙티브와 스트리밍 같은, 맵리듀 스(배치) 이상의 다른 목적으로 만들 어진 데이터 처리 모델을 지원   기존 하드웨어에서 작동하는 하둡 내 에서 처리하고 예측 가능한 성능과 서 비스 품질을 제공   공유   안정적이고, 신뢰성 있으며, 보안 된 기초와 여러 작업간에 공유된 수행 서비스를 제공   하둡 내에서 네이티브로 돌아가는 데이터 프로세싱 엔진들   배치   MapReduce   인터랙티브   Tez   온라인   HBase,  Accumulo   스트리밍   Storm   인메모리   Spark   그래프   Giraph   SAS   LASR,  HPA     기타     얀:  클러스터 자원 관리   HDFS:  중복되며,  신뢰성 있는 저장소   © Hortonworks Inc. 2014 Page  17  
  • 18. 얀: 공유 서비스로 효율화 • 야후! 는 얀을 사용한다 • 4만개 이상의 노드가 365PB 의 데이터에 걸쳐 얀을 사용중 • 매일 ~40만개 작업을 수행하여 천만시간의 연산시간을 달성 • 얀 사용시 일일 노드 사용에서 60% – 150% 의 성능 향상 달성 • 증가된 활용성 때문에 코로케이션을 제거 (~1만개 노드 규모) • 보다 자세한 사항은 YARN SOCC 2013 문서를 참고 © Hortonworks Inc. 2014
  • 19. HDFS 2.0 고가용성 Monitor and maintain active lock ZooKeeper Service ZooKeeper ZooKeeper Monitor and try to take active lock ZooKeeper ZKFC Monitor liveness and health. Manage HA state. ZKFC Monitor liveness and health. Manage HA state. Shared Edits JournalNode Write NameNode JournalNode JournalNode Read Acave NameNode Standby DataNode DataNode ..... DataNode Page 19
  • 20. 하이브 0.13  프리뷰   얼마나 빨라졌고, 어떻게 빨라졌나  
  • 21. 가장 많은 오해   •  “스팅어는 하이브랑 다르죠?”   –  스팅어 = 하이브 새 버전을 이끄는 오픈소스 커뮤니티   –  스팅어 1단계 = 하이브 0.11   –  스팅어 2단계 = 하이브 0.12   –  스팅어 3단계 = 하이브 0.13   •  “스팅어는 호튼웍스가 따로 만들죠?”   –  여전히 아파치 하이브   –  마이크로소프트,  SAP, 페이스북 등과 함께 제작중   –  오히려 임팔라가 아파치 재단에서 나와서 따로 제작됨  
  • 22. 내부 테스트 결과   •  hcp://hortonworks.com/blog/ announcing-­‐sanger-­‐phase-­‐3-­‐ technical-­‐preview/   •  상당한 성능 향상 효과   •  주요 원인   –  –  –  –  –  –  –  맵리듀스 병목 제거   불필요한 기록 최소화   벡터처리 범위 확대   가상머신 미리 대기   네임노드 일부 캐시   압축 성능 향상   …  
  • 23. 맵리듀스 병목 제거   •  기존에는 맵리듀스로 작 업하면 불필요하게 맵 작 업을 하기 위해 디스크에 전부 기록해야 해서 느렸 다.   •  맵리듀스를 보다 작은 단 위로 쪼개어 리듀스-­‐리듀 스가 가능하도록 만들었 다.  
  • 24. 미리 대기 및 네임노드 캐시   •  요청이 올 때 자식 컨테이 너를 만들어서 느렸다.  이 젠 컨테이너를 미리 만들 어서 바로 응답한다.   •  대용량 자료를 처리하면 네임노드에 병목현상이 생긴다. 위치 자료를 캐시 해서 네임노드 병목을 없 앴다.  
  • 25. 압축 성능 향상   •  ORCFile 에서 압축 성능이 높은 Gzip을 적용,  Parquet 에서는 Snappy가 기본인 것과 대조적이다.   •  Gzip은 압축률이 높지만 Snappy는 CPU 점유율이 낮은 것이 특징이다.   •  Snappy는 GPL이라서 사용 자가 직접 설치해야 한다.   “Snappy  naave  library  not   loaded”라는 메시지가 나 오면 성능이 떨어진다.  
  • 26. 컬럼 단위 저장과 벡터화   •  데이터를 레코드 단위가 아닌,  컬럼 단위로 저장하 여 필요한 컬럼만 읽는다.   •  컬럼 단위로 처리할 때에 벡터화를 적용해서 객체 재활용율을 높여 처리 성 능을 최적화한다.  
  • 27. 결론   •  하이브 =  스팅어   •  예전 하이브에서 빠진 기능은 없고, 새 기능은 많 으며,  성능은 훨씬 더 좋다.   •  다른 경쟁 제품들은 조인, 분석 함수 등 핵심 기능 을 없애고 성능을 얻은 뒤에 기능을 추가하는 방 식으로 접근한다.  
  • 28. 정리   1.  모든 사용자를 위한 하둡: 샌드박스, 서버 임대와 오 피스 호환 등의 기술로 가볍게 하둡을 써볼 수 있다.   2.  하둡 2, 무엇이 달라졌나:  얀의 도입으로 더 적은 노 드로 더 많은 일을 하고,  HDFS  HA의 도입으로 클러 스터가 더 안전해졌다. 3.  하이브 0.13 프리뷰 소개: 다양한 최적화 기법의 도 입으로 성능이 대폭 향상되었다.