빅데이터 ~ 머신(딥)러닝
실무로 배우는 빅데이터 기술
 Hive Bucket 활용
☆ 확장하기 – 7편 ☆
김강원
Hive Bucket(버켓) 은?
버켓으로 지정된 필드의 데이터들을 해싱값 기준으로
버켓팅(그룹핑)해 저장함으로써 효율적인 Hive 쿼리를 지원
※ Hive의 기본 개념과 기능들은 구글링을 통해 확인 하세요!
파일럿 프로젝트 확장 (1/2)
책 246 페이지 중에서… (개정판)
Bucket 활용
파일럿 프로젝트 확장 (2/2)
확장편 실습
Hive Bucket 활용
 Hue > Hive 에디터 접속
URL: http://server02.hadoop.com:8888
Hue Home > Query Editor > Hive
Step-1
 버켓팅할 데이터를 Hive QL로 확인
SELECT * FROM smartcar_master;
Step-2
 버켓팅할 데이터를 파일 브라우져로 확인
파일 브라우져 > /pilot-pjt/collect/car-master
Step-3
 버켓팅할 테이블 생성
set hive.enforce.bucketing = true;
CREATE TABLE smartcar_master_bucketed (
car_number String,
sex String,
age String,
marriage String,
region String,
job String,
car_capacity String,
car_year String,
car_model String )
CLUSTERED BY (car_number) SORTED BY(car_number ASC) INTO 10 BUCKETS
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';
Step-4
 버켓팅된 테이블에 데이터 생성
INSERT OVERWRITE TABLE smartcar_master_bucketed
SELECT * FROM smartcar_master;
Step-5
 버켓팅된 데이터를 파일 브라우져로 확인
파일 브라우져 > /user/hive/warehouse/smartcar_master_bucketed
Step-6
 버켓을 이용해 데이터 샘플링
SELECT * FROM smartcar_master_bucketed TABLESAMPLE (bucket 1 out of 10 on region);
Step-7
실무로 배우는 빅데이터 기술
확장하기 7편 – Hive Bucket 활용
[ 강의자료 ]
 동 영 상: 유튜브 www.youtube.com
 실습문서: 슬라이드쉐어 www.slideshare.net

7. Application - Hive Bucket

  • 1.
    빅데이터 ~ 머신(딥)러닝 실무로배우는 빅데이터 기술  Hive Bucket 활용 ☆ 확장하기 – 7편 ☆ 김강원
  • 2.
    Hive Bucket(버켓) 은? 버켓으로지정된 필드의 데이터들을 해싱값 기준으로 버켓팅(그룹핑)해 저장함으로써 효율적인 Hive 쿼리를 지원 ※ Hive의 기본 개념과 기능들은 구글링을 통해 확인 하세요!
  • 3.
  • 4.
    책 246 페이지중에서… (개정판) Bucket 활용 파일럿 프로젝트 확장 (2/2)
  • 5.
  • 6.
     Hue >Hive 에디터 접속 URL: http://server02.hadoop.com:8888 Hue Home > Query Editor > Hive Step-1  버켓팅할 데이터를 Hive QL로 확인 SELECT * FROM smartcar_master; Step-2  버켓팅할 데이터를 파일 브라우져로 확인 파일 브라우져 > /pilot-pjt/collect/car-master Step-3
  • 7.
     버켓팅할 테이블생성 set hive.enforce.bucketing = true; CREATE TABLE smartcar_master_bucketed ( car_number String, sex String, age String, marriage String, region String, job String, car_capacity String, car_year String, car_model String ) CLUSTERED BY (car_number) SORTED BY(car_number ASC) INTO 10 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'; Step-4  버켓팅된 테이블에 데이터 생성 INSERT OVERWRITE TABLE smartcar_master_bucketed SELECT * FROM smartcar_master; Step-5
  • 8.
     버켓팅된 데이터를파일 브라우져로 확인 파일 브라우져 > /user/hive/warehouse/smartcar_master_bucketed Step-6  버켓을 이용해 데이터 샘플링 SELECT * FROM smartcar_master_bucketed TABLESAMPLE (bucket 1 out of 10 on region); Step-7
  • 9.
    실무로 배우는 빅데이터기술 확장하기 7편 – Hive Bucket 활용 [ 강의자료 ]  동 영 상: 유튜브 www.youtube.com  실습문서: 슬라이드쉐어 www.slideshare.net