SlideShare a Scribd company logo
빅데이터 ~ 머신(딥)러닝
실무로 배우는 빅데이터 기술
 피그(Pig) 활용
☆ 확장하기 - 1편 ☆
김강원
피그(Pig) 는?
하둡의 대용량 데이터셋을 절차적으로 구조화 하면서,
효율적인 데이터 탐색/처리/분석 기능을 제공하는 하둡 에코시스템
※ Pig의 기본 개념과 기능들은 구글링을 통해 확인 하세요!
파일럿 프로젝트 확장 (1/2)
피그(Pig)
책 220 페이지 중에서…(개정판)
Pig 활용
파일럿 프로젝트 확장 (2/2)
확장편 실습
Pig 활용
 Server01에 접속
Step-1
 pig 그런트 실행
$ pig
Step-2
 HDFS 데이터 로드
grunt > records = LOAD '/pilot-pjt/collect/car-master/CarMaster.txt' USING PigStorage('|') AS
(car_num:chararray, sex:chararray, age:int, marriage:chararray, region:chararray, job:chararray,
car_capacity:int, car_year:int, car_model:chararray);
Step-3
 필터 적용
grunt > filtered_records = FILTER records BY age >= 18;
Step-4
 실행 및 결과 보기
$ DUMP filtered_records;
Step-5
 필터링된 결과 저장
grunt > STORE filtered_records into '/pilot-pjt/collect/pig/car-master/CarMasterOver18' USING
PigStorage(',');
Step-6
 저장된 결과 확인
grunt > cat /pilot-pjt/collect/pig/car-master/CarMasterOver18
Step-7
 Pig 종료
$ quit
Step-8
 Hue에서 데이터 확인
http://server02.hadoop.com:8888
Step-9
실무로 배우는 빅데이터 기술
확장하기 1편 - Pig 활용
[ 강의자료 ]
 동 영 상: 유튜브 www.youtube.com
 실습문서: 슬라이드쉐어 www.slideshare.net

More Related Content

What's hot

11. Application - Phoenix
11. Application - Phoenix11. Application - Phoenix
11. Application - Phoenix
merry7
 
[온라인교육시리즈] 네이버 클라우드 플랫폼 init script 활용법 소개(정낙수 클라우드 솔루션 아키텍트)
[온라인교육시리즈] 네이버 클라우드 플랫폼 init script 활용법 소개(정낙수 클라우드 솔루션 아키텍트)[온라인교육시리즈] 네이버 클라우드 플랫폼 init script 활용법 소개(정낙수 클라우드 솔루션 아키텍트)
[온라인교육시리즈] 네이버 클라우드 플랫폼 init script 활용법 소개(정낙수 클라우드 솔루션 아키텍트)
NAVER CLOUD PLATFORMㅣ네이버 클라우드 플랫폼
 
15. Application - Solr Indexing & Searching
15. Application - Solr Indexing & Searching15. Application - Solr Indexing & Searching
15. Application - Solr Indexing & Searching
merry7
 
구글Fin
구글Fin구글Fin
구글Fin
zerk87
 
하둡-맵리듀스 튜닝 방법
하둡-맵리듀스 튜닝 방법하둡-맵리듀스 튜닝 방법
하둡-맵리듀스 튜닝 방법
Yunsu Lee
 
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
r-kor
 
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
PgDay.Seoul
 
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
NAVER CLOUD PLATFORMㅣ네이버 클라우드 플랫폼
 
OSGeo와 Open Data
OSGeo와 Open DataOSGeo와 Open Data
OSGeo와 Open Data
r-kor
 
이병철의 개발자 포트폴리오
이병철의 개발자 포트폴리오이병철의 개발자 포트폴리오
이병철의 개발자 포트폴리오
Lee ByeongCheol
 

What's hot (10)

11. Application - Phoenix
11. Application - Phoenix11. Application - Phoenix
11. Application - Phoenix
 
[온라인교육시리즈] 네이버 클라우드 플랫폼 init script 활용법 소개(정낙수 클라우드 솔루션 아키텍트)
[온라인교육시리즈] 네이버 클라우드 플랫폼 init script 활용법 소개(정낙수 클라우드 솔루션 아키텍트)[온라인교육시리즈] 네이버 클라우드 플랫폼 init script 활용법 소개(정낙수 클라우드 솔루션 아키텍트)
[온라인교육시리즈] 네이버 클라우드 플랫폼 init script 활용법 소개(정낙수 클라우드 솔루션 아키텍트)
 
15. Application - Solr Indexing & Searching
15. Application - Solr Indexing & Searching15. Application - Solr Indexing & Searching
15. Application - Solr Indexing & Searching
 
구글Fin
구글Fin구글Fin
구글Fin
 
하둡-맵리듀스 튜닝 방법
하둡-맵리듀스 튜닝 방법하둡-맵리듀스 튜닝 방법
하둡-맵리듀스 튜닝 방법
 
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
 
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
 
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
 
OSGeo와 Open Data
OSGeo와 Open DataOSGeo와 Open Data
OSGeo와 Open Data
 
이병철의 개발자 포트폴리오
이병철의 개발자 포트폴리오이병철의 개발자 포트폴리오
이병철의 개발자 포트폴리오
 

More from merry7

19. Application - Spark Streaming 1
19. Application - Spark Streaming 119. Application - Spark Streaming 1
19. Application - Spark Streaming 1
merry7
 
18. Install - Spark Streaming Env.
18. Install - Spark Streaming Env.18. Install - Spark Streaming Env.
18. Install - Spark Streaming Env.
merry7
 
14. Install - Solr
14. Install - Solr14. Install - Solr
14. Install - Solr
merry7
 
12. Application - Python + Pandas
12. Application - Python + Pandas12. Application - Python + Pandas
12. Application - Python + Pandas
merry7
 
13. Application - Tensorflow Autoencoder
13. Application - Tensorflow Autoencoder 13. Application - Tensorflow Autoencoder
13. Application - Tensorflow Autoencoder
merry7
 
3. Install - Tensorflow
3. Install - Tensorflow3. Install - Tensorflow
3. Install - Tensorflow
merry7
 
4. Application - Oozie Fork
4. Application - Oozie Fork4. Application - Oozie Fork
4. Application - Oozie Fork
merry7
 

More from merry7 (7)

19. Application - Spark Streaming 1
19. Application - Spark Streaming 119. Application - Spark Streaming 1
19. Application - Spark Streaming 1
 
18. Install - Spark Streaming Env.
18. Install - Spark Streaming Env.18. Install - Spark Streaming Env.
18. Install - Spark Streaming Env.
 
14. Install - Solr
14. Install - Solr14. Install - Solr
14. Install - Solr
 
12. Application - Python + Pandas
12. Application - Python + Pandas12. Application - Python + Pandas
12. Application - Python + Pandas
 
13. Application - Tensorflow Autoencoder
13. Application - Tensorflow Autoencoder 13. Application - Tensorflow Autoencoder
13. Application - Tensorflow Autoencoder
 
3. Install - Tensorflow
3. Install - Tensorflow3. Install - Tensorflow
3. Install - Tensorflow
 
4. Application - Oozie Fork
4. Application - Oozie Fork4. Application - Oozie Fork
4. Application - Oozie Fork
 

1. Application - Pig

  • 1. 빅데이터 ~ 머신(딥)러닝 실무로 배우는 빅데이터 기술  피그(Pig) 활용 ☆ 확장하기 - 1편 ☆ 김강원
  • 2. 피그(Pig) 는? 하둡의 대용량 데이터셋을 절차적으로 구조화 하면서, 효율적인 데이터 탐색/처리/분석 기능을 제공하는 하둡 에코시스템 ※ Pig의 기본 개념과 기능들은 구글링을 통해 확인 하세요!
  • 3. 파일럿 프로젝트 확장 (1/2) 피그(Pig)
  • 4. 책 220 페이지 중에서…(개정판) Pig 활용 파일럿 프로젝트 확장 (2/2)
  • 6.  Server01에 접속 Step-1  pig 그런트 실행 $ pig Step-2  HDFS 데이터 로드 grunt > records = LOAD '/pilot-pjt/collect/car-master/CarMaster.txt' USING PigStorage('|') AS (car_num:chararray, sex:chararray, age:int, marriage:chararray, region:chararray, job:chararray, car_capacity:int, car_year:int, car_model:chararray); Step-3
  • 7.  필터 적용 grunt > filtered_records = FILTER records BY age >= 18; Step-4  실행 및 결과 보기 $ DUMP filtered_records; Step-5  필터링된 결과 저장 grunt > STORE filtered_records into '/pilot-pjt/collect/pig/car-master/CarMasterOver18' USING PigStorage(','); Step-6
  • 8.  저장된 결과 확인 grunt > cat /pilot-pjt/collect/pig/car-master/CarMasterOver18 Step-7  Pig 종료 $ quit Step-8  Hue에서 데이터 확인 http://server02.hadoop.com:8888 Step-9
  • 9. 실무로 배우는 빅데이터 기술 확장하기 1편 - Pig 활용 [ 강의자료 ]  동 영 상: 유튜브 www.youtube.com  실습문서: 슬라이드쉐어 www.slideshare.net