Pigのインストールと実行
N. Shimizu
chikoski@gmail.com
Pigとは
• 行指向データのデータを操作するた
めのDSL実行環境
• Hadoopと連携可能
– HDFS上のデータを操作可能
– Mapper / Reducerの自動作成
• 自作モジュールで拡張可能
必要なもの
• 絶対必要なもの
– Hadoop 0.20.x
– Java 1.6.x
• なくてもいいもの
– Ant 1.7
– Junit 4.5
stableバージョンをダウンロード
http://hadoop.apache.org/common/releases.html
tgzの展開
% cd [インストール先]
% tar zxf pig-0.7.0.tar.gz.gz
% cd pig-0.7.0
Hadoopとの連携
• conf/pig.properties に設定
• 設定項目
– HDFSのネームノード
– JobTrackerの走っているノード
conf/pig.propertiesに追加する項目
• fs.default.name
– HDFSのネームノードのURL
– HadoopRoot/etc/core-site.xml の該当
項目の値を書けば良い
• mapred.job....
仮想分散モードで動かしている場合
fs.default.name=hdfs://localhost:9
000/
mapred.job.tracker=localhost:900
1
Pigの起動
1. Hadoopを動かす
% HadoopRoot/bin/start_all.sh
2. Pigを起動
% bin/pig
lsコマンドを実行して動作チェック
grunt> ls
hdfs://localhost:9000/user/chiko/grep-temp-
905694089 <dir>
hdfs://localhost:9000/user/chiko/h...
まとめ
• ここまで
– Pigのインストールができた
– HDFS上のファイルを一覧できた
• これからやってみること
– grep やフィルターの実行
– スクリプトファイルの実行
Upcoming SlideShare
Loading in …5
×

Pigのインストール

1,014 views

Published on

Published in: Technology, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,014
On SlideShare
0
From Embeds
0
Number of Embeds
13
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Pigのインストール

  1. 1. Pigのインストールと実行 N. Shimizu chikoski@gmail.com
  2. 2. Pigとは • 行指向データのデータを操作するた めのDSL実行環境 • Hadoopと連携可能 – HDFS上のデータを操作可能 – Mapper / Reducerの自動作成 • 自作モジュールで拡張可能
  3. 3. 必要なもの • 絶対必要なもの – Hadoop 0.20.x – Java 1.6.x • なくてもいいもの – Ant 1.7 – Junit 4.5
  4. 4. stableバージョンをダウンロード http://hadoop.apache.org/common/releases.html
  5. 5. tgzの展開 % cd [インストール先] % tar zxf pig-0.7.0.tar.gz.gz % cd pig-0.7.0
  6. 6. Hadoopとの連携 • conf/pig.properties に設定 • 設定項目 – HDFSのネームノード – JobTrackerの走っているノード
  7. 7. conf/pig.propertiesに追加する項目 • fs.default.name – HDFSのネームノードのURL – HadoopRoot/etc/core-site.xml の該当 項目の値を書けば良い • mapred.job.tracker – JobTrackerのURL – HadoopRoot/etc/mapred-site.xmlの該 当項目の値を書けば良い
  8. 8. 仮想分散モードで動かしている場合 fs.default.name=hdfs://localhost:9 000/ mapred.job.tracker=localhost:900 1
  9. 9. Pigの起動 1. Hadoopを動かす % HadoopRoot/bin/start_all.sh 2. Pigを起動 % bin/pig
  10. 10. lsコマンドを実行して動作チェック grunt> ls hdfs://localhost:9000/user/chiko/grep-temp- 905694089 <dir> hdfs://localhost:9000/user/chiko/helloworld <dir> hdfs://localhost:9000/user/chiko/input <dir> hdfs://localhost:9000/user/chiko/output <dir> HDFS上のファイル一覧
  11. 11. まとめ • ここまで – Pigのインストールができた – HDFS上のファイルを一覧できた • これからやってみること – grep やフィルターの実行 – スクリプトファイルの実行

×