Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
オープンソースのETLツール 
Pentaho Data Integration(PDI) 
のご紹介 
PostgreSQLアンカンファレンス@東京(9/6) 
KSKアナリティクス 
川崎照夫 
TwitterID:@teruu
自己紹介 
川崎照夫 
TwitterID: @teruu 
所属:KSKアナリティクス 
BI歴:2年(※BI:ビジネス・インテリジェンス) 
DB歴:17年
DWH系データベースを探しています 
HP Vertica Community Edition 
→ production環境も可 
PostgreSQL-XL 
→ 永安さんブログ 
「Chef/serverspecを使ってPostgres-...
こちらの永安さん 
のやり取りを拝見 
したのがきっかけ 
で今回参加させて 
いただきました
自己紹介 
オープンソースBI 勉強会#10 
https://atnd.org/events/56153
Yahooリアルタイム検索 
「pentaho」定点観測中 
・「日本語の資料が全然ない」というツイート 
日本のPentahoユーザ 
・日本語の情報が見つからない 
・やりたいことがなかなかできない(簡単なことなのに...) 
・フラストレ...
これまでの開催 
• #5 MongoDB+Pentaho ハンズオン 
• #6 OLAP ハンズオン 
• #7 ETL ハンズオン 
• #8 定型レポート 
• #9 CTools (ダッシュボード)
次回以降 
• #10 OLAPハンズオン(9/30) 
• #11 ETLハンズオン 
• #12 定型レポートハンズオン 
• #13 CTools(ダッシュボード)ハンズオン
これまでの資料 
オープンソースBI勉強会メモ 
• #7 ETL ハンズオン 
http://www.slideshare.net/teruok/pdi-tutorial-20140121 
• #8 定型レポート 
http://www.s...
会員制ドキュメント・ダウンロード・サービス「LiBRA」 
(リブラ) 
→提供資料の加工編集、再配布が可能 
(http://libra.netcommerce.co.jp/) 
以降はLiBRAの「ビジネス・インテリジェンス」から引用 
(...
ETLツール使ってますか? 
• 商用製品 
• オープンソース(出典:Wikipedia) 
– Talend Open Studio for Data Integration 
– JasperReports ETL 
– Clover.E...
オープンソースのETLツール 
Pentaho Data Integration(PDI)
GitHub(ギットハブ)での開発 
PDIをはじめPentahoのオープンソース製品は、ソフトウェア 
開発のための共有ウェブサービスである「GitHub」を利用し 
て開発が行われています。 
GitHubにアクセスすることで、活発なソフト...
ダウンロード 
• Pentaho配布サイト 
http://community.pentaho.com/ 
http://sourceforge.net/projects/pentaho/files/ 
• Pentaho配布サイトPDI 
...
インストール 
• ダウンロードするだけ(Javaの環境があれ 
ば) 
• DBのJDBCドライバを追加 
– postgresqlのドライバは同梱されている 
• SourceForgeのサイトからダウンロードし、 
Windowsであれば...
Spoon起動Windowsの場合、Spoon.batファイルをダブ 
ルクリックして起動します。
新規→データ変換ファイル→新規→データ変換、を 
選択します。 
デザイン 
タブ 
ツールバー 
キャンバス
データ変換作成 
• DB出力 
(※過去のハンズオンから) 
詳細は下記資料をごらんください。 
#7 ETL ハンズオン 
http://www.slideshare.net/teruok/pdi-tutorial-20140121
テキストファイル入力 
新規→データ変換を選択。 
「入力」ノードから「テキストファイ 
ル入力」を選択。
ステップ配置 
「出力」ノードから「テキストファイ 
ル出力」を選択。下記のように配 
置します。
「テキストファイル入力」ス 
テップで先ほど出力したファイ 
ルを指定。 
「プレビュー」ボタンをクリッ 
ク。 
テキストファイル入力
プレビュープレビューを確認。
テキストファイル入力 
全般タブ 
全般タブで「入力タブ」ボタン 
をクリックしてタブを入力。
テキストファイル入力 
フィールドタブ 
「フィールドを取得」をクリッ 
ク。
走査した結果走査した結果が表示される。
テーブル出力 
「テーブル出力」ステップを編集。テーブル名 
を指定。「列名を指定する」チェックボックス 
をONに。「フィールドを取得」ボタンをク 
リックして、フィールド欄に自動記入。 
「SQL」ボタンをクリック。
SQL文生成、実行 
CREATE TABLE文が生成される。 
「実行」ボタンをクリックして、 
出力先のテーブル作成。
「フィールドマッピング」ボタ 
ンをクリックして、マッピング 
の内容を確認。 
フィールドマッピング
実行ツールバーの「実行」をクリッ 
ク。「実行」ボタンをクリック。
実行結果実行結果が表示される。
照会 
DBに出力した内容を確認。 
ビュータブのデータベース接続 
から該当の接続を右クリックし 
て、「照会」を選択。
データベース 
エクスプローラー 
該当のテーブルを選択。
プレビュー該当のテーブルを右クリックし 
て、「x行プレビュー」を選択。
プレビューテーブルの内容が表示される。
データ変換作成 
• DB出力
関連書籍 
ハンズオンのスライドでは、左側の「Pentaho Data Integration Beginner’s 
Guide」の内容を一部参考にしています。
不明な点 
• Pentahoのフォーラムへ 
– 日本語でコミュニティー・サポート 
http://forums.pentaho.com/forumdisplay.php?86
オープンソースBI 勉強会#10 
https://atnd.org/events/56153 
9/30(火)19:00~ 大崎 
オープンソースカンファレンス2014 Tokyo/Fall 
http://www.ospn.jp/osc20...
オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
Upcoming SlideShare
Loading in …5
×

オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

5,833 views

Published on

PostgreSQLアンカンファレンス@東京(9/6)
発表資料です。
https://atnd.org/events/54447

Published in: Software
  • Be the first to comment

オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

  1. 1. オープンソースのETLツール Pentaho Data Integration(PDI) のご紹介 PostgreSQLアンカンファレンス@東京(9/6) KSKアナリティクス 川崎照夫 TwitterID:@teruu
  2. 2. 自己紹介 川崎照夫 TwitterID: @teruu 所属:KSKアナリティクス BI歴:2年(※BI:ビジネス・インテリジェンス) DB歴:17年
  3. 3. DWH系データベースを探しています HP Vertica Community Edition → production環境も可 PostgreSQL-XL → 永安さんブログ 「Chef/serverspecを使ってPostgres-XLを2分でデプロイする」 http://pgsqldeepdive.blogspot.jp/2014/06/deploying-postgres-xl-chef-serverspec.html 関連ツイート(今回このツイートを見て、この会に参加させていただきました) https://twitter.com/snaga/status/491907303155564544
  4. 4. こちらの永安さん のやり取りを拝見 したのがきっかけ で今回参加させて いただきました
  5. 5. 自己紹介 オープンソースBI 勉強会#10 https://atnd.org/events/56153
  6. 6. Yahooリアルタイム検索 「pentaho」定点観測中 ・「日本語の資料が全然ない」というツイート 日本のPentahoユーザ ・日本語の情報が見つからない ・やりたいことがなかなかできない(簡単なことなのに...) ・フラストレーションがたまりがち Pentahoのチュートリアル資料を充実 6/83
  7. 7. これまでの開催 • #5 MongoDB+Pentaho ハンズオン • #6 OLAP ハンズオン • #7 ETL ハンズオン • #8 定型レポート • #9 CTools (ダッシュボード)
  8. 8. 次回以降 • #10 OLAPハンズオン(9/30) • #11 ETLハンズオン • #12 定型レポートハンズオン • #13 CTools(ダッシュボード)ハンズオン
  9. 9. これまでの資料 オープンソースBI勉強会メモ • #7 ETL ハンズオン http://www.slideshare.net/teruok/pdi-tutorial-20140121 • #8 定型レポート http://www.slideshare.net/teruok/pentaho-reporting-20140729
  10. 10. 会員制ドキュメント・ダウンロード・サービス「LiBRA」 (リブラ) →提供資料の加工編集、再配布が可能 (http://libra.netcommerce.co.jp/) 以降はLiBRAの「ビジネス・インテリジェンス」から引用 (http://libra.netcommerce.co.jp/library/knowledge/841)
  11. 11. ETLツール使ってますか? • 商用製品 • オープンソース(出典:Wikipedia) – Talend Open Studio for Data Integration – JasperReports ETL – Clover.ETL – Enhydra Octopus – Pentaho Data Integration
  12. 12. オープンソースのETLツール Pentaho Data Integration(PDI)
  13. 13. GitHub(ギットハブ)での開発 PDIをはじめPentahoのオープンソース製品は、ソフトウェア 開発のための共有ウェブサービスである「GitHub」を利用し て開発が行われています。 GitHubにアクセスすることで、活発なソフトウェア開発の様 子を見ることができます。また、公開されているソースコー ドを参照でき、バグの修正などの形でPDIのソフトウェア開 発に参加することも可能です。 ◇PDIのGitHubリポジトリ https://github.com/pentaho/pentaho-kettle
  14. 14. ダウンロード • Pentaho配布サイト http://community.pentaho.com/ http://sourceforge.net/projects/pentaho/files/ • Pentaho配布サイトPDI http://sourceforge.net/projects/pentaho/files/Data%2 0Integration/ • ダウンロード候補 – pdi-ce-5.1.0.0-752.zip
  15. 15. インストール • ダウンロードするだけ(Javaの環境があれ ば) • DBのJDBCドライバを追加 – postgresqlのドライバは同梱されている • SourceForgeのサイトからダウンロードし、 Windowsであれば、解凍したフォルダ中の Spoon.batをダブルクリック • 起動後、言語の設定を確認(日本語に なっているか)
  16. 16. Spoon起動Windowsの場合、Spoon.batファイルをダブ ルクリックして起動します。
  17. 17. 新規→データ変換ファイル→新規→データ変換、を 選択します。 デザイン タブ ツールバー キャンバス
  18. 18. データ変換作成 • DB出力 (※過去のハンズオンから) 詳細は下記資料をごらんください。 #7 ETL ハンズオン http://www.slideshare.net/teruok/pdi-tutorial-20140121
  19. 19. テキストファイル入力 新規→データ変換を選択。 「入力」ノードから「テキストファイ ル入力」を選択。
  20. 20. ステップ配置 「出力」ノードから「テキストファイ ル出力」を選択。下記のように配 置します。
  21. 21. 「テキストファイル入力」ス テップで先ほど出力したファイ ルを指定。 「プレビュー」ボタンをクリッ ク。 テキストファイル入力
  22. 22. プレビュープレビューを確認。
  23. 23. テキストファイル入力 全般タブ 全般タブで「入力タブ」ボタン をクリックしてタブを入力。
  24. 24. テキストファイル入力 フィールドタブ 「フィールドを取得」をクリッ ク。
  25. 25. 走査した結果走査した結果が表示される。
  26. 26. テーブル出力 「テーブル出力」ステップを編集。テーブル名 を指定。「列名を指定する」チェックボックス をONに。「フィールドを取得」ボタンをク リックして、フィールド欄に自動記入。 「SQL」ボタンをクリック。
  27. 27. SQL文生成、実行 CREATE TABLE文が生成される。 「実行」ボタンをクリックして、 出力先のテーブル作成。
  28. 28. 「フィールドマッピング」ボタ ンをクリックして、マッピング の内容を確認。 フィールドマッピング
  29. 29. 実行ツールバーの「実行」をクリッ ク。「実行」ボタンをクリック。
  30. 30. 実行結果実行結果が表示される。
  31. 31. 照会 DBに出力した内容を確認。 ビュータブのデータベース接続 から該当の接続を右クリックし て、「照会」を選択。
  32. 32. データベース エクスプローラー 該当のテーブルを選択。
  33. 33. プレビュー該当のテーブルを右クリックし て、「x行プレビュー」を選択。
  34. 34. プレビューテーブルの内容が表示される。
  35. 35. データ変換作成 • DB出力
  36. 36. 関連書籍 ハンズオンのスライドでは、左側の「Pentaho Data Integration Beginner’s Guide」の内容を一部参考にしています。
  37. 37. 不明な点 • Pentahoのフォーラムへ – 日本語でコミュニティー・サポート http://forums.pentaho.com/forumdisplay.php?86
  38. 38. オープンソースBI 勉強会#10 https://atnd.org/events/56153 9/30(火)19:00~ 大崎 オープンソースカンファレンス2014 Tokyo/Fall http://www.ospn.jp/osc2014-fall/ 10/18(土)、19日(日) → 「オープンソースBI勉強会」コミュニティで出展予定

×