More Related Content
Similar to Talend5.4~もう少し深く知る~(技術セッション)
Similar to Talend5.4~もう少し深く知る~(技術セッション) (20)
Talend5.4~もう少し深く知る~(技術セッション)
- 1. 1
©
Talend
2014
(2) Talend 5.4のご紹介
2014年02月28日(金) 15:00~17:15
於:Talendセミナールーム
Talend株式会社
Talend 5.4 ~ もう少し深く知る ~
- 2. 2
©
Talend
2014
アジェンダ
Ù Talend
5.4をインストールする
Ù Talend
5.4でデータ統合・連携処理を開発する
Ù Talend
5.4でデータ統合・連携システムを運用する
- 3. 3
©
Talend
2014
Talend
Pla)orm
for
….
Data
Integration ESBBig Data
Data
Services
Enterprise
IntegrationMDM
Data
ManagementBig Data
Talend 5.4商用製品体系
Talend
Enterprise
With
Big
Data
With
Big
Data
With
Big
Data
- 4. 4
©
Talend
2014
Talend 製品機能比較表
#
製品機能
Talend Enterprise … Talend Platform for …
Data
Integrati
on
Big Data ESB Data
Manage
ment
Big Data Data
Services
Data
Services
with Big
Data
MDM MDM
with Big
Data
Enterprise
Integration
Enterprise
Integration
with Big
Data
Universa
l
1
Talend Enterprise Data Integration機能:
ジョブ開発用スタジオ・運用管理・維持管理機能
※version 5.1 Professional Edition相当
◯
◯
N/A ◯
◯
◯
◯
◯
◯
◯
◯
◯
2 Hadoop, NoSQL用コンポーネント
N/A ◯
N/A N/A ◯
N/A ◯
N/A ◯
N/A ◯
◯
3 Hadoop Map Reduceジョブ開発機能
N/A ◯
N/A N/A ◯
N/A ◯
N/A ◯
N/A ◯
◯
4 マルチスレッドパラレル機能
N/A ◯
N/A ◯
◯
◯
◯
◯
◯
◯
◯
◯
5 高可用性機能(フェールオーバー・ロードバランシング)
N/A ◯
N/A ◯
◯
◯
◯
◯
◯
◯
◯
◯
6
Talend Enterprise ESB機能:
メディエーションスタジオ+データサービス開発・運用管理・
ESB Runtime機能等
N/A N/A ◯
N/A N/A ◯
◯
◯
◯
◯
◯
◯
7
Talend Data Quality機能:
プロファイリング・標準化・ファジーマッチング・データスチュ
ワード機能等
N/A N/A N/A ◯
◯
◯
◯
◯
◯
◯
◯
◯
8
Talend Big Data Quality機能:
ビッグデータプロファイリング・ビッグデータ標準化・ビッグ
データマッチング機能等
N/A N/A N/A N/A ◯
N/A ◯
N/A ◯
N/A ◯
◯
9
Talend Master Data Management機能:
MDMスタジオ・MDMコンポーネント・MDM WEBインタフェー
ス・ワークフロー・MDM Runtime機能等
N/A N/A N/A N/A N/A N/A N/A ◯
◯
N/A N/A ◯
10
Talend Business Process Management機能
BPMスタジオ・BPM Runtime・データサービスコネクタ・BPM
Runtime機能等
N/A N/A N/A N/A N/A N/A N/A N/A N/A ◯
◯
◯
◯
・・・ 機能搭載
N/A
・・・ 機能非搭載
- 5. 5
©
Talend
2014
Talend製品の共通基盤:Talend Unified Platform
- 6. 6
©
Talend
2014
Talend製品の指向性
コードジェネレーション
方式
ブラックボックエンジンと
ならない透明性の高い実装モデル
Java
SQL
Map
Reduce
Camel
……
標準・普及技術への準拠
ベンダーロックインを除外し、
習得コストを削減
分散型アーキテクチャ
軽量コンテナによる分散型アーキテクチャが
実現するハイパフォーマンス処理の実現
- 7. 7
©
Talend
2014
Talend 5.4をインストールする
インストールの前提事項-1
Ù
①OS
(32bit
/
64bit)
Windows
Server
/
Linux
④JVM
(32bit
/
64bit)
Oracle
JDK
SE
1.7
②TAC用DB
③Subversion
Talend
サーバーモジュール
Ù
⑤OS
(32bit
/
64bit)
Windows
Server
/
Linux
④JVM
(32bit
/
64bit)
Oracle
JDK
SE
1.7
Talend
クライアントモジュール
サーバー
クライアント
①
Ubuntu
10.04,
12.04,
13.04
/
Red
Hat
Linux
5.5-‐5.9,
6.1以上
/
SUSE
Linux
10,
11
/
Oracle
Solaris
10,
11
/
MicrosoV
Windows
Server
2008R2,
2012
⑤
①に加え、以下
MicrosoV
Windows
Vista
SP1,
7,
8,
8.1
Mac
OS
X
10.7,
10.8
②
MySQL
5.1,
5.5,
5.6
/
Oracle
10,
11
/
MicrosoV
SQL
Server
2005,
2008,
2012
/
PostgreSQL
9.2
/
H2
1.3
③
Apache
Subversion
1.7以上 /
Visual
SVN
Server
2.5以上 /
Bitnami
Subversion
Stack
(based
SVN
1.7)
/
Svnserve
(based
SVN1.7)
④ Oracle
JDK
SE
1.7
- 8. 8
©
Talend
2014
Talend 5.4をインストールする
インストールの前提事項-2
#
設定事項(サーバー)
1
■$JAVA_HOMEの設定
OSの環境変数に$JAVA_HOMEを設定して下さい(例: JAVA_HOME=c:Javajdk1.7.0_45)
■デフォルトJava環境の設定
デフォルトで、$JAVA_HOMEのJavaが起動するように設定して下さい。Linuxの場合、標準的なOpen
JDKに、Windowsの場合、
system32配下のjava.exeにパスが通っている可能性があります。
2
■TAC用DBへのTalend用ユーザーの設定
※TalendインストーラーがインストールするH2の場合、必要ありません。
■TAC用DBのTAC用スキーマの設定
(例:talend_administrator)
※TalendインストーラーがインストールするH2の場合、必要ありません。
3
■SubversionへのTalend用ユーザーの設定
■Subversionにおける成果物格納用trunkの設定(例:talendrep)
■Subversionにおける外部ドライバ格納用trunkの設定(例:talend_external_libraries)
4
Firewall等でポートを閉じている場合、Talendモジュールが使用するポートを開いて下さい。
- 9. 9
©
Talend
2014
Talend 5.4をインストールする
Talend製品のインストール作業-1
Ù Easy
Installモード
• ライセンスファイル
• インストール先ディレクトリ
• 管理者ユーザー/パスワード
• 以降はデフォルト設定でインストール
※Server
/
Clientが選択可能
※TAC用DBは、埋込み型H2を使用
※Customインストールは選択出来ない
(「Next」後に警告メッセージが表示)
Ù Advanced
Installモード
• ライセンスファイル
• インストール先ディレクトリ
• インストールモジュールの選択
• 管理者ユーザー/パスワード
• TAC用DBの選択と設定
• モジュール別使用ポート番号
• サービス登録可否等
※Server
/
Client
/
Customが選択可能
以下、4タイプのインストールが可能:
1. Talendインストーラー: GUIモード
2. Talendインストーラー: テキストモード
3. Talendインストーラー: サイレントモード(Unahended
mode)
4. 個別モジュールごとに手動設定
- 10. 10
©
Talend
2014
Talend 5.4をインストールする
Talend製品のインストール作業-2
Ù ライセンストークンの設定が必要
Ù 「Go
to
db
config
page」より
• インターネットに接続している環境であれば自動
的にライセンストークンを取得して活性化
• インターネットに接続できない場合、手動にて
トークンを取得
• 180日ごとにトークの更新が必須
※ トークン取得サイト(
hhp://www.talend.com/api/
get_js_validajon_token_form.php)
- 11. 11
©
Talend
2014
Talend 5.4をインストールする
設定(Configuration)
Ù TACログイン後
Ù [Menu]-‐>[設定]-‐>[Configurajon]
Ù 必須設定項目
p CommandLine/primary
p Job
conductor
p Log4j
p Svn
Ù 自動設定項目
p Database
p General
- 12. 12
©
Talend
2014
Talend 5.4をインストールする
外部ドライバのダウンロードとインストール-1
Ù 外部ドライバの別途設定が必要と
なります。また、ドライバによっては、
別途ライセンスへの承認が必要と
なります。
• WEBサービスで公開されているドライバに
ついては、ウィザード画面からダウンロー
ド&インストールが可能。
• ネット非接続環境においては、ローカル
ディスクからインストールが可能
Ù Talend商用製品については、一括
ダウンロード・ライセンス承認のウィ
ザード機能がStudio初回起動時に
表示されます。
- 13. 13
©
Talend
2014
Talend 5.4をインストールする
外部ドライバのダウンロードとインストール-2
商用版における設定
l 商用版については、タスク設定時に
サーバーサイドでも実行モジュールの
構築を行う(ジョブの生成)必要がある
ため、外部ドライバの設定が必要とな
ります。
l Talendインストーラーでインストール時
に「ジョブ等の成果物格納用リポジトリ
(従来)」と同時に「外部ドライバ格納用
リポジトリ」の設定が必要となります。
l Studioから、TACへ接続した状態で外
部ドライバのダウンロード&インストー
ルを行うことで自動的に共有リポジトリ
(Subversion)へ格納されます。
l Commandlineは、必要に応じて「外部
ドライバ格納用リポジトリ」より外部ドラ
イバ・ライブラリを抽出して実行モ
ジュールを生成します。
l Studioユーザー間では、SVNに設定さ
れることで共有されます
- 14. 14
©
Talend
2014
Talend 5.4でデータ統合・連携処理を開発する
プロジェクトの設定とStudioからのアクセス
ユーザー作成
プロジェクト作成
プロジェクトへのアクセス権設定
- 15. 15
©
Talend
2014
Talend 5.4でデータ統合・連携処理を開発する
5.4の新規追加コンポーネント-1
#
コンポーネント
機能サマリ
同梱製品
1
tFileInputRaw
スキーマ定義をもたないオブジェクト型ファイルの読込
全ての商用製品に含まれま
す。
tFileOutputRaw
スキーマ定義をもたないオブジェクト型ファイルの作成
2
tS3BucketCreate
Amazon S3ストレージのBucket作成
tS3BucketDelete Amazon S3ストレージのBucketを削除
tS3BucketExist
Amazon S3ストレージ上のBucket存在チェック
tS3BucketList
Amazon S3ストレージ上に存在するBucket名一覧の取得
tS3Close
Amazon S3ストレージの接続終了
tS3Connection
Amazon S3ストレージの接続開始
tS3Delete
Amazon S3ストレージ上のファイル削除
tS3Get
Amazon S3ストレージ上のファイルを取得
tS3List
Amazon S3ストレージ上のファイル名一覧を取得
tS3Put
Amazon S3ストレージ上にファイルを転送
3
tGSBucketCreate
Google StorageのBucket作成
tGSBucketDelete
Google StorageのBucketを削除
tGSBucketExist
Google Storage上のBucket存在チェック
tGSBucketList
Google Storage上に存在するBucket名一覧の取得
tGSClose
Google Storageの接続終了
tGSConnection
Google Storageの接続開始
tGSCopy
Google Storageのファイルをコピー/移動
tGSDelete
Google Storage上のファイルを索状
tGSGet
Google Storage上のファイルを取得
- 16. 16
©
Talend
2014
Talend 5.4でデータ統合・連携処理を開発する
5.4の新規追加コンポーネント-2
#
コンポーネント
機能サマリ
同梱製品
tGSList
Google Storage上のファイル名一覧を取得
全ての商用製品に含まれま
す。
tGSPut
Google Storage上にファイルを転送
4
tSAPHanaClose
SAP HANAの接続終了
Talend Enterprise Big Data,
Talend Platform for Big
Data,
Talend Platform for Data
Services with Big Data,
Talend Platform for MDM
with Big Data,
Talend Platform for
Enterprise Integration with
Big Data
tSAPHanaCommit SAP HANAへのコミット発行
tSAPHanaConnection
SAP HANAの接続開始
tSAPHanaInput
SAP HANAからSQLによるデータ取得
tSAPHanaOutput
SAP HANAへのデータ挿入/更新/削除/UPSERT、及びテーブルアクション
tSAPHanaRollback
SAP HANAへのロールバック発行
tSAPHanaRow
SAP HANAに様々なコマンド発行
5
tRiakBucketList
Basho Riakクラスタ上のBucket名一覧の取得
tRiakClose
Basho Riakクラスタへの接続終了
tRiakConnection
Basho Riakクラスタへの接続開始
tRiakInput
Basho Riakクラスタからのデータ取得
tRiakKeyList
Basho Riakクラスタのキー値一覧取得
tRiakOutput
Basho Riakクラスタへのデータ反映(UPSERT/DELETE)
6
tHiveCreateTable
Hiveによるテーブル作成
tHiveLoad
Hiveへのデータロード/挿入
7
tSqoopMerge
Sqoop差分追加
8
tMongoDBBulkLoad
MongoDBへのバルクロード。CSV, TSV, JSONファイルをサポート
9
tCassandraBulkExec
SSTableからCassandraへのバルクロード
tCassandraOutputBulk
バルクロード用SSTableスペースの生成とSSTableへのデータ出力
- 17. 17
©
Talend
2014
Talend 5.4でデータ統合・連携処理を開発する
5.4の新規追加コンポーネント-3
#
コンポーネント
機能サマリ
同梱製品
tCassandraOutputBulkExec SSTableへの出力からCassandraへの一気通貫でのバルクロード処理
Talend Enterprise Big Data,
Talend Platform for Big
Data,
Talend Platform for Data
Services with Big Data,
Talend Platform for MDM
with Big Data,
Talend Platform for
Enterprise Integration with
Big Data
10
tAvroInput
Avro形式ファイルの読込
tAvroOutput
Avro形式ファイルの出力
tFileInputJSON JSON形式ファイルの読込
tFileOutputJSON
JSON形式ファイルの出力
tHDFSInput
HDFS上のファイル(テキスト/シーケンス)を読込
tHDFSOutput
HDFS上のファイル(テキスト/シーケンス)を作成
tJavaMR
Map Reduceコードの記述が可能
tLogRow
Talendコンソールに結果データを表示
Map
Reduce
ジョブ生成時
のコンポーネ
ント
- 18. 18
©
Talend
2014
Talend 5.4でデータ統合・連携処理を開発する
5.4の新機能-1
Ù tMap
/
tXMLMapのマップエディタ内で項目名検索機能を追加
Ù 大量の項目をもつデータの変換設定時に迅速に対象にリーチ
- 19. 19
©
Talend
2014
Talend 5.4でデータ統合・連携処理を開発する
5.4の新機能-2
Ù Studioワークスペース内でコンポーネント名称を入力することで自動配置
Ù 必要なコンポーネントをパレットから検索するオペレーションは不要
- 20. 20
©
Talend
2014
Talend 5.4でデータ統合・連携処理を開発する
5.4の新機能-3
Ù Hadoop用ドライバの追加・更新
• Cloudera
CDH
4.3,
4.4,
4.3+(YARN)
• MapR
2.1.3,
3.0.1
Ù Hadoopディストリビューションのサポート追加
• Pivotal
HD
1.0.1
Ù In-‐memory
DBサポート
• SAP
HANA
Ù Hadoopクラスタ環境におけるKerberos認証をサポート
➜ Hadoopクラスタ上のデータへのセキュアなアクセスを実装
➜ tHDFSXXX、tHCatalogXXX、tHiveXXX、tPigXXX、tSqoopXXXで設定が可能
Ù Big
Dataジョブのサンプルプロジェクトを同梱
➜ Apacheアクセスログ、SqoopによるMySQL以降、Hive
ELT処理等
➜ Cassandra,
MongoDBジョブ等
Big
Data
- 21. 21
©
Talend
2014
Talend 5.4でデータ統合・連携処理を開発する
5.4の新機能-4
Ù Map
Reduceジョブデザインワークスペースでインディケーターを表示
• 実行時にMapステップとReduceステップの進捗状況とステータスをリアルタイム表示
• Map
Reduceジョブのチューニングがビジュアルに可能
Big
Data
- 22. 22
©
Talend
2014
Talend 5.4でデータ統合・連携処理を開発する
5.4の新機能-5
Ù Sequence
file,
RC,
ORC,
Avro形式ファイルに対応
• 各々、tHiveCreateTable,
tHiveLoad,
tAvroXXX,
tJSONXXX,
tPigLoad,
tPigStoreResult,
tHDFSXXXにて指定が可能
Big
Data
- 23. 23
©
Talend
2014
Talend 5.4でデータ統合・連携処理を運用する
5.4の新機能-1
Ù Amazon
EC2をジョブ実行サーバーとして設定が可能
• EC2上へのJob
Serverインストールは必要
• オンプレミスのTACより、直接EC2インスタンスの起動・終了・停止等の制御が可能
• タスク終了時にEC2インスタンスの起動・終了・停止の設定が可能
(ご参考)hhp://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/ec2-‐instance-‐lifecycle.html
- 24. 24
©
Talend
2014
Talend 5.4でデータ統合・連携処理を運用する
5.4の新機能-2
Ù 「Monitoring」にてタスクの運用監視状況をリアルタイムに監視
Ù 「Execujon
History(TASK
EXECUTION
MONITORING)」で、実行履歴の詳細
ウィンドウをポップアップ表示
• ログ詳細情報へのより迅速なアクセス
- 25. 25
©
Talend
2014
Talend 5.4でデータ統合・連携処理を運用する
5.4の新機能-3
Ù 「TIMELINE」でグラフィカルにスケジュールタスクを表示
Ù 表示タイムスケール等を1クリックで容易に切換え
- 26. 26
©
Talend
2014
Talend 5.4でデータ統合・連携処理を運用する
5.4の新機能-4
Ù Job
Server設定時に実行環境時間での設定が可能
- 27. 27
©
Talend
2014
Talend 5.4でデータ統合・連携処理を運用する
5.4の新機能-5
Ù タスクの起動トリガー設定時に「Job
Server時間」「TAC時間」「その他」を指定可能
Ù タスクから直接「Execujon
History」に切り換えるボタンを追加(指定のタスクでフィ
ルタ済み)
- 28. 28
©
Talend
2014
Talend 5.4でデータ統合・連携処理を運用する
5.4の新機能-6
Ù TAC用DBや共有リポジトリの定期バックアップをTAC(「設定」→「Backup」)で設定
タスク、ダンプ先設定
バックアップ対象DB/SVN設定
タスク実行スケジュール設定
(CRONトリガと同一)
- 29. 29
©
Talend
2014
(ご参考)Talend製品のモジュール一覧
①
②
②
③
④
⑤
⑥
⑦
⑧
⑨
⑩
⑪
⑫
⑬
⑭
- 30. 30
©
Talend
2014
ご清聴有難う御座いました
Talend株式会社
〒107-0062 東京都港区南青山 5-10-13 デコパージュ南青山4F
オフィス:03-6427-6370 | sales@talend.jp
http://jp.talend.com | https://www.talend-bc.jp