SlideShare a Scribd company logo
1 of 53
Download to read offline
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
顧客事例から学んだ、
エンタープライズでの
"マジな"Hadoop導入の勘所
日本オラクル株式会社
クラウド・テクノロジー事業統括
Cloud/Big Data/DISプロダクト本部
立山 重幸 (Shigeyuki.Tateyama@oracle.com)
Hadoop Conference Japan 2016
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
• 以下の事項は、弊社の一般的な製品の方向性に関する概要を説明する
ものです。また、情報提供を唯一の目的とするものであり、いかなる契約
にも組み込むことはできません。以下の事項は、マテリアルやコード、機
能を提供することをコミットメント(確約)するものではないため、購買決定
を行う際の判断材料になさらないで下さい。オラクル製品に関して記載さ
れている機能の開発、リリースおよび時期については、弊社の裁量により
決定されます。
2
OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。
文中の社名、商品名等は各社の商標または登録商標である場合があります。
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
本日のお話
3
Hadoop
エキスパート
Hadoopを導入する人
Hadoop入門した人
Hadoop知らない人
HDFSやMapReduceの概要は理
解したが、実際のHadoop導入と
なると壁の高さを感じてしまう人
のためのワダチ的な内容です。
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopの現在地と
エンタープライズのお客様に提案する際の
論点
4
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
50万社データベースユーザ
5
As of 2016
3000社ビッグデータユーザ
出典:ビッグデータが「みんなのもの」に?
オラクルが予測する2016年の見通し
http://www.oracle.com/jp/corporate/features/pr/b
ig-data-for-all-oracles-2016-predictions/index.html
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 6
As of 2016
数万社ビッグデータユーザ
出典:ビッグデータが「みんなのもの」に?
オラクルが予測する2016年の見通し
http://www.oracle.com/jp/corporate/features/pr/b
ig-data-for-all-oracles-2016-predictions/index.html
RDBユーザが、ど真ん中で
Hadoopも利用
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopの現在地
• 2016年Big Data市場における
Hadoopの普及率は約22%
• キャズムを超えて、アーリーマジョ
リティへの導入が進んでいる
7
出典:Hortonworks Inc. Big Data & Hadoop Market
2.5% 13.5% 34% 34% 16%
イノベーター アーリー
アダプター
アーリー
マジョリティ
レイト
マジョリティ
ラガード
キャズム
16%
22%
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
2016/10/29 日本オラクル プレスリリース
セブン&アイ・ホールディングス様
8
• 「いつでも、どこでも、スムーズに、お客様が求める商
品を購入でき、人に紹介したくなるサービス」をコンセ
プト に、国内1万9,000以上の店舗とインターネット販
売を融合させるオムニチャネルの構築を推進
• 2016年11月1日グループ横断型の新通販サイト
「omni7(オムニセブン)」を開設
• ネットとリアルの融合と複数事業体のシームレスな連
携を可能にするオムニチャネルを実現するため、IT基
盤を新たに構築
• ネットや実店舗から発生する膨大なデータを
セキュアに蓄積、管理、分 析
• オラクルのエンジニアド・システムやクラウドなど最先
端の技術を駆 使したオラクル製品の包括的な導入
(Oracle Big Data Appliance含)
2016/10/29 日本オラクルプレスリリースより抜粋
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
構造データ
9
MES
機器ログ
ERP
ソース 収集 蓄積
DWH
Data
Visualization
Analytics
Platform
分析
• これまでの取り組み
– ERPをグローバルシングルインスタンス化
• Oracle Applicationsを活用
• 業務プロセス標準化、ITコスト削減($7.7M)
– グローバルKPIシステム(DWH)を構築
• Exadata、Exalyticsを活用
• 世界中の各生産ラインの生産状況や歩留情報、
在庫情報、販売情報のKPIを可視化
• 影響分析等、効率的な工場管理が可能に
• 新たな課題
– 長期間データの蓄積、分析が不可
• 毎24時間毎にデータ収集が必要
– サマリデータのみが分析対象のため、
詳細かつ正確な分析ができない、工数増大
バッチデータフロー
インテラクティブなデータフロー
お客様 事例① 製造業
機器データ活用により、詳細な生産状況の分析を実現
某グローバル製造業様
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
非構造
データ
構造データ
10
MES
機器ログ
ERP
音声
ビデオ
テキスト
ソーシャル
ソース 収集 蓄積
DWH
データ
貯蔵庫
Data
Visualization
Analytics
Platform
分析
• 新たな取り組み
– 既存DWHの隣に、データ貯蔵庫を構築
• Oracle Big Data Applianceを活用
• MES、装置の詳細かつ長期間データを
リアルタイムに取得
• 効果
– 生産工程における新たなデータ分析を実現
• 長期間でのデータ分析の実現
• 生産条件最適化のための分析
• 操業率低下の原因分析
• 複数のセル-モジュールをまたいだ原因分析
• 品質の可視化
– データ分析の効率化
• データ分析作業の期間短縮
• 対象データのカバレッジ(種類、量、期間)
バッチデータフロー
インテラクティブなデータフロー
マスター、
サマリー、
詳細データ
サマリー
分析結果
アーカイブ
お客様 事例① 製造業
機器データ活用により、詳細な生産状況の分析を実現
某グローバル製造業様
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 11
• メインフレーム・ダウンサイジング
– MIPS:30%削減
– バッチ処理時間:50%削減
• Exadata+Big Data Appliance(Hadoop 基
盤)のハイブリッド構成
– 既存データマートの集約
– OPEX:約40% 削減
• データ配布モデルの近代化
– 「データありき」
vs 「スキーマ/モデルありき」
– 顧客360°ビューの実現
お客様 事例② 金融業
ITコスト削減と、情報の一元化によるビジネス変革実現
La Caixa様メインフレームテープ サブシステム・DWHバッチ処理 レポート
Data Reservoir
(Hadoop)
ソーシャルデータ
顧客情報
決済情報
バッチ処理の削減による
コスト削減メインフレーム
およびテープ上の
ストレステスト
データの移行
レポート
顧客360°
DWH
(RDBMS)
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
弊社が提案するビッグデータの特徴
• ビッグデータ = RDB + Hadoop
⇒RDBと同等のSLAが求められる事が多い
12
提案構成例
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
SLAを満たすためのHadoop基盤検討ポイント(非機能)
• サーバ構成
– 従来通りのベストプラクティスで良いのか?
• バックアップ
– どこにどうやって取るべきか?
• セキュリティ
– 認証、暗号化
• パフォーマンス
– ロード
13
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
サーバ構成
14
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopを提案する側の考え方 ⇔ RDBお客様の要望
①サーバ構成の考え方
15
Hadoopベストプラクティス 提案時におけるお客様からの指摘
安いIAサーバを、たくさん積んでください
PXEやPuppetを組み合わせれば運用も楽です
会社の方針でサーバ統合している中で数百台の
サーバ導入は説明がつかない
故障率1%として、300台クラスタの場合、ほとんど毎
日故障が発生する事になるため許容されない
初期サイジングより増えた場合にデータセンターに
場所がなくなってしまう
“マジな”Hadoop
導入の勘所①
パフォーマンスと運用を鑑みた、ある程度の集約を意識した分散構成を組む
例)10PBクラスタの場合
4TB HDD × 8本 ⇒ 313台(ラック18台分)
8TB HDD × 12本 ⇒ 105台(ラック6台分)
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopを提案する側の考え方 ⇔ RDBお客様の要望
②ネットワークの考え方
16
Hadoopベストプラクティス 提案時におけるお客様からの指摘
DN内で処理をして、DN間はほとんどデータ転送が
発生しないのでノード間は細い線でも大丈夫
バックアップデータをクラスタに復旧させる際にボト
ルネックになるのでは?
DNが破損した時のリバランス処理は問題にならな
いか?
“マジな”Hadoop
導入の勘所②
ノード間の結線は10GbE以上が望ましい
多少コスト高になったとしても、安定的な運用を求められる
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopを提案する側の考え方 ⇔ RDBお客様の要望
③番外編
17
Hadoopベストプラクティス 提案時におけるお客様からの指摘
Master とSlaveは、別構成にすべき 理屈はわかるが、本番、開発、テスト、DRそれぞれ
にMasterだけの役割のノードを持たせるのは無駄
が多い
“マジな”Hadoop
導入の勘所③
最近はNNとDNは同居する事も可能
メモリが128GB以上あればNNの管理領域が不足するケースは少ない
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
バックアップ
18
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopを提案する側の考え方 ⇔ RDBお客様の要望
④バックアップ
19
Hadoopベストプラクティス 提案時におけるお客様からの指摘
ログ等非クリティカルなデータである(従来捨ててい
た)ため、バックアップは必須ではない
データは3重化されているため、メタデータだけバッ
クアップしておけば十分
エンドユーザは裏がHadoopだろうがRDBだろうが気
にしない
⇒弊社のポリシーに準拠して提案してください
“マジな”Hadoop
導入の勘所④
HadoopのバックアップはHadoopで!
バックアップのために、NASやTapeを提案するとHadoopのコストメ
リットが薄らいでしまう
(StorageServerに仕事をさせるのが、Hadoopの売りなのに)
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
クラスター分割はエンドユーザからのBigクエリ対策にも有効
20
•Hadoop to Hadoopであればコピー先を参照用として利用するなど、運用の幅が広がる
(リソース制御やセキュリティ制御などにも有用)
ソース Hadoop #1 バッチ利用
ターゲット Hadoop #2 バックアップ、データ参照
Hadoop Cluster #1
バッチ処理
Hadoop Cluster #2
データ参照
(Sandbox)
バック
アップ
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
基本的なバックアップ要件は、Hadoopだけでも対応可能
21
バックアップ要件例 Hadoopにおける対応
バックアップの断面が取得可能であること
Snapshot
・対象ディレクトリのブロックをReadOnlyで参照する仕組み
・複数バージョン取得可
・バージョン間の比較も可
クラスタ停止時間以内にバックアップが完了すること
DistCp
・複数mapperが並列で他Hadoopに並列コピーする
・差分更新も可能
Hiveメタ情報とHDFSの同期が取れていること
作り込み
⇒Cloudera BDR (Backup & Disaster Recovery)などで対応
リアルタイムに同期が取れていること
Hadoop to Hadoop
かなり大変 ⇒ Wandiscoなどで対応
DB to Hadoop
かなり大変 ⇒Oracle GoldenGateなどで対応
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
使い方も簡単
22
①snapshot作成の許可
-bash-4.1$ hdfs dfsadmin -allowSnapshot /tmp/26860-tera-in
Allowing snaphot on /tmp/26860-tera-in succeeded
100GBのデータ
②snapshotの作成
-bash-4.1$ hdfs dfs -createSnapshot /tmp/26860-tera-in
Created snapshot /tmp/26860-tera-in/.snapshot/s20160125-174328.432
.snapshotディレクトリに
ReadOnlyとして作成される
③DistCPによる他クラスタへのレプリケーション
--bash-4.1$ hadoop distcp -atomic /tmp/26860-tera-in/.snapshot/s20160125-174328.4
32 webhdfs://benkei01/tmp/26860-tera-in/
・・・
16/01/27 15:38:34 INFO mapreduce.Job: map 0% reduce 0%
16/01/27 15:38:45 INFO mapreduce.Job: map 2% reduce 0%
・・・
16/01/27 15:48:04 INFO mapreduce.Job: Job job_1452235540015_0003 completed successfully
Mapperが並列にコピー
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
セキュリティ
23
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
無防備なHadoopクラスタ (Security Level 0)
検証環境では、ありがちな構成
• Hadoopクライアント
– 認証なし
– どの端末からもアクセス可能
• Beeline , JDBCクライアント
– HiveServer2になりすまし認証
24
Hadoop Cluster
HDFS
YARN
HIVE
管理画面
Hadoop Client
OSユーザ
JDBC
JDBCユーザ
ブラウザ
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopのセキュリティ機能概要
25
セキュアなHadoop環境を実現可能
分類 機能 対応ツール例
認証 ユーザーの認証 Apache Hadoopのベース機能(Kerberos認証)
認可 Hive, ImpalaでのRole単位での認可 Sentry
暗号化
通信路の暗号化 Apache Hadoopのベース機能
保存データの暗号化・マスキング HDFSの暗号化
監査 監査の取得・レポーティング 3rd Party Tool
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopの認証機能
• Hadoopの認証では以下の2つの設定がある
–認証なし: クライアント側のOSユーザーをHadoopユーザーとして認識
–Kerberos認証
“マジな”Hadoop
導入の勘所⑤
Edgeサーバ+Kerberos認証の設定はHadoopのセキュリティ設定のスタート地点
•悪意のあるユーザーがクライアントにhdfs OSユーザーを作成し、hdfsユーザーで
HDFSユーザーでHadoopにアクセスすると全データを操作できてしまう
⇒不特定多数の端末からアクセスさせない
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Security Level 1:エッジサーバを介したアクセス
• 不特定多数からHadoopクラスタ
にアクセスさせない
– 利用者は、エッジサーバにログイン
した上で、Hadoopを操作する
27
Hadoop Cluster
HDFS
YARN
HIVE
管理画面
Edge Server
Hadoop
Client
FireWall
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Security Level 2:Kerberos認証
• Kerberos,LDAPによるユーザ認証
– 利用者は、認証サーバに許可を取
得した上で利用する
• 余談
– SqoopでRDB連携する時は、
Oracle walletで鍵アクセス可能
28
Hadoop Cluster
HDFS
YARN
HIVE
管理画面
Edge Server
Hadoop
Client
FireWall
KRB5
LDAP
認証
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Security Level 3:認可、暗号化
• Hadoopそのものも守る
– RBAC
• HDFSのアクセス権設定
• SentryによるHive表等のアクセス制御
– データ暗号化
• HDFS Data at Rest Encryption
– 監査
• HDFS監査ログ
• Cloudera Navigator
• Oracle Audit Vault & Database Firewall
• etc
29
Hadoop Cluster
HDFS
YARN
HIVE
管理画面
Edge Server
Hadoop
Client
FireWall
KRB5
LDAP
認証
Sentry
HDFS
Encryption
Audit
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS Encryptionのアーキテクチャ
• HDFSクライアントが扱うファイルの暗号化・復号を担当
• Encryption Zoneごとに鍵が存在
Encryption Zone Key = EZK
EZKは鍵管理を行うコンポーネントであるKMSが管理。
ただし、EZKを使って個々のファイルを暗号化するわけではない
• Encryption Zone 内のファイルごとに鍵をKMSが生成
Data Encryption Key = DEK
• ただしDEKをそのまま保管するのは危険なため、DEKをEZKで暗
号化したencrypted DEK = EDEKをNameNodeにメタデータの一部
として保持
• NameNodeの管理権限のある(OS上のファイルとしてEDEKを不
正に取得することもできる)HDFS管理ユーザーにKMSに対する
権限を与えないように設定をしておく(ブラックリスト)
30
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS Encryptionのアーキテクチャ
• Keystore
– keystoreは、 Key Management
Server (KMS)の鍵保管を行う
– 通常はファイルベースの
keystore(Java KeyStore)
– Clouderaの場合Cloudera Navigator
Key Trustee Server(PostgreSQL)
31
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS暗号化は本当にOSから参照できなくなる? 1/3
32
①HDFSの暗号化ゾーンを作成
[oracle@server01 ~]# kinit hdfs@EXA.JP.ORACLE.COM
Password for hdfs@EXA.JP.ORACLE.COM:
[oracle@server01 ~]# hdfs dfs -mkdir /cipher
[oracle@server01 ~]# hdfs dfs -mkdir /plain
[oracle@server01 ~]# hadoop key create nokk
[oracle@server01 ~]# hdfs crypto -createZone -keyName nokk -path /cipher
Added encryption zone /cipher
[oracle@server01 ~]# hdfs crypto -listZones
/cipher nokk
Kerberos認証
暗号化ゾーン作成
[oracle@server01 ~]# echo テストデータ > /oracle/テスト
[oracle@server01 ~]# hdfs dfs -put /oracle/テスト /cipher/
[oracle@server01 ~]# hdfs dfs -put /oracle/テスト /plain/
②テストデータをHDFSに保存
「テスト」というファイルを暗号化、非暗号化に配置
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS暗号化は本当にOSから参照できなくなる? 2/3
33
③HDFSのブロック番号を検索
[oracle@server01 ~]# hdfs fsck /cipher/テスト -files -blocks
Connecting to namenode via http://server02.exa.jp.oracle.com:50070
FSCK started by test (auth:KERBEROS_SSL) from /xxx.xxx.xx.xx for path /cipher/テスト at Thu Dec 10 11:34:06 JST 2016
/cipher/テスト 19 bytes, 1 block(s): OK
0. BP-529482047-192.168.21.81-1448469031064:blk_1073773664_32840 len=19 repl=3
以下略
暗号化ファイルのブロック
[oracle@server01 ~]# find /u[0-1][0-9] -name blk_1073773664
/u07/hadoop/dfs/current/BP-529482047-192.168.21.81-
1448469031064/current/finalized/subdir0/subdir124/blk_1073773664
④ブロックの場所を検索
当該ブロックの絶対パス
/cipher/テスト blk_1073773664
/plain/テスト blk_1073773668
IPadress
IPadress
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS暗号化は本当にOSから参照できなくなる? 3/3
34
⑤ファイルの中身の確認
[oracle@server01 ~]# cat /u07/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/
current/finalized/subdir0/subdir124/blk_1073773664
▒▒▒qqa>▒▒▒▒▒▒Λ`▒
[oracle@server01 ~]# cat /u03/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/
current/finalized/subdir0/subdir124/blk_1073773668
テストデータ
暗号化ファイルされたファイル
IPadress
IPadress
暗号化されていないファイル
“マジな”Hadoop
導入の勘所⑥
お客様のデータはHadoopでもしっかり守れます!
•ディスク交換を頻繁に行うシステムだからこそ、しっかり暗号化が必要
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
HDFS暗号化のパフォーマンス劣化が心配なんだけど。。。
35
出典: Intel® Xeon® Processor E5-2600 v3 Accelerates
Hadoop HDFS Encryption
http://www.intel.com/newsroom/kits/xeon/e7v3/pdfs/Xeo
n_E7v3_Cloudera-aes-ni.pdf
暗号化による劣化はReadで5%
Writeはほぼなし
ベンチマークterasortの結果は1%
“マジな”Hadoop
導入の勘所⑦
HDFS暗号化のデメリットは少ない
•処理能力が大幅に劣化するというのは都市伝説。
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
パフォーマンス
36
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoopに出し入れする処の話
37
+
ストアド
プロシジャ
File ->
Hadoop
MapReduce
Hadoop
-> DB
ここの話
•MapReduceやSparkが早いのは当たり前(数台 VS 数百台)
•ただし、ロードの部分を何とかしないと全体のスループットとして効果が薄い
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
Hadoop連携技術はたくさんあるけど、何を選べば良い?
38
Stream loadingBatch loading
Kafka
Flume
GoldenGate
HDFS Put
Kite CLI
distcp
sqoop
WebHDFS
HttpFS
•エコシステムはたくさんあって便利ですが、セキュリティやリソース制御とか監視な
どを考えると、可能な限り万能選手を厳選して利用したい
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
バッチロードツールの比較
Hadoop Client Httpfs WebHDFS
Edgeサーバへ
のインストール
必要 不要 不要
Hadoop側の
GateWay有無
無 必要(SPoF) 無(動的)
使いやすさ
◎
コマンドライン
○
HTTP REST API
○
HTTP REST API
パフォーマンス 思っていたより遅い(1ファイル1スレッド処理)
39
Hadoop Cluster
HDFS nodes
Edge Server
Client
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
hadoop fs -put test hdfs://scaj43bda02:8020/tmp/test31;
curl -i -X PUT -L -H 'Content-Type:application/octet-stream'
"http://scaj43bda03:14000/webhdfs/v1/tmp/test11?op=CREATE&user.name=root" -T test.txt;
ロードパフォーマンスの違いを比較してみた
40
コマンドは以下の通り:
1) HttpFS
2) WebHDFS
curl -i -X PUT -L
"http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txt
3) Hadoop Client
ServerName
ServerName
curl -i -X PUT -L
"http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txtServerName
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 41
DISK
CPU
HttpFS WebHDFS Hadoop
client
•どれも同じような動き
•HttpFS、WebHDFSはGateway
が動作しているノードだけ若干
CPUを利用している
リソースを使い切れていない
DBのように並列ロードする仕
組みを考えてみる
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
• 前提として、分割されたファイルを用意する
# ls /stage/files/|wc -l
50
• ファイルサイズは51GB
# du -sh /stage/files
51G /stage/files
• まずは普通にHDFSに書き込んで見る(シングルスレッド):
# time hadoop fs –put /stage/files/*hdfs://scaj43bda03:8020/tmp/load_test3
real 3m36.966s
• クライアントを複数起動して、同時にHDFSに書き込む
# for i in `ls /stage/files/`; do time hadoop fs -put /stage/files/$i
hdfs://scaj43bda03:8020/tmp/load_test3 2>&1 & done;
real 1m13.156s
Hadoop Clientから並列ロードをやってみよう
3分半かかる
約3倍の速さに
42
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 43
DISK
CPU
パラレル
ロード
シングル
ロード
•リソースは使い切れていない
ものの、シングルよりは大幅に
改善
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
1) パラレル WebHDFSロード
for i in `ls /stage/files/`; do time curl -i -X PUT -L
"http://scaj43bda02:50070/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i
2>&1 & done;
WebHDFS やHttpFSでも同様の効果があるか?
2) パラレルHttpFS ロード
for i in `ls /stage/files/`; do time curl -i -X PUT -L -H 'Content-Type:application/octet-stream'
"http://scaj43bda03:14000/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i;
2>&1 & done;
結果
•WebHDFSは、Hadoopクライアントと同等性能が測定された
•しかし、HttpFSには、ほとんど効果なし(Gatewayだけがんばる)
44
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
データロードに関する勘所
45
“マジな”Hadoop
導入の勘所⑧
データロードは、複数ファイルあれば並列化して高速ロードできる
・クライアントインストール可能な場合は Hadoop Client(操作が楽)
・インストール不可な場合はWebHDFSを利用
“マジな”Hadoop
導入の勘所⑨
Edgeサーバは必ず導入しましょう
・セキュリティ
・DNのローカルから実行すると、当該ノードにブロックが作成されるので偏りが起きる
Hadoop Cluster
HDFS nodes
Edge Server
Client
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
まとめ
46
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
エンタープライズユーザにHadoopを導入するための勘所
• スケールアウトするのは便利だけど。。。
– > IAサーバは故障するから、大規模構成にしすぎずにある程度の高集約サーバ
• セキュリティやバックアップの運用が心配
– > 機能は充足してきており充分に対応可能
• パフォーマンス
– >処理だけではなく、ロードの部分なども考慮して、より効果を高めよう
47
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 48
“マジな”Hadoop
導入の勘所⑩
RDBユーザのど真ん中を開拓する事で、Hadoopはもっと広がる!
・SPoFもなくなり、国内事例も増えてきており、Hadoopを静観する時期は過ぎた
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
ご清聴ありがとうございました
その他、Hadoop関連Oracle製品↓
www.slideshare.net/oracle4engineer/
oraclehadoop
49
Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 50
ご質問・ご相談等ございましたら、終了後もお受けしております
0120-155-096
(平日9:00-12:00 / 13:00-18:00)
http://www.oracle.com/jp/direct/index.html
各種無償支援サービスもございます。
Oracle Direct 検索
Oracle Direct
あなたにいちばん近いオラクル
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 51
Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 52
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

More Related Content

What's hot

【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
 

What's hot (20)

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
 
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りHiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on HadoopThe truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
 
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
 
(LT)Spark and Cassandra
(LT)Spark and Cassandra(LT)Spark and Cassandra
(LT)Spark and Cassandra
 
OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
 
Yahoo! JAPANでのHadoop利用について
Yahoo! JAPANでのHadoop利用についてYahoo! JAPANでのHadoop利用について
Yahoo! JAPANでのHadoop利用について
 
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
 
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
Apache Hiveの今とこれから
Apache Hiveの今とこれからApache Hiveの今とこれから
Apache Hiveの今とこれから
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 

Similar to Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

Similar to Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」 (20)

20161125 Asakusa Framework Day オラクル講演資料
20161125 Asakusa Framework Day オラクル講演資料20161125 Asakusa Framework Day オラクル講演資料
20161125 Asakusa Framework Day オラクル講演資料
 
Oracle R Advanced Analytics for Hadoop利用方法
Oracle R Advanced Analytics for Hadoop利用方法Oracle R Advanced Analytics for Hadoop利用方法
Oracle R Advanced Analytics for Hadoop利用方法
 
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
 
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
 
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
 
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
 
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
 
Oracle GoldenGate Veridata概要
Oracle GoldenGate Veridata概要Oracle GoldenGate Veridata概要
Oracle GoldenGate Veridata概要
 
Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介
 
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
 
[Oracle Innovation Summit Tokyo 2018] 基幹システムのクラウド化への挑戦
[Oracle Innovation Summit Tokyo 2018] 基幹システムのクラウド化への挑戦[Oracle Innovation Summit Tokyo 2018] 基幹システムのクラウド化への挑戦
[Oracle Innovation Summit Tokyo 2018] 基幹システムのクラウド化への挑戦
 
Oracle Cloudでエンタープライズシステムを!
Oracle Cloudでエンタープライズシステムを!Oracle Cloudでエンタープライズシステムを!
Oracle Cloudでエンタープライズシステムを!
 
【旧版】Oracle Database Cloud Service:サービス概要のご紹介 [2020年3月版]
【旧版】Oracle Database Cloud Service:サービス概要のご紹介 [2020年3月版]【旧版】Oracle Database Cloud Service:サービス概要のご紹介 [2020年3月版]
【旧版】Oracle Database Cloud Service:サービス概要のご紹介 [2020年3月版]
 
[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料
[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料
[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料
 
Oracle Cloud PaaS & IaaS:2018年9月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年9月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年9月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年9月度サービス情報アップデート
 
脱Excelで部門のデータ管理業務を 効率化するデータ活用クラウド
脱Excelで部門のデータ管理業務を効率化するデータ活用クラウド脱Excelで部門のデータ管理業務を効率化するデータ活用クラウド
脱Excelで部門のデータ管理業務を 効率化するデータ活用クラウド
 
Oracle Spatial 概要説明資料
Oracle Spatial 概要説明資料Oracle Spatial 概要説明資料
Oracle Spatial 概要説明資料
 
クラウド慎重派も納得!“社内パブリッククラウド”でセキュリティとコスト削減を両立 [Oracle Cloud Days Tokyo 2016]
クラウド慎重派も納得!“社内パブリッククラウド”でセキュリティとコスト削減を両立 [Oracle Cloud Days Tokyo 2016]クラウド慎重派も納得!“社内パブリッククラウド”でセキュリティとコスト削減を両立 [Oracle Cloud Days Tokyo 2016]
クラウド慎重派も納得!“社内パブリッククラウド”でセキュリティとコスト削減を両立 [Oracle Cloud Days Tokyo 2016]
 
Autonomous を支える技術、Oracle Database 18c デモンストレーション
Autonomous を支える技術、Oracle Database 18c デモンストレーションAutonomous を支える技術、Oracle Database 18c デモンストレーション
Autonomous を支える技術、Oracle Database 18c デモンストレーション
 
Tech deepdive#2 datastore_180317_share
Tech deepdive#2 datastore_180317_shareTech deepdive#2 datastore_180317_share
Tech deepdive#2 datastore_180317_share
 

More from オラクルエンジニア通信

More from オラクルエンジニア通信 (20)

Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
Oracle Cloud Infrastructure:2023年5月度サービス・アップデートOracle Cloud Infrastructure:2023年5月度サービス・アップデート
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
 
Oracle Cloud Infrastructure:2023年4月度サービス・アップデート
Oracle Cloud Infrastructure:2023年4月度サービス・アップデートOracle Cloud Infrastructure:2023年4月度サービス・アップデート
Oracle Cloud Infrastructure:2023年4月度サービス・アップデート
 
Oracle Cloud Infrastructure:2023年3月度サービス・アップデート
Oracle Cloud Infrastructure:2023年3月度サービス・アップデートOracle Cloud Infrastructure:2023年3月度サービス・アップデート
Oracle Cloud Infrastructure:2023年3月度サービス・アップデート
 
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
Oracle Cloud Infrastructure:2023年2月度サービス・アップデートOracle Cloud Infrastructure:2023年2月度サービス・アップデート
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
 
Oracle Cloud Infrastructure:2023年1月度サービス・アップデート
Oracle Cloud Infrastructure:2023年1月度サービス・アップデートOracle Cloud Infrastructure:2023年1月度サービス・アップデート
Oracle Cloud Infrastructure:2023年1月度サービス・アップデート
 
Oracle Cloud Infrastructure:2022年12月度サービス・アップデート
Oracle Cloud Infrastructure:2022年12月度サービス・アップデートOracle Cloud Infrastructure:2022年12月度サービス・アップデート
Oracle Cloud Infrastructure:2022年12月度サービス・アップデート
 
Oracle Cloud Infrastructure:2022年11月度サービス・アップデート
Oracle Cloud Infrastructure:2022年11月度サービス・アップデートOracle Cloud Infrastructure:2022年11月度サービス・アップデート
Oracle Cloud Infrastructure:2022年11月度サービス・アップデート
 
Oracle Cloud Infrastructure:2022年10月度サービス・アップデート
Oracle Cloud Infrastructure:2022年10月度サービス・アップデートOracle Cloud Infrastructure:2022年10月度サービス・アップデート
Oracle Cloud Infrastructure:2022年10月度サービス・アップデート
 
Oracle Cloud Infrastructure:2022年9月度サービス・アップデート
Oracle Cloud Infrastructure:2022年9月度サービス・アップデートOracle Cloud Infrastructure:2022年9月度サービス・アップデート
Oracle Cloud Infrastructure:2022年9月度サービス・アップデート
 
Oracle Cloud Infrastructure:2022年8月度サービス・アップデート
Oracle Cloud Infrastructure:2022年8月度サービス・アップデートOracle Cloud Infrastructure:2022年8月度サービス・アップデート
Oracle Cloud Infrastructure:2022年8月度サービス・アップデート
 
Oracle Cloud Infrastructure:2022年7月度サービス・アップデート
Oracle Cloud Infrastructure:2022年7月度サービス・アップデートOracle Cloud Infrastructure:2022年7月度サービス・アップデート
Oracle Cloud Infrastructure:2022年7月度サービス・アップデート
 
Oracle Cloud Infrastructure:2022年6月度サービス・アップデート
Oracle Cloud Infrastructure:2022年6月度サービス・アップデートOracle Cloud Infrastructure:2022年6月度サービス・アップデート
Oracle Cloud Infrastructure:2022年6月度サービス・アップデート
 
Oracle Cloud Infrastructure:2022年5月度サービス・アップデート
Oracle Cloud Infrastructure:2022年5月度サービス・アップデートOracle Cloud Infrastructure:2022年5月度サービス・アップデート
Oracle Cloud Infrastructure:2022年5月度サービス・アップデート
 
Oracle Cloud Infrastructure:2022年4月度サービス・アップデート
Oracle Cloud Infrastructure:2022年4月度サービス・アップデートOracle Cloud Infrastructure:2022年4月度サービス・アップデート
Oracle Cloud Infrastructure:2022年4月度サービス・アップデート
 
Oracle Cloud Infrastructure データベース・クラウド:各バージョンのサポート期間 (2022年4月版)
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間 (2022年4月版)Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間 (2022年4月版)
Oracle Cloud Infrastructure データベース・クラウド:各バージョンのサポート期間 (2022年4月版)
 
MySQL Technology Cafe #14 MySQL Shellを使ってもっと楽をしようの会
MySQL Technology Cafe #14 MySQL Shellを使ってもっと楽をしようの会MySQL Technology Cafe #14 MySQL Shellを使ってもっと楽をしようの会
MySQL Technology Cafe #14 MySQL Shellを使ってもっと楽をしようの会
 
Oracle Cloud Infrastructure:2022年3月度サービス・アップデート
Oracle Cloud Infrastructure:2022年3月度サービス・アップデートOracle Cloud Infrastructure:2022年3月度サービス・アップデート
Oracle Cloud Infrastructure:2022年3月度サービス・アップデート
 
Oracle Cloud Infrastructure:2022年2月度サービス・アップデート
Oracle Cloud Infrastructure:2022年2月度サービス・アップデートOracle Cloud Infrastructure:2022年2月度サービス・アップデート
Oracle Cloud Infrastructure:2022年2月度サービス・アップデート
 
Oracle Cloud Infrastructure:2022年1月度サービス・アップデート
Oracle Cloud Infrastructure:2022年1月度サービス・アップデートOracle Cloud Infrastructure:2022年1月度サービス・アップデート
Oracle Cloud Infrastructure:2022年1月度サービス・アップデート
 
Oracle Databaseはクラウドに移行するべきか否か 全10ケースをご紹介 (Oracle Cloudウェビナーシリーズ: 2021年11月30日)
Oracle Databaseはクラウドに移行するべきか否か 全10ケースをご紹介 (Oracle Cloudウェビナーシリーズ: 2021年11月30日)Oracle Databaseはクラウドに移行するべきか否か 全10ケースをご紹介 (Oracle Cloudウェビナーシリーズ: 2021年11月30日)
Oracle Databaseはクラウドに移行するべきか否か 全10ケースをご紹介 (Oracle Cloudウェビナーシリーズ: 2021年11月30日)
 

Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」

  • 1. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所 日本オラクル株式会社 クラウド・テクノロジー事業統括 Cloud/Big Data/DISプロダクト本部 立山 重幸 (Shigeyuki.Tateyama@oracle.com) Hadoop Conference Japan 2016
  • 2. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | • 以下の事項は、弊社の一般的な製品の方向性に関する概要を説明する ものです。また、情報提供を唯一の目的とするものであり、いかなる契約 にも組み込むことはできません。以下の事項は、マテリアルやコード、機 能を提供することをコミットメント(確約)するものではないため、購買決定 を行う際の判断材料になさらないで下さい。オラクル製品に関して記載さ れている機能の開発、リリースおよび時期については、弊社の裁量により 決定されます。 2 OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。 文中の社名、商品名等は各社の商標または登録商標である場合があります。
  • 3. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 本日のお話 3 Hadoop エキスパート Hadoopを導入する人 Hadoop入門した人 Hadoop知らない人 HDFSやMapReduceの概要は理 解したが、実際のHadoop導入と なると壁の高さを感じてしまう人 のためのワダチ的な内容です。
  • 4. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopの現在地と エンタープライズのお客様に提案する際の 論点 4
  • 5. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 50万社データベースユーザ 5 As of 2016 3000社ビッグデータユーザ 出典:ビッグデータが「みんなのもの」に? オラクルが予測する2016年の見通し http://www.oracle.com/jp/corporate/features/pr/b ig-data-for-all-oracles-2016-predictions/index.html
  • 6. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 6 As of 2016 数万社ビッグデータユーザ 出典:ビッグデータが「みんなのもの」に? オラクルが予測する2016年の見通し http://www.oracle.com/jp/corporate/features/pr/b ig-data-for-all-oracles-2016-predictions/index.html RDBユーザが、ど真ん中で Hadoopも利用
  • 7. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopの現在地 • 2016年Big Data市場における Hadoopの普及率は約22% • キャズムを超えて、アーリーマジョ リティへの導入が進んでいる 7 出典:Hortonworks Inc. Big Data & Hadoop Market 2.5% 13.5% 34% 34% 16% イノベーター アーリー アダプター アーリー マジョリティ レイト マジョリティ ラガード キャズム 16% 22%
  • 8. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 2016/10/29 日本オラクル プレスリリース セブン&アイ・ホールディングス様 8 • 「いつでも、どこでも、スムーズに、お客様が求める商 品を購入でき、人に紹介したくなるサービス」をコンセ プト に、国内1万9,000以上の店舗とインターネット販 売を融合させるオムニチャネルの構築を推進 • 2016年11月1日グループ横断型の新通販サイト 「omni7(オムニセブン)」を開設 • ネットとリアルの融合と複数事業体のシームレスな連 携を可能にするオムニチャネルを実現するため、IT基 盤を新たに構築 • ネットや実店舗から発生する膨大なデータを セキュアに蓄積、管理、分 析 • オラクルのエンジニアド・システムやクラウドなど最先 端の技術を駆 使したオラクル製品の包括的な導入 (Oracle Big Data Appliance含) 2016/10/29 日本オラクルプレスリリースより抜粋
  • 9. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 構造データ 9 MES 機器ログ ERP ソース 収集 蓄積 DWH Data Visualization Analytics Platform 分析 • これまでの取り組み – ERPをグローバルシングルインスタンス化 • Oracle Applicationsを活用 • 業務プロセス標準化、ITコスト削減($7.7M) – グローバルKPIシステム(DWH)を構築 • Exadata、Exalyticsを活用 • 世界中の各生産ラインの生産状況や歩留情報、 在庫情報、販売情報のKPIを可視化 • 影響分析等、効率的な工場管理が可能に • 新たな課題 – 長期間データの蓄積、分析が不可 • 毎24時間毎にデータ収集が必要 – サマリデータのみが分析対象のため、 詳細かつ正確な分析ができない、工数増大 バッチデータフロー インテラクティブなデータフロー お客様 事例① 製造業 機器データ活用により、詳細な生産状況の分析を実現 某グローバル製造業様
  • 10. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 非構造 データ 構造データ 10 MES 機器ログ ERP 音声 ビデオ テキスト ソーシャル ソース 収集 蓄積 DWH データ 貯蔵庫 Data Visualization Analytics Platform 分析 • 新たな取り組み – 既存DWHの隣に、データ貯蔵庫を構築 • Oracle Big Data Applianceを活用 • MES、装置の詳細かつ長期間データを リアルタイムに取得 • 効果 – 生産工程における新たなデータ分析を実現 • 長期間でのデータ分析の実現 • 生産条件最適化のための分析 • 操業率低下の原因分析 • 複数のセル-モジュールをまたいだ原因分析 • 品質の可視化 – データ分析の効率化 • データ分析作業の期間短縮 • 対象データのカバレッジ(種類、量、期間) バッチデータフロー インテラクティブなデータフロー マスター、 サマリー、 詳細データ サマリー 分析結果 アーカイブ お客様 事例① 製造業 機器データ活用により、詳細な生産状況の分析を実現 某グローバル製造業様
  • 11. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 11 • メインフレーム・ダウンサイジング – MIPS:30%削減 – バッチ処理時間:50%削減 • Exadata+Big Data Appliance(Hadoop 基 盤)のハイブリッド構成 – 既存データマートの集約 – OPEX:約40% 削減 • データ配布モデルの近代化 – 「データありき」 vs 「スキーマ/モデルありき」 – 顧客360°ビューの実現 お客様 事例② 金融業 ITコスト削減と、情報の一元化によるビジネス変革実現 La Caixa様メインフレームテープ サブシステム・DWHバッチ処理 レポート Data Reservoir (Hadoop) ソーシャルデータ 顧客情報 決済情報 バッチ処理の削減による コスト削減メインフレーム およびテープ上の ストレステスト データの移行 レポート 顧客360° DWH (RDBMS)
  • 12. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 弊社が提案するビッグデータの特徴 • ビッグデータ = RDB + Hadoop ⇒RDBと同等のSLAが求められる事が多い 12 提案構成例
  • 13. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | SLAを満たすためのHadoop基盤検討ポイント(非機能) • サーバ構成 – 従来通りのベストプラクティスで良いのか? • バックアップ – どこにどうやって取るべきか? • セキュリティ – 認証、暗号化 • パフォーマンス – ロード 13
  • 14. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | サーバ構成 14
  • 15. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ①サーバ構成の考え方 15 Hadoopベストプラクティス 提案時におけるお客様からの指摘 安いIAサーバを、たくさん積んでください PXEやPuppetを組み合わせれば運用も楽です 会社の方針でサーバ統合している中で数百台の サーバ導入は説明がつかない 故障率1%として、300台クラスタの場合、ほとんど毎 日故障が発生する事になるため許容されない 初期サイジングより増えた場合にデータセンターに 場所がなくなってしまう “マジな”Hadoop 導入の勘所① パフォーマンスと運用を鑑みた、ある程度の集約を意識した分散構成を組む 例)10PBクラスタの場合 4TB HDD × 8本 ⇒ 313台(ラック18台分) 8TB HDD × 12本 ⇒ 105台(ラック6台分)
  • 16. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ②ネットワークの考え方 16 Hadoopベストプラクティス 提案時におけるお客様からの指摘 DN内で処理をして、DN間はほとんどデータ転送が 発生しないのでノード間は細い線でも大丈夫 バックアップデータをクラスタに復旧させる際にボト ルネックになるのでは? DNが破損した時のリバランス処理は問題にならな いか? “マジな”Hadoop 導入の勘所② ノード間の結線は10GbE以上が望ましい 多少コスト高になったとしても、安定的な運用を求められる
  • 17. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ③番外編 17 Hadoopベストプラクティス 提案時におけるお客様からの指摘 Master とSlaveは、別構成にすべき 理屈はわかるが、本番、開発、テスト、DRそれぞれ にMasterだけの役割のノードを持たせるのは無駄 が多い “マジな”Hadoop 導入の勘所③ 最近はNNとDNは同居する事も可能 メモリが128GB以上あればNNの管理領域が不足するケースは少ない
  • 18. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | バックアップ 18
  • 19. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ④バックアップ 19 Hadoopベストプラクティス 提案時におけるお客様からの指摘 ログ等非クリティカルなデータである(従来捨ててい た)ため、バックアップは必須ではない データは3重化されているため、メタデータだけバッ クアップしておけば十分 エンドユーザは裏がHadoopだろうがRDBだろうが気 にしない ⇒弊社のポリシーに準拠して提案してください “マジな”Hadoop 導入の勘所④ HadoopのバックアップはHadoopで! バックアップのために、NASやTapeを提案するとHadoopのコストメ リットが薄らいでしまう (StorageServerに仕事をさせるのが、Hadoopの売りなのに)
  • 20. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | クラスター分割はエンドユーザからのBigクエリ対策にも有効 20 •Hadoop to Hadoopであればコピー先を参照用として利用するなど、運用の幅が広がる (リソース制御やセキュリティ制御などにも有用) ソース Hadoop #1 バッチ利用 ターゲット Hadoop #2 バックアップ、データ参照 Hadoop Cluster #1 バッチ処理 Hadoop Cluster #2 データ参照 (Sandbox) バック アップ
  • 21. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 基本的なバックアップ要件は、Hadoopだけでも対応可能 21 バックアップ要件例 Hadoopにおける対応 バックアップの断面が取得可能であること Snapshot ・対象ディレクトリのブロックをReadOnlyで参照する仕組み ・複数バージョン取得可 ・バージョン間の比較も可 クラスタ停止時間以内にバックアップが完了すること DistCp ・複数mapperが並列で他Hadoopに並列コピーする ・差分更新も可能 Hiveメタ情報とHDFSの同期が取れていること 作り込み ⇒Cloudera BDR (Backup & Disaster Recovery)などで対応 リアルタイムに同期が取れていること Hadoop to Hadoop かなり大変 ⇒ Wandiscoなどで対応 DB to Hadoop かなり大変 ⇒Oracle GoldenGateなどで対応
  • 22. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 使い方も簡単 22 ①snapshot作成の許可 -bash-4.1$ hdfs dfsadmin -allowSnapshot /tmp/26860-tera-in Allowing snaphot on /tmp/26860-tera-in succeeded 100GBのデータ ②snapshotの作成 -bash-4.1$ hdfs dfs -createSnapshot /tmp/26860-tera-in Created snapshot /tmp/26860-tera-in/.snapshot/s20160125-174328.432 .snapshotディレクトリに ReadOnlyとして作成される ③DistCPによる他クラスタへのレプリケーション --bash-4.1$ hadoop distcp -atomic /tmp/26860-tera-in/.snapshot/s20160125-174328.4 32 webhdfs://benkei01/tmp/26860-tera-in/ ・・・ 16/01/27 15:38:34 INFO mapreduce.Job: map 0% reduce 0% 16/01/27 15:38:45 INFO mapreduce.Job: map 2% reduce 0% ・・・ 16/01/27 15:48:04 INFO mapreduce.Job: Job job_1452235540015_0003 completed successfully Mapperが並列にコピー
  • 23. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | セキュリティ 23
  • 24. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 無防備なHadoopクラスタ (Security Level 0) 検証環境では、ありがちな構成 • Hadoopクライアント – 認証なし – どの端末からもアクセス可能 • Beeline , JDBCクライアント – HiveServer2になりすまし認証 24 Hadoop Cluster HDFS YARN HIVE 管理画面 Hadoop Client OSユーザ JDBC JDBCユーザ ブラウザ
  • 25. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopのセキュリティ機能概要 25 セキュアなHadoop環境を実現可能 分類 機能 対応ツール例 認証 ユーザーの認証 Apache Hadoopのベース機能(Kerberos認証) 認可 Hive, ImpalaでのRole単位での認可 Sentry 暗号化 通信路の暗号化 Apache Hadoopのベース機能 保存データの暗号化・マスキング HDFSの暗号化 監査 監査の取得・レポーティング 3rd Party Tool
  • 26. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopの認証機能 • Hadoopの認証では以下の2つの設定がある –認証なし: クライアント側のOSユーザーをHadoopユーザーとして認識 –Kerberos認証 “マジな”Hadoop 導入の勘所⑤ Edgeサーバ+Kerberos認証の設定はHadoopのセキュリティ設定のスタート地点 •悪意のあるユーザーがクライアントにhdfs OSユーザーを作成し、hdfsユーザーで HDFSユーザーでHadoopにアクセスすると全データを操作できてしまう ⇒不特定多数の端末からアクセスさせない
  • 27. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Security Level 1:エッジサーバを介したアクセス • 不特定多数からHadoopクラスタ にアクセスさせない – 利用者は、エッジサーバにログイン した上で、Hadoopを操作する 27 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall
  • 28. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Security Level 2:Kerberos認証 • Kerberos,LDAPによるユーザ認証 – 利用者は、認証サーバに許可を取 得した上で利用する • 余談 – SqoopでRDB連携する時は、 Oracle walletで鍵アクセス可能 28 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall KRB5 LDAP 認証
  • 29. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Security Level 3:認可、暗号化 • Hadoopそのものも守る – RBAC • HDFSのアクセス権設定 • SentryによるHive表等のアクセス制御 – データ暗号化 • HDFS Data at Rest Encryption – 監査 • HDFS監査ログ • Cloudera Navigator • Oracle Audit Vault & Database Firewall • etc 29 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall KRB5 LDAP 認証 Sentry HDFS Encryption Audit
  • 30. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS Encryptionのアーキテクチャ • HDFSクライアントが扱うファイルの暗号化・復号を担当 • Encryption Zoneごとに鍵が存在 Encryption Zone Key = EZK EZKは鍵管理を行うコンポーネントであるKMSが管理。 ただし、EZKを使って個々のファイルを暗号化するわけではない • Encryption Zone 内のファイルごとに鍵をKMSが生成 Data Encryption Key = DEK • ただしDEKをそのまま保管するのは危険なため、DEKをEZKで暗 号化したencrypted DEK = EDEKをNameNodeにメタデータの一部 として保持 • NameNodeの管理権限のある(OS上のファイルとしてEDEKを不 正に取得することもできる)HDFS管理ユーザーにKMSに対する 権限を与えないように設定をしておく(ブラックリスト) 30
  • 31. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS Encryptionのアーキテクチャ • Keystore – keystoreは、 Key Management Server (KMS)の鍵保管を行う – 通常はファイルベースの keystore(Java KeyStore) – Clouderaの場合Cloudera Navigator Key Trustee Server(PostgreSQL) 31
  • 32. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 1/3 32 ①HDFSの暗号化ゾーンを作成 [oracle@server01 ~]# kinit hdfs@EXA.JP.ORACLE.COM Password for hdfs@EXA.JP.ORACLE.COM: [oracle@server01 ~]# hdfs dfs -mkdir /cipher [oracle@server01 ~]# hdfs dfs -mkdir /plain [oracle@server01 ~]# hadoop key create nokk [oracle@server01 ~]# hdfs crypto -createZone -keyName nokk -path /cipher Added encryption zone /cipher [oracle@server01 ~]# hdfs crypto -listZones /cipher nokk Kerberos認証 暗号化ゾーン作成 [oracle@server01 ~]# echo テストデータ > /oracle/テスト [oracle@server01 ~]# hdfs dfs -put /oracle/テスト /cipher/ [oracle@server01 ~]# hdfs dfs -put /oracle/テスト /plain/ ②テストデータをHDFSに保存 「テスト」というファイルを暗号化、非暗号化に配置
  • 33. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 2/3 33 ③HDFSのブロック番号を検索 [oracle@server01 ~]# hdfs fsck /cipher/テスト -files -blocks Connecting to namenode via http://server02.exa.jp.oracle.com:50070 FSCK started by test (auth:KERBEROS_SSL) from /xxx.xxx.xx.xx for path /cipher/テスト at Thu Dec 10 11:34:06 JST 2016 /cipher/テスト 19 bytes, 1 block(s): OK 0. BP-529482047-192.168.21.81-1448469031064:blk_1073773664_32840 len=19 repl=3 以下略 暗号化ファイルのブロック [oracle@server01 ~]# find /u[0-1][0-9] -name blk_1073773664 /u07/hadoop/dfs/current/BP-529482047-192.168.21.81- 1448469031064/current/finalized/subdir0/subdir124/blk_1073773664 ④ブロックの場所を検索 当該ブロックの絶対パス /cipher/テスト blk_1073773664 /plain/テスト blk_1073773668 IPadress IPadress
  • 34. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 3/3 34 ⑤ファイルの中身の確認 [oracle@server01 ~]# cat /u07/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/ current/finalized/subdir0/subdir124/blk_1073773664 ▒▒▒qqa>▒▒▒▒▒▒Λ`▒ [oracle@server01 ~]# cat /u03/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/ current/finalized/subdir0/subdir124/blk_1073773668 テストデータ 暗号化ファイルされたファイル IPadress IPadress 暗号化されていないファイル “マジな”Hadoop 導入の勘所⑥ お客様のデータはHadoopでもしっかり守れます! •ディスク交換を頻繁に行うシステムだからこそ、しっかり暗号化が必要
  • 35. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | HDFS暗号化のパフォーマンス劣化が心配なんだけど。。。 35 出典: Intel® Xeon® Processor E5-2600 v3 Accelerates Hadoop HDFS Encryption http://www.intel.com/newsroom/kits/xeon/e7v3/pdfs/Xeo n_E7v3_Cloudera-aes-ni.pdf 暗号化による劣化はReadで5% Writeはほぼなし ベンチマークterasortの結果は1% “マジな”Hadoop 導入の勘所⑦ HDFS暗号化のデメリットは少ない •処理能力が大幅に劣化するというのは都市伝説。
  • 36. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | パフォーマンス 36
  • 37. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopに出し入れする処の話 37 + ストアド プロシジャ File -> Hadoop MapReduce Hadoop -> DB ここの話 •MapReduceやSparkが早いのは当たり前(数台 VS 数百台) •ただし、ロードの部分を何とかしないと全体のスループットとして効果が薄い
  • 38. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoop連携技術はたくさんあるけど、何を選べば良い? 38 Stream loadingBatch loading Kafka Flume GoldenGate HDFS Put Kite CLI distcp sqoop WebHDFS HttpFS •エコシステムはたくさんあって便利ですが、セキュリティやリソース制御とか監視な どを考えると、可能な限り万能選手を厳選して利用したい
  • 39. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | バッチロードツールの比較 Hadoop Client Httpfs WebHDFS Edgeサーバへ のインストール 必要 不要 不要 Hadoop側の GateWay有無 無 必要(SPoF) 無(動的) 使いやすさ ◎ コマンドライン ○ HTTP REST API ○ HTTP REST API パフォーマンス 思っていたより遅い(1ファイル1スレッド処理) 39 Hadoop Cluster HDFS nodes Edge Server Client
  • 40. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | hadoop fs -put test hdfs://scaj43bda02:8020/tmp/test31; curl -i -X PUT -L -H 'Content-Type:application/octet-stream' "http://scaj43bda03:14000/webhdfs/v1/tmp/test11?op=CREATE&user.name=root" -T test.txt; ロードパフォーマンスの違いを比較してみた 40 コマンドは以下の通り: 1) HttpFS 2) WebHDFS curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txt 3) Hadoop Client ServerName ServerName curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txtServerName
  • 41. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 41 DISK CPU HttpFS WebHDFS Hadoop client •どれも同じような動き •HttpFS、WebHDFSはGateway が動作しているノードだけ若干 CPUを利用している リソースを使い切れていない DBのように並列ロードする仕 組みを考えてみる
  • 42. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | • 前提として、分割されたファイルを用意する # ls /stage/files/|wc -l 50 • ファイルサイズは51GB # du -sh /stage/files 51G /stage/files • まずは普通にHDFSに書き込んで見る(シングルスレッド): # time hadoop fs –put /stage/files/*hdfs://scaj43bda03:8020/tmp/load_test3 real 3m36.966s • クライアントを複数起動して、同時にHDFSに書き込む # for i in `ls /stage/files/`; do time hadoop fs -put /stage/files/$i hdfs://scaj43bda03:8020/tmp/load_test3 2>&1 & done; real 1m13.156s Hadoop Clientから並列ロードをやってみよう 3分半かかる 約3倍の速さに 42
  • 43. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 43 DISK CPU パラレル ロード シングル ロード •リソースは使い切れていない ものの、シングルよりは大幅に 改善
  • 44. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 1) パラレル WebHDFSロード for i in `ls /stage/files/`; do time curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i 2>&1 & done; WebHDFS やHttpFSでも同様の効果があるか? 2) パラレルHttpFS ロード for i in `ls /stage/files/`; do time curl -i -X PUT -L -H 'Content-Type:application/octet-stream' "http://scaj43bda03:14000/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i; 2>&1 & done; 結果 •WebHDFSは、Hadoopクライアントと同等性能が測定された •しかし、HttpFSには、ほとんど効果なし(Gatewayだけがんばる) 44
  • 45. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | データロードに関する勘所 45 “マジな”Hadoop 導入の勘所⑧ データロードは、複数ファイルあれば並列化して高速ロードできる ・クライアントインストール可能な場合は Hadoop Client(操作が楽) ・インストール不可な場合はWebHDFSを利用 “マジな”Hadoop 導入の勘所⑨ Edgeサーバは必ず導入しましょう ・セキュリティ ・DNのローカルから実行すると、当該ノードにブロックが作成されるので偏りが起きる Hadoop Cluster HDFS nodes Edge Server Client
  • 46. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | まとめ 46
  • 47. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | エンタープライズユーザにHadoopを導入するための勘所 • スケールアウトするのは便利だけど。。。 – > IAサーバは故障するから、大規模構成にしすぎずにある程度の高集約サーバ • セキュリティやバックアップの運用が心配 – > 機能は充足してきており充分に対応可能 • パフォーマンス – >処理だけではなく、ロードの部分なども考慮して、より効果を高めよう 47
  • 48. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 48 “マジな”Hadoop 導入の勘所⑩ RDBユーザのど真ん中を開拓する事で、Hadoopはもっと広がる! ・SPoFもなくなり、国内事例も増えてきており、Hadoopを静観する時期は過ぎた
  • 49. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | ご清聴ありがとうございました その他、Hadoop関連Oracle製品↓ www.slideshare.net/oracle4engineer/ oraclehadoop 49
  • 50. Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 50 ご質問・ご相談等ございましたら、終了後もお受けしております 0120-155-096 (平日9:00-12:00 / 13:00-18:00) http://www.oracle.com/jp/direct/index.html 各種無償支援サービスもございます。 Oracle Direct 検索 Oracle Direct あなたにいちばん近いオラクル
  • 51. Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 51
  • 52. Copyright © 2016, Oracle and/or its affiliates. All rights reserved. | 52