Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
Cloudera Japan
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
MapR Technologies Japan
HiveとImpalaのおいしいとこ取り
Yukinori Suda
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
1
of
53
Top clipped slide
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Feb. 8, 2016
•
0 likes
12 likes
×
Be the first to like this
Show More
•
4,697 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Software
2016/2/9に実施されたHadoop Conference Japan 2016でのセッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」のセッション資料です
オラクルエンジニア通信
Follow
オラクルエンジニア通信
Advertisement
Advertisement
Advertisement
Recommended
オラクルのHadoopソリューションご紹介
オラクルエンジニア通信
4.7K views
•
117 slides
日々進化するHadoopの 「いま」
NTT DATA OSS Professional Services
26.6K views
•
19 slides
20190314 PGStrom Arrow_Fdw
Kohei KaiGai
3.9K views
•
49 slides
HAWQをCDHで動かしてみた
adachij2002
586 views
•
11 slides
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
15.6K views
•
21 slides
CDHの歴史とCDH5新機能概要 #at_tokuben
Cloudera Japan
7.9K views
•
40 slides
More Related Content
Slideshows for you
(20)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
•
3.2K views
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
•
5.9K views
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
Cloudera Japan
•
2.1K views
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
•
3.4K views
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
MapR Technologies Japan
•
6.9K views
HiveとImpalaのおいしいとこ取り
Yukinori Suda
•
4.7K views
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
•
10.5K views
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
•
1.7K views
0151209 Oracle DDD OracleとHadoop連携の勘所
オラクルエンジニア通信
•
1.7K views
(LT)Spark and Cassandra
datastaxjp
•
1.9K views
OpenStack, Hadoop -- OSSクラウドの最新動向
Masanori Itoh
•
3.3K views
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
•
3K views
Yahoo! JAPANでのHadoop利用について
Yahoo!デベロッパーネットワーク
•
5.7K views
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Cloudera Japan
•
3.6K views
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
オラクルエンジニア通信
•
2.7K views
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
Insight Technology, Inc.
•
5.2K views
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
•
20.8K views
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
•
25.4K views
Apache Hiveの今とこれから
Yifeng Jiang
•
15.7K views
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
•
5.9K views
Similar to Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
(20)
20161125 Asakusa Framework Day オラクル講演資料
オラクルエンジニア通信
•
1.3K views
Oracle R Advanced Analytics for Hadoop利用方法
オラクルエンジニア通信
•
5.6K views
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
•
593 views
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
オラクルエンジニア通信
•
1.1K views
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
•
920 views
エンタープライズ・クラウドのシステム・デザイン・パターン [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
•
813 views
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
オラクルエンジニア通信
•
33.3K views
Oracle GoldenGate Veridata概要
オラクルエンジニア通信
•
2.7K views
Oracle Big Data SQL3.1のご紹介
オラクルエンジニア通信
•
1.3K views
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
オラクルエンジニア通信
•
739 views
[Oracle Innovation Summit Tokyo 2018] 基幹システムのクラウド化への挑戦
オラクルエンジニア通信
•
465 views
Oracle Cloudでエンタープライズシステムを!
oracle_consultant
•
83 views
【旧版】Oracle Database Cloud Service:サービス概要のご紹介 [2020年3月版]
オラクルエンジニア通信
•
691 views
[VMware Partner Exchange Tokyo 14Apr2014] ネットアップセッション資料
NetApp Japan
•
2.2K views
Oracle Cloud PaaS & IaaS:2018年9月度サービス情報アップデート
オラクルエンジニア通信
•
1.2K views
脱Excelで部門のデータ管理業務を効率化するデータ活用クラウド
オラクルエンジニア通信
•
2.5K views
Oracle Spatial 概要説明資料
オラクルエンジニア通信
•
5.2K views
クラウド慎重派も納得!“社内パブリッククラウド”でセキュリティとコスト削減を両立 [Oracle Cloud Days Tokyo 2016]
オラクルエンジニア通信
•
214 views
Autonomous を支える技術、Oracle Database 18c デモンストレーション
オラクルエンジニア通信
•
2.2K views
Tech deepdive#2 datastore_180317_share
オラクルエンジニア通信
•
3.8K views
Advertisement
More from オラクルエンジニア通信
(20)
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
オラクルエンジニア通信
•
31 views
Oracle Cloud Infrastructure:2023年4月度サービス・アップデート
オラクルエンジニア通信
•
51 views
Oracle Cloud Infrastructure:2023年3月度サービス・アップデート
オラクルエンジニア通信
•
48 views
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
オラクルエンジニア通信
•
85 views
Oracle Cloud Infrastructure:2023年1月度サービス・アップデート
オラクルエンジニア通信
•
37 views
Oracle Cloud Infrastructure:2022年12月度サービス・アップデート
オラクルエンジニア通信
•
74 views
Oracle Cloud Infrastructure:2022年11月度サービス・アップデート
オラクルエンジニア通信
•
93 views
Oracle Cloud Infrastructure:2022年10月度サービス・アップデート
オラクルエンジニア通信
•
135 views
Oracle Cloud Infrastructure:2022年9月度サービス・アップデート
オラクルエンジニア通信
•
147 views
Oracle Cloud Infrastructure:2022年8月度サービス・アップデート
オラクルエンジニア通信
•
183 views
Oracle Cloud Infrastructure:2022年7月度サービス・アップデート
オラクルエンジニア通信
•
124 views
Oracle Cloud Infrastructure:2022年4月度サービス・アップデート
オラクルエンジニア通信
•
1K views
Oracle Cloud Infrastructure:2022年1月度サービス・アップデート
オラクルエンジニア通信
•
2K views
Oracle Databaseはクラウドに移行するべきか否か 全10ケースをご紹介 (Oracle Cloudウェビナーシリーズ: 2021年11月30日)
オラクルエンジニア通信
•
1.3K views
Oracle Cloud Infrastructure:2021年12月度サービス・アップデート
オラクルエンジニア通信
•
1.3K views
【旧版】Oracle Gen 2 Exadata Cloud@Customer:サービス概要のご紹介 [2021年12月版]
オラクルエンジニア通信
•
737 views
あなたのクラウドは大丈夫?NRI実務者が教えるセキュリティの傾向と対策 (Oracle Cloudウェビナーシリーズ: 2021年11月24日)
オラクルエンジニア通信
•
690 views
Oracle Cloud Infrastructure:2021年11月度サービス・アップデート
オラクルエンジニア通信
•
1.7K views
第18回しゃちほこオラクル俱楽部
オラクルエンジニア通信
•
625 views
第17回しゃちほこオラクル俱楽部
オラクルエンジニア通信
•
275 views
Recently uploaded
(20)
国外学历【尼尔森理工学院研究生文凭毕业证留学生首选】
jsad789
•
2 views
JSUG Info Vol.13
Draft One
•
2 views
☀️《URI毕业证仿真》
sada332
•
2 views
HCL Sametime V12 概要
Software Info HCL Japan
•
193 views
①【卡毕兰诺大学毕业证文凭学位证书|工艺完美复刻】
love445ds
•
2 views
留信网认证可查【堪萨斯大学文凭证书毕业证购买】
1lkjhg
•
2 views
☀️《USD毕业证仿真》
jjkjkijk
•
2 views
留信网认证可查【俄克拉荷马大学文凭证书毕业证购买】
1lkjhg
•
2 views
☀️【斯旺西大学毕业证成绩单留学生首选】
25mjhd12
•
2 views
WEB-jsug info14_final.pdf
Draft One
•
4 views
☀️【密德萨斯大学毕业证成绩单留学生首选】
25mjhd12
•
6 views
留信网认证可查【伊利诺伊理工学院文凭证书毕业证购买】
1lkjhg
•
2 views
FIWARE Orion Context Broker コンテキスト情報管理 (Orion 3.9.0対応)
fisuda
•
0 views
①【诺丁汉大学毕业证文凭学位证书|工艺完美复刻】
0987hgh789
•
2 views
☀️【波恩大学毕业证成绩单留学生首选】
bjd42as
•
2 views
測量データ処理ソフト・MarineDiscoveryの紹介
ssuserbceee8
•
38 views
留信网认证可查【威得恩大学文凭证书毕业证购买】
32lkhng
•
2 views
留信网认证可查【艾格伍学院文凭证书毕业证购买】
32lkhng
•
2 views
在哪里可以做《南安普顿大学文凭证书|毕业证》
1232hdjk
•
2 views
留信网认证可查【南安普顿大学文凭证书毕业证购买】
32lkhng
•
2 views
Advertisement
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
Copyright © 2014
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所 日本オラクル株式会社 クラウド・テクノロジー事業統括 Cloud/Big Data/DISプロダクト本部 立山 重幸 (Shigeyuki.Tateyama@oracle.com) Hadoop Conference Japan 2016
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | • 以下の事項は、弊社の一般的な製品の方向性に関する概要を説明する ものです。また、情報提供を唯一の目的とするものであり、いかなる契約 にも組み込むことはできません。以下の事項は、マテリアルやコード、機 能を提供することをコミットメント(確約)するものではないため、購買決定 を行う際の判断材料になさらないで下さい。オラクル製品に関して記載さ れている機能の開発、リリースおよび時期については、弊社の裁量により 決定されます。 2 OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。 文中の社名、商品名等は各社の商標または登録商標である場合があります。
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 本日のお話 3 Hadoop エキスパート Hadoopを導入する人 Hadoop入門した人 Hadoop知らない人 HDFSやMapReduceの概要は理 解したが、実際のHadoop導入と なると壁の高さを感じてしまう人 のためのワダチ的な内容です。
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | Hadoopの現在地と エンタープライズのお客様に提案する際の 論点 4
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 50万社データベースユーザ 5 As of 2016 3000社ビッグデータユーザ 出典:ビッグデータが「みんなのもの」に? オラクルが予測する2016年の見通し http://www.oracle.com/jp/corporate/features/pr/b ig-data-for-all-oracles-2016-predictions/index.html
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 6 As of 2016 数万社ビッグデータユーザ 出典:ビッグデータが「みんなのもの」に? オラクルが予測する2016年の見通し http://www.oracle.com/jp/corporate/features/pr/b ig-data-for-all-oracles-2016-predictions/index.html RDBユーザが、ど真ん中で Hadoopも利用
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopの現在地 • 2016年Big Data市場における Hadoopの普及率は約22% • キャズムを超えて、アーリーマジョ リティへの導入が進んでいる 7 出典:Hortonworks Inc. Big Data & Hadoop Market 2.5% 13.5% 34% 34% 16% イノベーター アーリー アダプター アーリー マジョリティ レイト マジョリティ ラガード キャズム 16% 22%
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 2016/10/29 日本オラクル プレスリリース セブン&アイ・ホールディングス様 8 • 「いつでも、どこでも、スムーズに、お客様が求める商 品を購入でき、人に紹介したくなるサービス」をコンセ プト に、国内1万9,000以上の店舗とインターネット販 売を融合させるオムニチャネルの構築を推進 • 2016年11月1日グループ横断型の新通販サイト 「omni7(オムニセブン)」を開設 • ネットとリアルの融合と複数事業体のシームレスな連 携を可能にするオムニチャネルを実現するため、IT基 盤を新たに構築 • ネットや実店舗から発生する膨大なデータを セキュアに蓄積、管理、分 析 • オラクルのエンジニアド・システムやクラウドなど最先 端の技術を駆 使したオラクル製品の包括的な導入 (Oracle Big Data Appliance含) 2016/10/29 日本オラクルプレスリリースより抜粋
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 構造データ 9 MES 機器ログ ERP ソース 収集 蓄積 DWH Data Visualization Analytics Platform 分析 • これまでの取り組み – ERPをグローバルシングルインスタンス化 • Oracle Applicationsを活用 • 業務プロセス標準化、ITコスト削減($7.7M) – グローバルKPIシステム(DWH)を構築 • Exadata、Exalyticsを活用 • 世界中の各生産ラインの生産状況や歩留情報、 在庫情報、販売情報のKPIを可視化 • 影響分析等、効率的な工場管理が可能に • 新たな課題 – 長期間データの蓄積、分析が不可 • 毎24時間毎にデータ収集が必要 – サマリデータのみが分析対象のため、 詳細かつ正確な分析ができない、工数増大 バッチデータフロー インテラクティブなデータフロー お客様 事例① 製造業 機器データ活用により、詳細な生産状況の分析を実現 某グローバル製造業様
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 非構造 データ 構造データ 10 MES 機器ログ ERP 音声 ビデオ テキスト ソーシャル ソース 収集 蓄積 DWH データ 貯蔵庫 Data Visualization Analytics Platform 分析 • 新たな取り組み – 既存DWHの隣に、データ貯蔵庫を構築 • Oracle Big Data Applianceを活用 • MES、装置の詳細かつ長期間データを リアルタイムに取得 • 効果 – 生産工程における新たなデータ分析を実現 • 長期間でのデータ分析の実現 • 生産条件最適化のための分析 • 操業率低下の原因分析 • 複数のセル-モジュールをまたいだ原因分析 • 品質の可視化 – データ分析の効率化 • データ分析作業の期間短縮 • 対象データのカバレッジ(種類、量、期間) バッチデータフロー インテラクティブなデータフロー マスター、 サマリー、 詳細データ サマリー 分析結果 アーカイブ お客様 事例① 製造業 機器データ活用により、詳細な生産状況の分析を実現 某グローバル製造業様
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 11 • メインフレーム・ダウンサイジング – MIPS:30%削減 – バッチ処理時間:50%削減 • Exadata+Big Data Appliance(Hadoop 基 盤)のハイブリッド構成 – 既存データマートの集約 – OPEX:約40% 削減 • データ配布モデルの近代化 – 「データありき」 vs 「スキーマ/モデルありき」 – 顧客360°ビューの実現 お客様 事例② 金融業 ITコスト削減と、情報の一元化によるビジネス変革実現 La Caixa様メインフレームテープ サブシステム・DWHバッチ処理 レポート Data Reservoir (Hadoop) ソーシャルデータ 顧客情報 決済情報 バッチ処理の削減による コスト削減メインフレーム およびテープ上の ストレステスト データの移行 レポート 顧客360° DWH (RDBMS)
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 弊社が提案するビッグデータの特徴 • ビッグデータ = RDB + Hadoop ⇒RDBと同等のSLAが求められる事が多い 12 提案構成例
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | SLAを満たすためのHadoop基盤検討ポイント(非機能) • サーバ構成 – 従来通りのベストプラクティスで良いのか? • バックアップ – どこにどうやって取るべきか? • セキュリティ – 認証、暗号化 • パフォーマンス – ロード 13
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | サーバ構成 14
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ①サーバ構成の考え方 15 Hadoopベストプラクティス 提案時におけるお客様からの指摘 安いIAサーバを、たくさん積んでください PXEやPuppetを組み合わせれば運用も楽です 会社の方針でサーバ統合している中で数百台の サーバ導入は説明がつかない 故障率1%として、300台クラスタの場合、ほとんど毎 日故障が発生する事になるため許容されない 初期サイジングより増えた場合にデータセンターに 場所がなくなってしまう “マジな”Hadoop 導入の勘所① パフォーマンスと運用を鑑みた、ある程度の集約を意識した分散構成を組む 例)10PBクラスタの場合 4TB HDD × 8本 ⇒ 313台(ラック18台分) 8TB HDD × 12本 ⇒ 105台(ラック6台分)
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ②ネットワークの考え方 16 Hadoopベストプラクティス 提案時におけるお客様からの指摘 DN内で処理をして、DN間はほとんどデータ転送が 発生しないのでノード間は細い線でも大丈夫 バックアップデータをクラスタに復旧させる際にボト ルネックになるのでは? DNが破損した時のリバランス処理は問題にならな いか? “マジな”Hadoop 導入の勘所② ノード間の結線は10GbE以上が望ましい 多少コスト高になったとしても、安定的な運用を求められる
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ③番外編 17 Hadoopベストプラクティス 提案時におけるお客様からの指摘 Master とSlaveは、別構成にすべき 理屈はわかるが、本番、開発、テスト、DRそれぞれ にMasterだけの役割のノードを持たせるのは無駄 が多い “マジな”Hadoop 導入の勘所③ 最近はNNとDNは同居する事も可能 メモリが128GB以上あればNNの管理領域が不足するケースは少ない
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | バックアップ 18
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopを提案する側の考え方 ⇔ RDBお客様の要望 ④バックアップ 19 Hadoopベストプラクティス 提案時におけるお客様からの指摘 ログ等非クリティカルなデータである(従来捨ててい た)ため、バックアップは必須ではない データは3重化されているため、メタデータだけバッ クアップしておけば十分 エンドユーザは裏がHadoopだろうがRDBだろうが気 にしない ⇒弊社のポリシーに準拠して提案してください “マジな”Hadoop 導入の勘所④ HadoopのバックアップはHadoopで! バックアップのために、NASやTapeを提案するとHadoopのコストメ リットが薄らいでしまう (StorageServerに仕事をさせるのが、Hadoopの売りなのに)
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | クラスター分割はエンドユーザからのBigクエリ対策にも有効 20 •Hadoop to Hadoopであればコピー先を参照用として利用するなど、運用の幅が広がる (リソース制御やセキュリティ制御などにも有用) ソース Hadoop #1 バッチ利用 ターゲット Hadoop #2 バックアップ、データ参照 Hadoop Cluster #1 バッチ処理 Hadoop Cluster #2 データ参照 (Sandbox) バック アップ
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 基本的なバックアップ要件は、Hadoopだけでも対応可能 21 バックアップ要件例 Hadoopにおける対応 バックアップの断面が取得可能であること Snapshot ・対象ディレクトリのブロックをReadOnlyで参照する仕組み ・複数バージョン取得可 ・バージョン間の比較も可 クラスタ停止時間以内にバックアップが完了すること DistCp ・複数mapperが並列で他Hadoopに並列コピーする ・差分更新も可能 Hiveメタ情報とHDFSの同期が取れていること 作り込み ⇒Cloudera BDR (Backup & Disaster Recovery)などで対応 リアルタイムに同期が取れていること Hadoop to Hadoop かなり大変 ⇒ Wandiscoなどで対応 DB to Hadoop かなり大変 ⇒Oracle GoldenGateなどで対応
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 使い方も簡単 22 ①snapshot作成の許可 -bash-4.1$ hdfs dfsadmin -allowSnapshot /tmp/26860-tera-in Allowing snaphot on /tmp/26860-tera-in succeeded 100GBのデータ ②snapshotの作成 -bash-4.1$ hdfs dfs -createSnapshot /tmp/26860-tera-in Created snapshot /tmp/26860-tera-in/.snapshot/s20160125-174328.432 .snapshotディレクトリに ReadOnlyとして作成される ③DistCPによる他クラスタへのレプリケーション --bash-4.1$ hadoop distcp -atomic /tmp/26860-tera-in/.snapshot/s20160125-174328.4 32 webhdfs://benkei01/tmp/26860-tera-in/ ・・・ 16/01/27 15:38:34 INFO mapreduce.Job: map 0% reduce 0% 16/01/27 15:38:45 INFO mapreduce.Job: map 2% reduce 0% ・・・ 16/01/27 15:48:04 INFO mapreduce.Job: Job job_1452235540015_0003 completed successfully Mapperが並列にコピー
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | セキュリティ 23
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 無防備なHadoopクラスタ (Security Level 0) 検証環境では、ありがちな構成 • Hadoopクライアント – 認証なし – どの端末からもアクセス可能 • Beeline , JDBCクライアント – HiveServer2になりすまし認証 24 Hadoop Cluster HDFS YARN HIVE 管理画面 Hadoop Client OSユーザ JDBC JDBCユーザ ブラウザ
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopのセキュリティ機能概要 25 セキュアなHadoop環境を実現可能 分類 機能 対応ツール例 認証 ユーザーの認証 Apache Hadoopのベース機能(Kerberos認証) 認可 Hive, ImpalaでのRole単位での認可 Sentry 暗号化 通信路の暗号化 Apache Hadoopのベース機能 保存データの暗号化・マスキング HDFSの暗号化 監査 監査の取得・レポーティング 3rd Party Tool
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopの認証機能 • Hadoopの認証では以下の2つの設定がある –認証なし: クライアント側のOSユーザーをHadoopユーザーとして認識 –Kerberos認証 “マジな”Hadoop 導入の勘所⑤ Edgeサーバ+Kerberos認証の設定はHadoopのセキュリティ設定のスタート地点 •悪意のあるユーザーがクライアントにhdfs OSユーザーを作成し、hdfsユーザーで HDFSユーザーでHadoopにアクセスすると全データを操作できてしまう ⇒不特定多数の端末からアクセスさせない
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Security Level 1:エッジサーバを介したアクセス • 不特定多数からHadoopクラスタ にアクセスさせない – 利用者は、エッジサーバにログイン した上で、Hadoopを操作する 27 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Security Level 2:Kerberos認証 • Kerberos,LDAPによるユーザ認証 – 利用者は、認証サーバに許可を取 得した上で利用する • 余談 – SqoopでRDB連携する時は、 Oracle walletで鍵アクセス可能 28 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall KRB5 LDAP 認証
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Security Level 3:認可、暗号化 • Hadoopそのものも守る – RBAC • HDFSのアクセス権設定 • SentryによるHive表等のアクセス制御 – データ暗号化 • HDFS Data at Rest Encryption – 監査 • HDFS監査ログ • Cloudera Navigator • Oracle Audit Vault & Database Firewall • etc 29 Hadoop Cluster HDFS YARN HIVE 管理画面 Edge Server Hadoop Client FireWall KRB5 LDAP 認証 Sentry HDFS Encryption Audit
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | HDFS Encryptionのアーキテクチャ • HDFSクライアントが扱うファイルの暗号化・復号を担当 • Encryption Zoneごとに鍵が存在 Encryption Zone Key = EZK EZKは鍵管理を行うコンポーネントであるKMSが管理。 ただし、EZKを使って個々のファイルを暗号化するわけではない • Encryption Zone 内のファイルごとに鍵をKMSが生成 Data Encryption Key = DEK • ただしDEKをそのまま保管するのは危険なため、DEKをEZKで暗 号化したencrypted DEK = EDEKをNameNodeにメタデータの一部 として保持 • NameNodeの管理権限のある(OS上のファイルとしてEDEKを不 正に取得することもできる)HDFS管理ユーザーにKMSに対する 権限を与えないように設定をしておく(ブラックリスト) 30
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | HDFS Encryptionのアーキテクチャ • Keystore – keystoreは、 Key Management Server (KMS)の鍵保管を行う – 通常はファイルベースの keystore(Java KeyStore) – Clouderaの場合Cloudera Navigator Key Trustee Server(PostgreSQL) 31
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 1/3 32 ①HDFSの暗号化ゾーンを作成 [oracle@server01 ~]# kinit hdfs@EXA.JP.ORACLE.COM Password for hdfs@EXA.JP.ORACLE.COM: [oracle@server01 ~]# hdfs dfs -mkdir /cipher [oracle@server01 ~]# hdfs dfs -mkdir /plain [oracle@server01 ~]# hadoop key create nokk [oracle@server01 ~]# hdfs crypto -createZone -keyName nokk -path /cipher Added encryption zone /cipher [oracle@server01 ~]# hdfs crypto -listZones /cipher nokk Kerberos認証 暗号化ゾーン作成 [oracle@server01 ~]# echo テストデータ > /oracle/テスト [oracle@server01 ~]# hdfs dfs -put /oracle/テスト /cipher/ [oracle@server01 ~]# hdfs dfs -put /oracle/テスト /plain/ ②テストデータをHDFSに保存 「テスト」というファイルを暗号化、非暗号化に配置
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 2/3 33 ③HDFSのブロック番号を検索 [oracle@server01 ~]# hdfs fsck /cipher/テスト -files -blocks Connecting to namenode via http://server02.exa.jp.oracle.com:50070 FSCK started by test (auth:KERBEROS_SSL) from /xxx.xxx.xx.xx for path /cipher/テスト at Thu Dec 10 11:34:06 JST 2016 /cipher/テスト 19 bytes, 1 block(s): OK 0. BP-529482047-192.168.21.81-1448469031064:blk_1073773664_32840 len=19 repl=3 以下略 暗号化ファイルのブロック [oracle@server01 ~]# find /u[0-1][0-9] -name blk_1073773664 /u07/hadoop/dfs/current/BP-529482047-192.168.21.81- 1448469031064/current/finalized/subdir0/subdir124/blk_1073773664 ④ブロックの場所を検索 当該ブロックの絶対パス /cipher/テスト blk_1073773664 /plain/テスト blk_1073773668 IPadress IPadress
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | HDFS暗号化は本当にOSから参照できなくなる? 3/3 34 ⑤ファイルの中身の確認 [oracle@server01 ~]# cat /u07/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/ current/finalized/subdir0/subdir124/blk_1073773664 ▒▒▒qqa>▒▒▒▒▒▒Λ`▒ [oracle@server01 ~]# cat /u03/hadoop/dfs/current/BP-529482047-192.168.21.81-1448469031064/ current/finalized/subdir0/subdir124/blk_1073773668 テストデータ 暗号化ファイルされたファイル IPadress IPadress 暗号化されていないファイル “マジな”Hadoop 導入の勘所⑥ お客様のデータはHadoopでもしっかり守れます! •ディスク交換を頻繁に行うシステムだからこそ、しっかり暗号化が必要
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | HDFS暗号化のパフォーマンス劣化が心配なんだけど。。。 35 出典: Intel® Xeon® Processor E5-2600 v3 Accelerates Hadoop HDFS Encryption http://www.intel.com/newsroom/kits/xeon/e7v3/pdfs/Xeo n_E7v3_Cloudera-aes-ni.pdf 暗号化による劣化はReadで5% Writeはほぼなし ベンチマークterasortの結果は1% “マジな”Hadoop 導入の勘所⑦ HDFS暗号化のデメリットは少ない •処理能力が大幅に劣化するというのは都市伝説。
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | パフォーマンス 36
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoopに出し入れする処の話 37 + ストアド プロシジャ File -> Hadoop MapReduce Hadoop -> DB ここの話 •MapReduceやSparkが早いのは当たり前(数台 VS 数百台) •ただし、ロードの部分を何とかしないと全体のスループットとして効果が薄い
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | Hadoop連携技術はたくさんあるけど、何を選べば良い? 38 Stream loadingBatch loading Kafka Flume GoldenGate HDFS Put Kite CLI distcp sqoop WebHDFS HttpFS •エコシステムはたくさんあって便利ですが、セキュリティやリソース制御とか監視な どを考えると、可能な限り万能選手を厳選して利用したい
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | バッチロードツールの比較 Hadoop Client Httpfs WebHDFS Edgeサーバへ のインストール 必要 不要 不要 Hadoop側の GateWay有無 無 必要(SPoF) 無(動的) 使いやすさ ◎ コマンドライン ○ HTTP REST API ○ HTTP REST API パフォーマンス 思っていたより遅い(1ファイル1スレッド処理) 39 Hadoop Cluster HDFS nodes Edge Server Client
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | hadoop fs -put test hdfs://scaj43bda02:8020/tmp/test31; curl -i -X PUT -L -H 'Content-Type:application/octet-stream' "http://scaj43bda03:14000/webhdfs/v1/tmp/test11?op=CREATE&user.name=root" -T test.txt; ロードパフォーマンスの違いを比較してみた 40 コマンドは以下の通り: 1) HttpFS 2) WebHDFS curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txt 3) Hadoop Client ServerName ServerName curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/test21?op=CREATE&user.name=root" -T test.txtServerName
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 41 DISK CPU HttpFS WebHDFS Hadoop client •どれも同じような動き •HttpFS、WebHDFSはGateway が動作しているノードだけ若干 CPUを利用している リソースを使い切れていない DBのように並列ロードする仕 組みを考えてみる
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | • 前提として、分割されたファイルを用意する # ls /stage/files/|wc -l 50 • ファイルサイズは51GB # du -sh /stage/files 51G /stage/files • まずは普通にHDFSに書き込んで見る(シングルスレッド): # time hadoop fs –put /stage/files/*hdfs://scaj43bda03:8020/tmp/load_test3 real 3m36.966s • クライアントを複数起動して、同時にHDFSに書き込む # for i in `ls /stage/files/`; do time hadoop fs -put /stage/files/$i hdfs://scaj43bda03:8020/tmp/load_test3 2>&1 & done; real 1m13.156s Hadoop Clientから並列ロードをやってみよう 3分半かかる 約3倍の速さに 42
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 43 DISK CPU パラレル ロード シングル ロード •リソースは使い切れていない ものの、シングルよりは大幅に 改善
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 1) パラレル WebHDFSロード for i in `ls /stage/files/`; do time curl -i -X PUT -L "http://scaj43bda02:50070/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i 2>&1 & done; WebHDFS やHttpFSでも同様の効果があるか? 2) パラレルHttpFS ロード for i in `ls /stage/files/`; do time curl -i -X PUT -L -H 'Content-Type:application/octet-stream' "http://scaj43bda03:14000/webhdfs/v1/tmp/load_test3/$i?op=CREATE&user.name=root" -T /stage/files/$i; 2>&1 & done; 結果 •WebHDFSは、Hadoopクライアントと同等性能が測定された •しかし、HttpFSには、ほとんど効果なし(Gatewayだけがんばる) 44
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | データロードに関する勘所 45 “マジな”Hadoop 導入の勘所⑧ データロードは、複数ファイルあれば並列化して高速ロードできる ・クライアントインストール可能な場合は Hadoop Client(操作が楽) ・インストール不可な場合はWebHDFSを利用 “マジな”Hadoop 導入の勘所⑨ Edgeサーバは必ず導入しましょう ・セキュリティ ・DNのローカルから実行すると、当該ノードにブロックが作成されるので偏りが起きる Hadoop Cluster HDFS nodes Edge Server Client
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. |Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | まとめ 46
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | エンタープライズユーザにHadoopを導入するための勘所 • スケールアウトするのは便利だけど。。。 – > IAサーバは故障するから、大規模構成にしすぎずにある程度の高集約サーバ • セキュリティやバックアップの運用が心配 – > 機能は充足してきており充分に対応可能 • パフォーマンス – >処理だけではなく、ロードの部分なども考慮して、より効果を高めよう 47
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 48 “マジな”Hadoop 導入の勘所⑩ RDBユーザのど真ん中を開拓する事で、Hadoopはもっと広がる! ・SPoFもなくなり、国内事例も増えてきており、Hadoopを静観する時期は過ぎた
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | ご清聴ありがとうございました その他、Hadoop関連Oracle製品↓ www.slideshare.net/oracle4engineer/ oraclehadoop 49
Copyright © 2016
Oracle and/or its affiliates. All rights reserved. | 50 ご質問・ご相談等ございましたら、終了後もお受けしております 0120-155-096 (平日9:00-12:00 / 13:00-18:00) http://www.oracle.com/jp/direct/index.html 各種無償支援サービスもございます。 Oracle Direct 検索 Oracle Direct あなたにいちばん近いオラクル
Copyright © 2016,
Oracle and/or its affiliates. All rights reserved. | 51
Copyright © 2016,
Oracle and/or its affiliates. All rights reserved. | 52
Advertisement