Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
MapReduceプログラミング入門
Satoshi Noto
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
オライリーセミナー Hive入門 #oreilly0724
Cloudera Japan
[DI06] 並列分散処理の考え方とオープンソース分散処理系の動向
de:code 2017
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Cloudera Japan
Apache Hive 紹介
あしたのオープンソース研究所
ゾウ使いへの第一歩
Fumito Ito
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
GoAzure
1
of
25
Top clipped slide
OSC2014 Tokyo/Spring Hadoop
Mar. 7, 2014
•
0 likes
2 likes
×
Be the first to like this
Show More
•
1,699 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Technology
2014年3月1日に開催された「OSC 2014 Tokyo/Spring」で発表したHadoopに関する資料です。
Shinichi YAMASHITA
Follow
role at Japan
Advertisement
Advertisement
Advertisement
Recommended
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
7.2K views
•
15 slides
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
5.5K views
•
19 slides
NetflixにおけるPresto/Spark活用事例
Amazon Web Services Japan
7.9K views
•
23 slides
Tuning maniax 2014 Hadoop編
ThinkIT_impress
978 views
•
32 slides
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
5.1K views
•
32 slides
Hive on Spark の設計指針を読んでみた
Recruit Technologies
6.8K views
•
24 slides
More Related Content
Slideshows for you
(20)
MapReduceプログラミング入門
Satoshi Noto
•
6.2K views
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
•
3.3K views
オライリーセミナー Hive入門 #oreilly0724
Cloudera Japan
•
5.7K views
[DI06] 並列分散処理の考え方とオープンソース分散処理系の動向
de:code 2017
•
1.6K views
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Cloudera Japan
•
3.6K views
Apache Hive 紹介
あしたのオープンソース研究所
•
8.9K views
ゾウ使いへの第一歩
Fumito Ito
•
700 views
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
GoAzure
•
693 views
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
•
4.4K views
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
•
5.7K views
Tez on EMRを試してみた
Satoshi Noto
•
4.5K views
Hadoopの標準GUI Hueの最新情報2
Cloudera Japan
•
2K views
elasticsearch-hadoopをつかってごにょごにょしてみる
Katsushi Yamashita
•
15.1K views
Hadoopデータプラットフォーム #cwt2013
Cloudera Japan
•
4K views
Is spark streaming based on reactive streams?
chibochibo
•
978 views
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
•
4.3K views
Windows Azure HDInsight サービスの紹介
Kuninobu SaSaki
•
4.1K views
Hadoop Source Code Reading #17
Shingo Furuyama
•
6.8K views
Lambda in java_20160121
Teruo Kawasaki
•
938 views
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
•
15.6K views
Similar to OSC2014 Tokyo/Spring Hadoop
(20)
Hadoopことはじめ
Katsunori Kanda
•
1.6K views
Hadoop - OSC2013 .Enterprise
Shinichi YAMASHITA
•
2.2K views
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
•
2K views
第1回Hadoop関西勉強会参加レポート
You&I
•
471 views
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
Insight Technology, Inc.
•
5.2K views
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
•
38.3K views
Hadoop 基礎
hideaki honda
•
1.8K views
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
•
3K views
2014-07-26 Exploration into HDInsight Tuning Maniax 2014 Hadoopコース参戦記
Yoshiyuki Nakamura
•
611 views
Cloudera大阪セミナー 20130219
Cloudera Japan
•
1.1K views
CDH4.1オーバービュー
Cloudera Japan
•
5.6K views
Hadoop事始め
You&I
•
1K views
OSSとクラウドによるコンピューティングモデルの変化
Nobuyori Takahashi
•
2.6K views
Hadoop Summit 2016 San Jose ストリーム処理関連の報告 #streamctjp
Yahoo!デベロッパーネットワーク
•
2.2K views
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
•
639 views
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
•
4.4K views
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
•
3.2K views
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
•
10.5K views
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
•
18.5K views
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
•
6.4K views
Advertisement
Recently uploaded
(20)
Windows ChatGPT Bing AI.pptx
Atomu Hidaka
•
7 views
ChatGPT + LlamaIndex 0 .6 による チャットボット の実装
Takanari Tokuwa
•
61 views
初学者のためのプロンプトエンジニアリング実践.pptx
Akifumi Niida
•
469 views
PCベース制御による集中制御.pdf
ssusercd9928
•
19 views
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
•
5 views
SoftwareControl.pdf
ssusercd9928
•
7 views
CDLEハッカソン2022参加報告.pdf
SHOIWA1
•
10 views
Wandb LLM Webinar May 30 2023 (配布用).pdf
Yuya Yamamoto
•
19 views
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
Rakuten Group, Inc.
•
10 views
GitHub と Azure でアプリケーションとインフラストラクチャの守りを固めるDevSecOps
Kazumi IWANAGA
•
6 views
3Dプリンタって いいね
infinite_loop
•
59 views
Kubernetes超入門
Takashi Suzuki
•
5 views
【DL輪読会】大量API・ツールの扱いに特化したLLM
Deep Learning JP
•
93 views
JSONEncoderで詰まった話
とん とんぼ
•
144 views
統計学の攻略_統計的仮説検定の9パターン.pdf
akipii Oga
•
237 views
HTTPの仕組みについて
iPride Co., Ltd.
•
9 views
20230601_Visual_IoTLT_vol14_kitazaki_v1.pdf
Ayachika Kitazaki
•
71 views
JSAI2023_企画セッション(仕掛学)資料
Matsushita Laboratory
•
17 views
ChatGPT触ってみた
infinite_loop
•
58 views
統計学の攻略_正規分布ファミリーの全体像.pdf
akipii Oga
•
239 views
OSC2014 Tokyo/Spring Hadoop
多種多様なデータの分散処理基盤 Apache Hadoopの 現状、これから Hadoopユーザー会 山下 真一 2014/03/01
OSC 2014 Tokyo/Spring
自己紹介 • 山下 真一 (@_sinchii_) • 日々進化するHadoopと格闘中 • • たくさん処理を実行して秘孔を付いたり Hadoopの仕掛けた罠(バグ)に嵌ったり OSC 2014
Tokyo/Spring 2
本日の発表内容 • Hadoopのおさらい • Hadoop最新動向 • デモ OSC 2014 Tokyo/Spring 3
おさらい: Hadoopとは • 課題 • • • 日々増え続けるデータを蓄え続けたい 蓄えたデータを速やかに処理したい バッチ処理をより早く処理したい • • 処理データ規模は問わない Hadoopの特長 • • • 複数のサーバで構成する分散ファイルシステムを提供 分散ファイルシステム上のリソースを活用して分散処理を実 現、数十分~数時間の処理を数分~数十分に短縮 Hadoopを動作させるサーバは容易に入手できるサーバを 利用、リソース不足の場合は容易に追加可能 OSC 2014
Tokyo/Spring 4
おさらい : Hadoopとは 処理異常時は 異常箇所のみ再試行 Google
MapReduce MapReduceフレームワーク Google File System HDFS分散ファイルシステム サーバが故障してもコピーを 持っているため欠損しない 主な利用用途 集計 OS / Java 抽出 OSC 2014 Tokyo/Spring 加工 分析 5
これまでのHadoopの仕組み タスク ジョブ情報 TaskTracker(s) M M M タスク分割 R
R R JobTracker JobClient クライ アント データローカリティを 意識した割り当て ファイルをブロックに分割 配置を指示 DFSClient 入出力データは HDFSと連携 マスター サーバ M ・ ・ ・ R ・ ・ ・ ・ ・ ・ M ・ ・ ・ NameNode ・ ・ ・ ・ ・ ・ ファイル DataNode(s) OSC 2014 Tokyo/Spring 6
Hadoopエコシステム Hive (SQL style) Pig (DSL) Mahout (機械学習) HBase (カラム指向型ストア) Flume (データ投入) MapReduceフレームワーク Sqoop (DB連携) HDFS分散ファイルシステム Oozie (低レイテインシ) Spark (インメモリ) Ambari (ジョブフロー) Impala (クラスタ管理) ZooKeeper (分散ロック) OSC 2014
Tokyo/Spring 7
本日の発表内容 • Hadoopのおさらい • Hadoop最新動向 • デモ OSC 2014 Tokyo/Spring 8
Hadoop 1系と2系の違い MapReduce等 アプリケーション MapReduce アプリケーション Application Master MapReduce フレームワーク YARN HDFS 1 HDFS
2 Hadoop 1系 Hadoop 2系 OSC 2014 Tokyo/Spring 9
Hadoop 1.0系のMapReduceの問題 • JobTrackerへの負荷集中 • 多数のリクエストを処理するためネックとなりやすい MapReduceジョブ制御 (タスクアサイン) • TaskTrackerでリソースを予約して動作 • スロット数は固定であるためリソースを十分活用できない Mapスロット • TaskTracker管理 (ハートビート処理) Reduceスロット map関数、reduce関数内で強引に処理を定義 • Giraph ,
Oozie など OSC 2014 Tokyo/Spring 10
YARN : Yet
Another Resource Negotiator • JobTrackerのリソース管理とジョブ管理を分離 • ResourceManager : リソース管理 • • ApplicationMaster : アプリケーション • • • スレーブノード(NodeManager)管理 MapReduceジョブは、ApplicationMasterが制御 処理はコンテナ(Container)が実行 NodeManager : スレーブノード • リソース使用状況(CPU・メモリ)を確認 OSC 2014 Tokyo/Spring 11
YARNを構成するノード MapReduceジョブ管理 タスク割り当て Map(Reduce)タスク Application Master Container Node Manager AM割り当て&管理 Node Manager Container Resource Manager Node Manager ハートビート CPU・メモリ利用状況 Node Manager JobHistory Server ApplicationHistory Server (MRジョブ履歴) (YARNジョブ履歴) OSC 2014 Tokyo/Spring 12
YARNの特徴 • スレーブノードのリソースを十分に利用する仕組み • • LxC、cgroupsを活用して、厳密なリソース管理も実現 MapReduce 1.0 APIとの互換性 • Hadoop
1.0系のMapReduceアプリケーションも実行可能 • • • 再ビルドしなおすだけで、実行可能 現在は、再ビルド不要の仕組みも開発中 様々なApplicationMasterが動作可能 • MapReduceジョブ以外のアプリケーションも実行可能 • Apache Spark, Storm, Tez, Hbase(HOYA) などなど OSC 2014 Tokyo/Spring 13
YARNの今後の開発内容 • いくつかの機能は現在も開発中 • さまざまなアプリケーションをYARNで動作させるための 仕組み • • • • スケジューラ改良 (CapacityScheduler /
FairScheduler) 長時間動作するApplicationMaster対応 アプリケーションの実行履歴管理(ApplicationHistory) アプリケーション実行の記録(ApplicationTimeline) OSC 2014 Tokyo/Spring 14
HDFS 2 • NameNode HA
: 長年の問題が解決 • HDFS Snapshot : オペミスからの復旧が容易に • HDFS インメモリ Cache • HDFS Federation : NameNode分割 • ロック機構の改善 • ヘテロなストレージを利用可能 • • メモリ、SSD、などを組み合わせて利用可能に いよいよ問題なく利用出来る状態に! OSC 2014 Tokyo/Spring 15
その他Hadoop2系のポイント • Java 7 対応 • Windows
上での Hadoop環境 • ログ周りの改善 • • • auditログ メッセージレベルの見直し 無駄なstacktrace出力の抑制 OSC 2014 Tokyo/Spring 16
HDFSに蓄えたデータの活用 • HDFS上のデータをMapReduce以外で活用するため の仕組みも広がりつつあります • • • Apache Spark /
UC Berkeley • • インメモリベースでのMapReduce処理エンジン Cloudera Impara / Cloudera • • 低レイテンシ、インメモリ、イテレーション … HiveのXXX倍速い などなど 低レイテンシ処理エンジン Presto / Facebook • 分散SQLエンジン OSC 2014 Tokyo/Spring 17
Apache Spark • インメモリによりMapReduceを処理 • • Map処理, Reduce処理を定義 Hadoop
MapReduceの弱点を補う • 繰り返し処理(イテレーション) • ジョブ起動、Shuffleなどのオーバーヘッドを軽減 • HDFSとの親和性 • 高級言語(Scala, Java, Python)で処理を定義 • UC Berkeley AMPLab により開発 OSC 2014 Tokyo/Spring 18
Apache Spark 構成要素 HiveQL ストリーミング 処理 Shark MapReduce等 アプリケーション Application Master YARN 機械学習 Spark Streaming MLlib Spark アプリケーション Application Master Spark ノード YARN HDFS
2 HDFS 2 Hadoop 2系 Apache Spark OSC 2014 Tokyo/Spring 19
本日の発表内容 • Hadoopのおさらい • Hadoop最新動向 • デモ OSC 2014 Tokyo/Spring 20
デモ • HDFS2 + YARN環境を動かしてみます • Webインタフェース • • • HDFS YARN
& JobHistoryServer サンプルアプリケーションの実行 • Hadoopサンプルであるπ計算(PiEstimator) OSC 2014 Tokyo/Spring 21
デモ • Apache SparkとHadoop環境を連携してみます • Spark :
スタンドアロンモード • • マスタとワーカ(1ノード)を起動 サンプルアプリケーションの実行 • • Spark での word count HDFS上のファイルに対して word countを実行 Sparkでのword count構文 (Scalaで実装) val file = sc.textFile("hdfs://osc:8020/user/hadoop/spark-readme") val words = file.flatMap(line => line.replaceAll("W", " ").toLowerCase().split("s+")) val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _) wordCounts.saveAsTextFile("hdfs://osc:8020/user/hadoop/spark-wordcount") OSC 2014 Tokyo/Spring 22
Hadoop のリリース予定 • Hadoop 2系(2.3がcurrent
version) • 2.4 • • • • • • RM-HA automatic Failover Application History Server Long-running applications HDFS Trace ? HDFS Symlink ? Hadoop 1系 … 1.3とかは幻となるのか? OSC 2014 Tokyo/Spring 23
まとめ • Hadoop 2系 • • • HDFS :
必要な仕組みは一通りそろった YARN : MapReduceのみであれば、それなりに動作する エコシステムの膨張 • • • HDFSに蓄えたデータを扱う仕組み MapReduceの弱点を補う仕組み 何を使うにしてもデータを蓄えることが大切です! • 最初は数台、そして簡単な集計処理から... OSC 2014 Tokyo/Spring 24
ご清聴ありがとうございました! OSC 2014 Tokyo/Spring 25
Advertisement