Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Recruit Technologies
6,927 views
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Technology
◦
Read more
10
Save
Share
Embed
Embed presentation
1
/ 24
2
/ 24
3
/ 24
4
/ 24
5
/ 24
6
/ 24
7
/ 24
8
/ 24
9
/ 24
10
/ 24
11
/ 24
12
/ 24
13
/ 24
14
/ 24
15
/ 24
16
/ 24
17
/ 24
18
/ 24
19
/ 24
20
/ 24
21
/ 24
22
/ 24
23
/ 24
24
/ 24
More Related Content
PPTX
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
by
NTT DATA Technology & Innovation
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
by
Noritaka Sekiyama
PPTX
Hadoop -NameNode HAの仕組み-
by
Yuki Gonda
PPTX
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
by
NTT DATA Technology & Innovation
PPT
インフラエンジニアのためのcassandra入門
by
Akihiro Kuwano
PDF
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
by
Yahoo!デベロッパーネットワーク
PPT
Cassandraのしくみ データの読み書き編
by
Yuki Morishita
PDF
KubernetesでRedisを使うときの選択肢
by
Naoyuki Yamada
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
by
NTT DATA Technology & Innovation
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
by
Noritaka Sekiyama
Hadoop -NameNode HAの仕組み-
by
Yuki Gonda
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
by
NTT DATA Technology & Innovation
インフラエンジニアのためのcassandra入門
by
Akihiro Kuwano
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
by
Yahoo!デベロッパーネットワーク
Cassandraのしくみ データの読み書き編
by
Yuki Morishita
KubernetesでRedisを使うときの選択肢
by
Naoyuki Yamada
What's hot
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
by
NTT DATA Technology & Innovation
PPTX
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
by
NTT DATA Technology & Innovation
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
by
NTT DATA OSS Professional Services
PPTX
ぱぱっと理解するSpring Cloudの基本
by
kazuki kumagai
PDF
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
by
Amazon Web Services Japan
PPTX
Parquetはカラムナなのか?
by
Yohei Azekatsu
PDF
Hiveを高速化するLLAP
by
Yahoo!デベロッパーネットワーク
PPTX
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
by
NTT DATA Technology & Innovation
PDF
コンテナにおけるパフォーマンス調査でハマった話
by
Yuta Shimada
PDF
ログ解析基盤におけるストリーム処理パイプラインについて
by
cyberagent
PDF
Webブラウザ上で動作する帳票エンジンを作る話
by
terurou
PDF
新入社員のための大規模ゲーム開発入門 サーバサイド編
by
infinite_loop
PDF
ロードバランスへの長い道
by
Jun Kato
PPTX
cluster-monitoringで困ったこと学んだこと
by
Sachiho Wakita
PDF
DockerとPodmanの比較
by
Akihiro Suda
PPTX
Spring CloudとZipkinを利用した分散トレーシング
by
Rakuten Group, Inc.
PDF
SolrとElasticsearchを比べてみよう
by
Shinsuke Sugaya
PDF
Top 5 Mistakes When Writing Spark Applications
by
Spark Summit
PDF
Apache Nifi Crash Course
by
DataWorks Summit
PDF
マイクロにしすぎた結果がこれだよ!
by
mosa siru
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
by
NTT DATA Technology & Innovation
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
by
NTT DATA Technology & Innovation
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
by
NTT DATA OSS Professional Services
ぱぱっと理解するSpring Cloudの基本
by
kazuki kumagai
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
by
Amazon Web Services Japan
Parquetはカラムナなのか?
by
Yohei Azekatsu
Hiveを高速化するLLAP
by
Yahoo!デベロッパーネットワーク
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
by
NTT DATA Technology & Innovation
コンテナにおけるパフォーマンス調査でハマった話
by
Yuta Shimada
ログ解析基盤におけるストリーム処理パイプラインについて
by
cyberagent
Webブラウザ上で動作する帳票エンジンを作る話
by
terurou
新入社員のための大規模ゲーム開発入門 サーバサイド編
by
infinite_loop
ロードバランスへの長い道
by
Jun Kato
cluster-monitoringで困ったこと学んだこと
by
Sachiho Wakita
DockerとPodmanの比較
by
Akihiro Suda
Spring CloudとZipkinを利用した分散トレーシング
by
Rakuten Group, Inc.
SolrとElasticsearchを比べてみよう
by
Shinsuke Sugaya
Top 5 Mistakes When Writing Spark Applications
by
Spark Summit
Apache Nifi Crash Course
by
DataWorks Summit
マイクロにしすぎた結果がこれだよ!
by
mosa siru
Similar to Hive on Spark の設計指針を読んでみた
PDF
Spark SQL - The internal -
by
NTT DATA OSS Professional Services
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
by
NTT DATA OSS Professional Services
PDF
Apache spark 2.3 and beyond
by
NTT DATA Technology & Innovation
PDF
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
by
Nagato Kasaki
PDF
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
by
NTT DATA Technology & Innovation
PPTX
Sparkにプルリク投げてみた
by
Noritaka Sekiyama
PPTX
Spark Summit 2014 の報告と最近の取り組みについて
by
Recruit Technologies
PDF
The Future of Apache Spark
by
Hadoop / Spark Conference Japan
PPTX
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
by
Yu Ishikawa
PPTX
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
by
Cloudera Japan
PDF
[Oracle big data jam session #1] Apache Spark ことはじめ
by
Kenichi Sonoda
PDF
Hive undocumented feature
by
tamtam180
PPT
Quick Overview of Upcoming Spark 3.0 + α
by
Takeshi Yamamuro
PDF
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
by
YusukeKuramata
PDF
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
by
Kazuki Taniguchi
PPTX
Hadoop conference 2013winter_for_slideshare
by
Yu Ishikawa
PDF
Sparkのクエリ処理系と周辺の話題
by
Takeshi Yamamuro
PDF
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
by
Insight Technology, Inc.
PDF
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
by
Atsushi Tsuchiya
PDF
Taming Distributed/Parallel Query Execution Engine of Apache Spark
by
Takeshi Yamamuro
Spark SQL - The internal -
by
NTT DATA OSS Professional Services
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
by
NTT DATA OSS Professional Services
Apache spark 2.3 and beyond
by
NTT DATA Technology & Innovation
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
by
Nagato Kasaki
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
by
NTT DATA Technology & Innovation
Sparkにプルリク投げてみた
by
Noritaka Sekiyama
Spark Summit 2014 の報告と最近の取り組みについて
by
Recruit Technologies
The Future of Apache Spark
by
Hadoop / Spark Conference Japan
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
by
Yu Ishikawa
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
by
Cloudera Japan
[Oracle big data jam session #1] Apache Spark ことはじめ
by
Kenichi Sonoda
Hive undocumented feature
by
tamtam180
Quick Overview of Upcoming Spark 3.0 + α
by
Takeshi Yamamuro
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
by
YusukeKuramata
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
by
Kazuki Taniguchi
Hadoop conference 2013winter_for_slideshare
by
Yu Ishikawa
Sparkのクエリ処理系と周辺の話題
by
Takeshi Yamamuro
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
by
Insight Technology, Inc.
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
by
Atsushi Tsuchiya
Taming Distributed/Parallel Query Execution Engine of Apache Spark
by
Takeshi Yamamuro
More from Recruit Technologies
PDF
HadoopをBQにマイグレしようとしてる話
by
Recruit Technologies
PDF
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
by
Recruit Technologies
PDF
リクルート式AIの活用法
by
Recruit Technologies
PDF
Tableau活用4年の軌跡
by
Recruit Technologies
PDF
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
by
Recruit Technologies
PDF
「リクルートデータセット」 ~公開までの道のりとこれから~
by
Recruit Technologies
PDF
ユーザー企業内製CSIRTにおける対応のポイント
by
Recruit Technologies
PDF
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
by
Recruit Technologies
PDF
ユーザー企業内製CSIRTにおける対応のポイント
by
Recruit Technologies
PDF
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
by
Recruit Technologies
PDF
新卒2年目が鍛えられたコードレビュー道場
by
Recruit Technologies
PDF
ユーザーからみたre:Inventのこれまでと今後
by
Recruit Technologies
PDF
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
by
Recruit Technologies
PDF
銀行ロビーアシスタント
by
Recruit Technologies
PDF
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
by
Recruit Technologies
PDF
EMRでスポットインスタンスの自動入札ツールを作成する
by
Recruit Technologies
PDF
LT(自由)
by
Recruit Technologies
PDF
RANCHERを使ったDev(Ops)
by
Recruit Technologies
PDF
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
by
Recruit Technologies
PDF
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
by
Recruit Technologies
HadoopをBQにマイグレしようとしてる話
by
Recruit Technologies
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
by
Recruit Technologies
リクルート式AIの活用法
by
Recruit Technologies
Tableau活用4年の軌跡
by
Recruit Technologies
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
by
Recruit Technologies
「リクルートデータセット」 ~公開までの道のりとこれから~
by
Recruit Technologies
ユーザー企業内製CSIRTにおける対応のポイント
by
Recruit Technologies
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
by
Recruit Technologies
ユーザー企業内製CSIRTにおける対応のポイント
by
Recruit Technologies
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
by
Recruit Technologies
新卒2年目が鍛えられたコードレビュー道場
by
Recruit Technologies
ユーザーからみたre:Inventのこれまでと今後
by
Recruit Technologies
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
by
Recruit Technologies
銀行ロビーアシスタント
by
Recruit Technologies
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
by
Recruit Technologies
EMRでスポットインスタンスの自動入札ツールを作成する
by
Recruit Technologies
LT(自由)
by
Recruit Technologies
RANCHERを使ったDev(Ops)
by
Recruit Technologies
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
by
Recruit Technologies
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
by
Recruit Technologies
Recently uploaded
PDF
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)
by
NTT DATA Technology & Innovation
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):東京大学情報基盤センター テーマ1/2/3「Society5.0の実現を目指す『計算・データ・学習...
by
PC Cluster Consortium
PDF
第25回FA設備技術勉強会_自宅で勉強するROS・フィジカルAIアイテム.pdf
by
TomohiroKusu
PPTX
DrupalCon Nara 2025の記録 .
by
iPride Co., Ltd.
PDF
visionOS TC「新しいマイホームで過ごすApple Vision Proとの新生活」
by
Sugiyama Yugo
PDF
安価な ロジック・アナライザを アナライズ(?),Analyze report of some cheap logic analyzers
by
たけおか しょうぞう
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)
by
NTT DATA Technology & Innovation
PCCC25(設立25年記念PCクラスタシンポジウム):東京大学情報基盤センター テーマ1/2/3「Society5.0の実現を目指す『計算・データ・学習...
by
PC Cluster Consortium
第25回FA設備技術勉強会_自宅で勉強するROS・フィジカルAIアイテム.pdf
by
TomohiroKusu
DrupalCon Nara 2025の記録 .
by
iPride Co., Ltd.
visionOS TC「新しいマイホームで過ごすApple Vision Proとの新生活」
by
Sugiyama Yugo
安価な ロジック・アナライザを アナライズ(?),Analyze report of some cheap logic analyzers
by
たけおか しょうぞう
Hive on Spark の設計指針を読んでみた
1.
Hive on Spark の設計指針を読 んでみた Yu
Ishikawa 2014-07-24
2.
はじめに Apache Hive
の実行エンジンとして Spark に 対応する機能が開発中 [HIVE-7292] Hive on Spark - ASF JIRA https://issues.apache.org/jira/browse/HIVE-7292 2014-06-25 に Hive on Spark の設計指針など が, Cloudera 社の Xuefu Zhang らによって 公開された
3.
Table of Contents
Hive on Spark の導入 高レベルの機能性の解説 高レベルの設計概要 各コンポーネントの解説 まとめ
4.
Hive on Spark
の導入
5.
Hive on Spark
の目的 (Hadoop) MapReduce, Tez につづいて第3の Hive 実行エンジンとして Spark に対応させる Spark とはHadoop MapReduce より高速に処 理できるオープンソースのデータ分析分散処理 フレームワーク Spark は Resilient Distributed Dataset (RDD) と いうデータコレクションでデータを表現
6.
Motivation: 実装する動機 すでに
Spark を利用しているユーザとっては, 処理環境が標準化されることでオペレーショ ン的なコスト削減 SQL on Hadoop として,Hive を Spark ユー ザに提供 Hive on Tez のようにパフォーマンスの向上
7.
設計指針:Design Principle 既存の
Hive のコードには影響を(可能な限 り)与えない 現在 MapReduce と Tez の実行エンジンを簡 単に切り替えられるように,Spark も簡単に 切り替えられる Spark への特別な対処をする必要することな く,既存の MapReduce や Tez の処理と共通 化できるところは最大限共通化 Hive 側の拡張に対して,Hive on Spark の部 分も自動的に対応されるような実装
8.
Shark や Spark
SQL との比較 Hive on Spark は,すべての Hive の特徴を Spark の実 行エンジンでも利用可能にする Hive QL, 認証, モニタリング, 監視 など Shark Hive で生成されたクエリプランを Spark で実行できる ように変換 Spark SQL SQL-like (Hive QL も含む)を Spark アプリケーション で実行できるようにするためのパーサ Hive のように対話的に使うというより,Scala のコー ドの中で利用
9.
高レベルの機能性の解説
10.
Hive の実行エンジンとして Spark
を指定 する方法 デフォルト:mr (MapReduce) もし Spark を実行する環境がないときは,MapReduce か Tez を実行 Spark 用に Hive QL を一切変更することなく実行できる ように実装する Spark にジョブを投げるには,MapReduce の用に実行 する Spark クラスタの URI などを設定 hive> set hive.execution.engine=spark;
11.
その他実装するにあたっての要件 “explain” による実行計画の表示
MapReduce での Hive 実行のように,処理の 進行状況のフィードバック ジョブの統計や診断法の提供
12.
高レベルの設計概要
13.
実装にあったっての機能分類 Query planning
Hive QL の意味解析により Hive のオペレータ プランが Spark で実行できるタスクプランに変 換 Query execution 生成された Spark のタスクプランが実際に Spark クラスタで実行
14.
Query Planning(1) Operator
Plan は,TableScanOperator, ReduceSink, FileSink, GroupByOperator などの論理オペレータ のグラフで構成 HiveQL Operator plan Hive Semantic Analzer Graph of MapReduceTask MapReduceCompiler
15.
Query Planning(2) SparkCompiler
は Hive の論理オペレータプラ ンから Spark で実行できるプランにコンパイル ジョブとして実行できる形として SparkWork の インスタンスを作る SparkWork は Spark のタスクの実行プランを表 現 実行計画の最適化はつぎのフェーズにして,まず は機能を実装することに専念 HiveQL Operator plan Hive Semantic Analzer Graph of SparkTask SparkCompiler
16.
Job Execution SparkCompiler
によって生成された SparkTask のインスタンスは,Hive のタス ク実行フレームワークで MapReduce と同様 に実行できる Spark にジョブが投げられたら,ジョブの実 行状況をモニタリングできる仕組みを SparkListener として実装
17.
特筆すべき各コンポーネン トの解説
18.
採用する基本原則は? Spark 側の
SQL 解析を利用するのではなく, MapReduce の機構を利用 Spark の操作は Spark 側が公開している Java API で対応 Spark で実行できるように MapReduce 側の 基本原則を拡張
19.
Table as RDD
Hive テーブルを Spark のデータ形式である RDD として扱えるように実装 現時点でも HDFS のデータを扱える RDD が あるので,それを Hive に特化した形で拡張 する必要がある Scala として拡張するのは簡単だが,Java API として扱えるようにはなっていないので 課題
20.
SparkWork と SparkTask
SparkWork は SparkTask から利用 SparkWork は Spark ジョブを実行し続ける ためのタスクプランを表現 SparkWork は,MapWork と ReduceWork (たまに UnionWork)で構成
21.
Shuffle, Group, and
Sort Spark は,partitionBy, groupByKey, sortByKey などのような MapReduce の Shuffle を簡単にするための API があるのでそ れを利用して group by や sort by を実装 Hive QL の JOIN 句についても,Spark の join API を利用することで実装
22.
まとめ
23.
Hive on Spark
を実装するにあたって必要 そうな作業 Spark のジョブモニタリング Java APIs SparkContext をスレッドセーフにする シャッフルの機能性や API の改修 RDD を Hive テーブルで扱えるようにするた めの Java API の実装
24.
実装のすすめ方 いくつかのフェーズに分けて実装を進めてい く まずは基本的な機能の実装
その後に最適化や改良を行っていく Hive on Spark を進めていくには,Hive コ ミュニティと Spark コミュニティが密に連携 を取っていく必要がある