Hiveを高速化するLLAP

Hiveを高速化するLLAP
ヤフー株式会社
小澤 祐也
@__john_smith__
About me
• 小澤 祐也( @__john_smith__ )
• ヤフー株式会社
• データ&サイエンスソリューション統括本部
• データインフラ本部 開発2部 OSS開発
←平常時の自己紹介
アジェンダ
Hiveの復習
– MR, Tez, Spark
– Hiveの限界
LLAP(Live Long and Process)の紹介
– LLAPとは
– LLAPの特徴と動作
– LLAP vs Spark SQL
– 実行速度
LLAPの今後
アジェンダ
Hiveの復習
– MR, Tez, Spark
– Hiveの限界
LLAP(Live Long and Process)の紹介
– LLAPとは
– LLAPの特徴と動作
– LLAP vs Spark SQL
– 実行速度
LLAPの今後
LLAPその前に..
少しだけHiveについて復習
• 実行エンジン
• 利用シーン
Hiveの実行エンジン
• MapReduce
• 今でもこれを想定する人は多い
• YARN時代においてはHadoop1系に名残と言ってもよい
• Tez
• Sparkのライバル的存在として語られることも多い
• YARNでしかうごかないがHiveやPigの実行エンジンとして欠かせ
ない
• Spark
• Hive on Spark
• Not Spark SQL
• かつてSharkというものもあった…
Hiveの限界
• インタラクティブな処理には使えない
• SQL likeな記述でMRジョブを実行するために作られた
• レイテンシ < スループットな設計
• インタラクティブを求めるなら別なアーキテクチャを選択すべき?
• HiveはETLまで、分析はR, Python, Sparkなどを使う
• 元データが大きすぎる場合など
• とはいえデータの切り出し方は試行錯誤したいので高速化されると便利
Hiveの限界
とはいえ最近のHiveは速い
• 魔法のおまじない(※違います)
• SET hive.execution.engine=tez;
• カラムナ型のファイルフォーマットをサポート
• ORC(やParquet)
• 必要なDisk I/Oが減らせる
• CBO(Cost Based Optimizer)
• データの統計情報を使ったオプティマイザ
• ルールベースより効率の良い最適化がされること請け合い
• Vectorization
• SIMD命令を利用した一括処理
アジェンダ
Hiveの復習
– MR, Tez, Spark
– Hiveの限界
LLAP(Live Long and Process)の紹介
– LLAPとは
– LLAPの特徴と動作
– LLAP vs Spark SQL
– 実行速度
LLAPの今後
LLAPとは
バッチ処理では速くなったHiveをさらに高速化したい
• 扱えるデータ量はそのままよりインタラクティブに!
Hive2.0からの新機能
LLAPの基本的な思想
• Daemon
• Cache
• Multi Thread, Pipeline
LLAP全体像
Container
Tez Job
Container
Tez Job
Slider
Container
LLAP
Executor
Cache
Executor
Queue
CLIやHS2から
Query発行
※AMなどは省略
Container
LLAP
Executor
Cache
Executor
Queue
LLAP全体像
Container
Tez Job
Container
Tez Job
Slider
Container
LLAP
Executor
Cache
Executor
Queue
CLIやHS2から
Query発行
※AMなどは省略
Container
LLAP
Executor
Cache
Executor
Queue
Tez一部Vertexを
Daemon化
Daemon
• Daemonの立ち上げによる起動コストの削減
• Containerの立ち上げにはJVM起動などのコストがかかる
• Daemon化にはApache Sliderを利用
• Hadoop上でDaemonとして起動し任意のプロセスを走らせる
• StormやMemcachedなどサンプル有
• 起動コンテナ数を動的に変更可能
• Pigと同じくらい検索しづらい
Hybridな環境の実現
• TezのVertexをDaemon化するのがLLAP
• LLAP自体は実行エンジンではない
• Resource Manager上でもDaemonとジョブは別なものとして動
作
• LLAPの発想自体は他の実行エンジンでも実現可能
• TEZ-2003
• Vertexの一部にTezコンテナの外部サービスを利用
• Daemonとして立ち上げておいたコンテナを利用
• この仕組みを利用しているため現在はTezのみに対応
• Vertexの一部または全部の実行NodeでLLAPを利用
• Hiveのジョブ自体はLLAPの有無には依存しない
• 必要に応じて通常のcontainerかllapかは選択可能
LLAPとmode
LLAPによって新たに加わるmodeという概念
• 特定のVertexがどちらのmodeで動いているか
• TezのジョブをCLIが視覚的にわかりやすい
• modeという項目にcontainer/llapのどちらかが記載されている
• DAG中のどのVertexにLLAPを使うか
• hive.llap.execution.modeで設定されるmode
• LLAP deamonで動くVertex, Tezコンテナで動くVertexの設定
• none/map/auto/allがある
ModeとDaemon
M M
R
none LLAPを使わない
Tezのみと同じ
M M
R
map Mapタスクのみで
LLAPを使う
M M
R
all すべてLLAPを利用
M M
R
auto Hiveの実行計画に
任せる
ModeとDaemon
M M
R
none LLAPを使わない
Tezのみと同じ
M M
R
map Mapタスクのみで
LLAPを使う
M M
R
all すべてLLAPを利用
M M
R
auto Hiveの実行計画に
任せる
none/map/all/auto
DAG中のどのVertexに
LLAPを使うかの設定
ModeとDaemon
M M
R
none LLAPを使わない
Tezのみと同じ
M M
R
map Mapタスクのみで
LLAPを使う
M M
R
all すべてLLAPを利用
M M
R
auto Hiveの実行計画に
任せる
container/llap
各Vertexがどちらの
modeで動いているか
ModeとDaemon
M M
R
none LLAPを使わない
Tezのみと同じ
M M
R
map Mapタスクのみで
LLAPを使う
M M
R
all すべてLLAPを利用
M M
R
auto Hiveの実行計画に
任せる
LLAP全体像
Container
Tez Job
Container
Tez Job
Slider
Container
LLAP
Executor
Cache
Executor
Queue
CLIやHS2から
Query発行
※AMなどは省略
Container
LLAP
Executor
Cache
Executor
Queue
LLAP全体像
Container
Tez Job
Container
Tez Job
Slider
Container
LLAP
Executor
Cache
Executor
Queue
CLIやHS2から
Query発行
※AMなどは省略
Container
LLAP
Executor
Cache
Executor
Queue
In-Memory
Columnar Cache
Cache
LLAPのDaemon内でデータをcacheする
• Columnar cache
• In-memoryなcache機能
• データを行単位ではなく列単位でキャッシュ
• ORCファイルにのみ対応
• Columnar型のデータフォーマット
• インデックスを利用し必要な部分のみをキャッシュ
Cache
LLAPのDaemon内でデータをcacheする
• キャッシュアルゴリズム
• FIFO, LRFU
• DaemonのNodeごとにcacheを持つ
• 中央集権的な仕組みはない
• Node間での共有は行わない
• Off-Heapの利用
LLAP全体像
Container
Tez Job
Container
Tez Job
Slider
Container
LLAP
Executor
Cache
Executor
Queue
CLIやHS2から
Query発行
※AMなどは省略
Container
LLAP
Executor
Cache
Executor
Queue
LLAP全体像
Container
Tez Job
Container
Tez Job
Slider
Container
LLAP
Executor
Cache
Executor
Queue
CLIやHS2から
Query発行
※AMなどは省略
Container
LLAP
Executor
Cache
Executor
Queue
Multi Tread
Pipeline
Multi Thread, Pipeline
LLAPのDaemon内で複数のスレッドを起動
• 各スレッドがExecutorとして処理を実行
• 1デーモンあたりで複数の処理を実行可能
• Node数 * Executor数が実際に実行できる処理の並列数
• Queue
• 一般的な実行待ち行列に対する扱い
• 実行可能になったExecutorにアサインされる
• Preemption
• 長時間動きがない処理は一度諦める
• Executorにアサインされたがなんらかの理由で処理を続けられないなど
Multi Thread, Pipeline
Container
LLAP Daemon
Executor Queue
Map 1
Query
Fragment
Query
Fragment
Executor
Reduce 3
Query
Fragment
Query
Fragment
Map 2
Query
Fragment
Query
Fragment
Map 0
…
Reduce 9
…
Multi Thread, Pipeline
Container
LLAP Daemon
Executor Queue
Map 1
Query
Fragment
Query
Fragment
Executor
Reduce 3
Query
Fragment
Query
Fragment
Map 2
Query
Fragment
Query
Fragment
Map 0
…
Reduce 9
…
一つのDaemonに
複数のThread
Multi Thread, Pipeline
Container
LLAP Daemon
Executor QueueExecutor
Reduce 3
Query
Fragment
Query
Fragment
Map 2
Query
Fragment
Query
Fragment
Map 0
…
Reduce 9
…
Queueにある
次の処理を実行
Multi Thread, Pipeline
Container
LLAP Daemon
Executor Queue
Map 1
Query
Fragment
Query
Fragment
Executor
Reduce 3
Query
Fragment
Query
Fragment
Map 2
Query
Fragment
Query
Fragment
Map 0
…
Reduce 9
…
Preemptionによって
次の処理が先に実行され
る
×
改めてLLAP全体像
Container
Tez Job
Container
Tez Job
Slider
Container
LLAP
Executor
Cache
Executor
Queue
CLIやHS2から
Query発行
※AMなどは省略
Container
LLAP
Executor
Cache
Executor
Queue
LLAP vs Spark SQL
• LLAP固有の概念
• Daemon内共通で使えるcacheはSparkにはない
• Tez vs Spark
• データがメモリに乗り切らない場合はTezが有利
• 既存の資産の活用
• クエリの互換性
• HQLはSQL LikeだがSQLではない
• 分析環境への繋ぎこみではSparkが有利
• SQLだけではETL以上の処理をやるのは難しい
• R, Pythonでの分析環境との連携
• DataFrameAPIやMLlib, GraphX
• ストリーム処理
• Spark Streaming
• HiveもACIDやトランザクションに対応はしてる
LLAPの実行速度
• Hive on TezとLLAPの速度比較
• LLAPを使うとどれくらい速くなるのか
• 3回同じ処理を実行しての平均速度
• 各クエリはシーケンシャルに実行
• 設定の変更などはなし
LLAPの実行速度
• TPC-DSの結果(一部抜粋)
• ほとんどのqueryにおいてLLAPを利用した方がはやい
0
20
40
60
80
100
120
140
160
180
200
Tez	
  vs	
  LLAP
tezAVG
llapAVG
LLAPの実行速度
• その他、様々な条件でのパフォーマンステストを現在実施中
• Daemon数
• 並列数
• 各種設定の変更による影響
• キャッシュヒットの有無による影響
• クエリごとの性質に依存した影響
• etc.
アジェンダ
Hiveの復習
– MR, Tez, Spark
– Hiveの限界
LLAP(Live Long and Process)の紹介
– LLAPとは
– LLAPの特徴と動作
– LLAP vs Spark SQL
– 実行速度
LLAPの今後
LLAPの今後
実際にLLAPを使おうと思った際に課題として上がった点
• バグ周り
• 出来たばかりの機能なのでこれから使われると色々出てくるかも
• 最近もデッドロックするバグがあった[HIVE-12904]
• セキュリティ周り
• Kerberosには対応
• キャッシュされたデータの扱い
• HS2からの接続(Daemonの実行ユーザとDoAsの設定)
• Cacheの洗練, Locality
• HDFS Localityは考慮してくれる
• cache現状では個々のNodeが個別に持っている
• どこのノードがどのデータをキャッシュしてるかの考慮はなし
• そもそもDaemonが立ち上がってるNodeにデータがない場合
• Cacheアルゴリズムは適切か?
• タスクリストやWIPは[HIVE-7926]
1 of 37

Recommended

NetflixにおけるPresto/Spark活用事例 by
NetflixにおけるPresto/Spark活用事例NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例Amazon Web Services Japan
7.9K views23 slides
Hadoop -NameNode HAの仕組み- by
Hadoop -NameNode HAの仕組み-Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Yuki Gonda
4.1K views43 slides
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料) by
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
53K views60 slides
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発... by
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...NTT DATA Technology & Innovation
835 views55 slides
本当は恐ろしい分散システムの話 by
本当は恐ろしい分散システムの話本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話Kumazaki Hiroki
686K views70 slides
Cassandraのしくみ データの読み書き編 by
Cassandraのしくみ データの読み書き編Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編Yuki Morishita
30.8K views30 slides

More Related Content

What's hot

Hadoop入門 by
Hadoop入門Hadoop入門
Hadoop入門Preferred Networks
18.2K views46 slides
Presto on YARNの導入・運用 by
Presto on YARNの導入・運用Presto on YARNの導入・運用
Presto on YARNの導入・運用cyberagent
1.7K views31 slides
Hadoopのシステム設計・運用のポイント by
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントCloudera Japan
34.7K views57 slides
Spark SQL - The internal - by
Spark SQL - The internal -Spark SQL - The internal -
Spark SQL - The internal -NTT DATA OSS Professional Services
4.9K views63 slides
単なるキャッシュじゃないよ!?infinispanの紹介 by
単なるキャッシュじゃないよ!?infinispanの紹介単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介AdvancedTechNight
16K views37 slides
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ... by
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...NTT DATA Technology & Innovation
1.9K views73 slides

What's hot(20)

Presto on YARNの導入・運用 by cyberagent
Presto on YARNの導入・運用Presto on YARNの導入・運用
Presto on YARNの導入・運用
cyberagent1.7K views
Hadoopのシステム設計・運用のポイント by Cloudera Japan
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan34.7K views
単なるキャッシュじゃないよ!?infinispanの紹介 by AdvancedTechNight
単なるキャッシュじゃないよ!?infinispanの紹介単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
AdvancedTechNight16K views
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ... by NTT DATA Technology & Innovation
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019) by Noritaka Sekiyama
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama20.5K views
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料) by NTT DATA Technology & Innovation
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo by Treasure Data, Inc.
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.11.7K views
Hadoopの概念と基本的知識 by Ken SASAKI
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
Ken SASAKI56.1K views
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope... by NTT DATA Technology & Innovation
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Dockerからcontainerdへの移行 by Akihiro Suda
Dockerからcontainerdへの移行Dockerからcontainerdへの移行
Dockerからcontainerdへの移行
Akihiro Suda7.5K views
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc... by Yahoo!デベロッパーネットワーク
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019  #hc...HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019  #hc...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
SQL大量発行処理をいかにして高速化するか by Shogo Wakayama
SQL大量発行処理をいかにして高速化するかSQL大量発行処理をいかにして高速化するか
SQL大量発行処理をいかにして高速化するか
Shogo Wakayama57.8K views
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~ by NTT DATA OSS Professional Services
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
ストリーム処理を支えるキューイングシステムの選び方 by Yoshiyasu SAEKI
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方
Yoshiyasu SAEKI40.2K views
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料) by NTT DATA Technology & Innovation
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
Prometheus入門から運用まで徹底解説 by 貴仁 大和屋
Prometheus入門から運用まで徹底解説Prometheus入門から運用まで徹底解説
Prometheus入門から運用まで徹底解説
貴仁 大和屋34.8K views

Viewers also liked

Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016 by
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016Nagato Kasaki
16.6K views103 slides
Apache Hiveの今とこれから by
Apache Hiveの今とこれからApache Hiveの今とこれから
Apache Hiveの今とこれからYifeng Jiang
15.7K views53 slides
Apache Hiveの今とこれから - 2016 by
Apache Hiveの今とこれから - 2016Apache Hiveの今とこれから - 2016
Apache Hiveの今とこれから - 2016Yuta Imai
5.1K views88 slides
LLAP: Sub-Second Analytical Queries in Hive by
LLAP: Sub-Second Analytical Queries in HiveLLAP: Sub-Second Analytical Queries in Hive
LLAP: Sub-Second Analytical Queries in HiveDataWorks Summit/Hadoop Summit
6.9K views46 slides
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話 by
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話Yahoo!デベロッパーネットワーク
6.9K views49 slides
LLAP: long-lived execution in Hive by
LLAP: long-lived execution in HiveLLAP: long-lived execution in Hive
LLAP: long-lived execution in HiveDataWorks Summit
17.2K views43 slides

Viewers also liked(20)

Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016 by Nagato Kasaki
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Nagato Kasaki16.6K views
Apache Hiveの今とこれから by Yifeng Jiang
Apache Hiveの今とこれからApache Hiveの今とこれから
Apache Hiveの今とこれから
Yifeng Jiang15.7K views
Apache Hiveの今とこれから - 2016 by Yuta Imai
Apache Hiveの今とこれから - 2016Apache Hiveの今とこれから - 2016
Apache Hiveの今とこれから - 2016
Yuta Imai5.1K views
LLAP: long-lived execution in Hive by DataWorks Summit
LLAP: long-lived execution in HiveLLAP: long-lived execution in Hive
LLAP: long-lived execution in Hive
DataWorks Summit17.2K views
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料) by Hadoop / Spark Conference Japan
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発 by Ryo 亮 Kawahara 河原
Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発
Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発
niconicoにおける継続的なデータ活用のためのHadoop運用事例 by Makoto SHIMURA
niconicoにおける継続的なデータ活用のためのHadoop運用事例niconicoにおける継続的なデータ活用のためのHadoop運用事例
niconicoにおける継続的なデータ活用のためのHadoop運用事例
Makoto SHIMURA1.6K views
ただいまHadoop勉強中 by Satoshi Noto
ただいまHadoop勉強中ただいまHadoop勉強中
ただいまHadoop勉強中
Satoshi Noto5.7K views
Hiveハンズオン by Satoshi Noto
HiveハンズオンHiveハンズオン
Hiveハンズオン
Satoshi Noto8.7K views
HiveとImpalaのおいしいとこ取り by Yukinori Suda
HiveとImpalaのおいしいとこ取りHiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
Yukinori Suda4.7K views

Similar to Hiveを高速化するLLAP

sparksql-hive-bench-by-nec-hwx-at-hcj16 by
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16Yifeng Jiang
10.5K views65 slides
cl-waffe2 実装 by
cl-waffe2 実装cl-waffe2 実装
cl-waffe2 実装hiketteinya
192 views34 slides
20分でわかるHBase by
20分でわかるHBase20分でわかるHBase
20分でわかるHBaseSho Shimauchi
5.2K views48 slides
Data management of cosmos db using apache gremlin by
Data management of cosmos db using apache gremlinData management of cosmos db using apache gremlin
Data management of cosmos db using apache gremlinTakao Tetsuro
197 views16 slides
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining by
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebminingImpala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebminingSho Shimauchi
6.1K views52 slides
XLWrapについてのご紹介 by
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介Ohsawa Goodfellow
3.2K views25 slides

Similar to Hiveを高速化するLLAP(20)

sparksql-hive-bench-by-nec-hwx-at-hcj16 by Yifeng Jiang
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang10.5K views
cl-waffe2 実装 by hiketteinya
cl-waffe2 実装cl-waffe2 実装
cl-waffe2 実装
hiketteinya192 views
20分でわかるHBase by Sho Shimauchi
20分でわかるHBase20分でわかるHBase
20分でわかるHBase
Sho Shimauchi5.2K views
Data management of cosmos db using apache gremlin by Takao Tetsuro
Data management of cosmos db using apache gremlinData management of cosmos db using apache gremlin
Data management of cosmos db using apache gremlin
Takao Tetsuro197 views
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining by Sho Shimauchi
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebminingImpala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Sho Shimauchi6.1K views
Evolution of Impala #hcj2014 by Cloudera Japan
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014
Cloudera Japan17K views
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習 by Katsushi Yamashita
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Katsushi Yamashita12.2K views
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w by Cloudera Japan
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wIntroduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Cloudera Japan5.3K views
Cloudera Impala Seminar Jan. 8 2013 by Cloudera Japan
Cloudera Impala Seminar Jan. 8 2013Cloudera Impala Seminar Jan. 8 2013
Cloudera Impala Seminar Jan. 8 2013
Cloudera Japan2.5K views
Java用O/Rマッピングソフトについて私が知っている二、三の事柄 by Akira Shimosako
Java用O/Rマッピングソフトについて私が知っている二、三の事柄Java用O/Rマッピングソフトについて私が知っている二、三の事柄
Java用O/Rマッピングソフトについて私が知っている二、三の事柄
Akira Shimosako8.9K views
Amazon Elasticsearch Serviceを利用したAWSのログ活用 by 真司 藤本
Amazon Elasticsearch Serviceを利用したAWSのログ活用Amazon Elasticsearch Serviceを利用したAWSのログ活用
Amazon Elasticsearch Serviceを利用したAWSのログ活用
真司 藤本7.2K views
Riak Search 2.0を使ったデータ集計 by 正志 坪坂
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
正志 坪坂3K views
そうだRack作ろう。 by Kazuma Suzuki
そうだRack作ろう。そうだRack作ろう。
そうだRack作ろう。
Kazuma Suzuki4.7K views
CDHの歴史とCDH5新機能概要 #at_tokuben by Cloudera Japan
CDHの歴史とCDH5新機能概要 #at_tokubenCDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
Cloudera Japan8K views
Vim scriptとJavaとHaskell by aiya000
Vim scriptとJavaとHaskellVim scriptとJavaとHaskell
Vim scriptとJavaとHaskell
aiya0002.3K views
Yifeng spark-final-public by Yifeng Jiang
Yifeng spark-final-publicYifeng spark-final-public
Yifeng spark-final-public
Yifeng Jiang1.5K views
Logをs3とredshiftに格納する仕組み by Ken Morishita
Logをs3とredshiftに格納する仕組みLogをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組み
Ken Morishita26.5K views

More from Yahoo!デベロッパーネットワーク

ゼロから始める転移学習 by
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習Yahoo!デベロッパーネットワーク
13.1K views132 slides
継続的なモデルモニタリングを実現するKubernetes Operator by
継続的なモデルモニタリングを実現するKubernetes Operator継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes OperatorYahoo!デベロッパーネットワーク
4.9K views35 slides
ヤフーでは開発迅速性と品質のバランスをどう取ってるか by
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかYahoo!デベロッパーネットワーク
1.2K views24 slides
オンプレML基盤on Kubernetes パネルディスカッション by
オンプレML基盤on Kubernetes パネルディスカッションオンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッションYahoo!デベロッパーネットワーク
2K views18 slides
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜 by
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜Yahoo!デベロッパーネットワーク
1.7K views35 slides

More from Yahoo!デベロッパーネットワーク(20)

Recently uploaded

The Things Stack説明資料 by The Things Industries by
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things IndustriesCRI Japan, Inc.
41 views29 slides
さくらのひやおろし2023 by
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023法林浩之
91 views58 slides
JJUG CCC.pptx by
JJUG CCC.pptxJJUG CCC.pptx
JJUG CCC.pptxKanta Sasaki
6 views14 slides
01Booster Studio ご紹介資料 by
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料ssusere7a2172
300 views19 slides
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化Knowledge & Experience
8 views34 slides
Web3 Career_クレデン資料 .pdf by
Web3 Career_クレデン資料 .pdfWeb3 Career_クレデン資料 .pdf
Web3 Career_クレデン資料 .pdfnanamatsuo
14 views9 slides

Recently uploaded(12)

The Things Stack説明資料 by The Things Industries by CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.41 views
さくらのひやおろし2023 by 法林浩之
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023
法林浩之91 views
01Booster Studio ご紹介資料 by ssusere7a2172
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料
ssusere7a2172300 views
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
Web3 Career_クレデン資料 .pdf by nanamatsuo
Web3 Career_クレデン資料 .pdfWeb3 Career_クレデン資料 .pdf
Web3 Career_クレデン資料 .pdf
nanamatsuo14 views
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
SSH応用編_20231129.pdf by icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker4172 views
Windows 11 information that can be used at the development site by Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka71 views
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
SNMPセキュリティ超入門 by mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda175 views

Hiveを高速化するLLAP