Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Kentaro Yoshida
PDF, PPTX
27,962 views
爆速クエリエンジン”Presto”を使いたくなる話
Prestoの導入メリットのほか、HiveQLからPrestoへの書き換えTipsを紹介します
Technology
◦
Read more
49
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 30
2
/ 30
3
/ 30
4
/ 30
5
/ 30
6
/ 30
7
/ 30
8
/ 30
9
/ 30
10
/ 30
11
/ 30
12
/ 30
Most read
13
/ 30
14
/ 30
15
/ 30
16
/ 30
17
/ 30
18
/ 30
19
/ 30
20
/ 30
21
/ 30
22
/ 30
23
/ 30
24
/ 30
25
/ 30
26
/ 30
27
/ 30
28
/ 30
29
/ 30
30
/ 30
More Related Content
PDF
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
by
Yahoo!デベロッパーネットワーク
PDF
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
by
Recruit Technologies
PDF
Apache Arrow - データ処理ツールの次世代プラットフォーム
by
Kouhei Sutou
PDF
Hive on Tezのベストプラクティス
by
Yahoo!デベロッパーネットワーク
PDF
マイクロにしすぎた結果がこれだよ!
by
mosa siru
PDF
これからSpringを使う開発者が知っておくべきこと
by
土岐 孝平
PDF
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
by
Amazon Web Services Japan
PDF
SQL大量発行処理をいかにして高速化するか
by
Shogo Wakayama
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
by
Yahoo!デベロッパーネットワーク
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
by
Recruit Technologies
Apache Arrow - データ処理ツールの次世代プラットフォーム
by
Kouhei Sutou
Hive on Tezのベストプラクティス
by
Yahoo!デベロッパーネットワーク
マイクロにしすぎた結果がこれだよ!
by
mosa siru
これからSpringを使う開発者が知っておくべきこと
by
土岐 孝平
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
by
Amazon Web Services Japan
SQL大量発行処理をいかにして高速化するか
by
Shogo Wakayama
What's hot
PDF
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
by
Amazon Web Services Japan
PDF
PostgreSQLアンチパターン
by
Soudai Sone
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
by
NTT DATA OSS Professional Services
PDF
Fluentdのお勧めシステム構成パターン
by
Kentaro Yoshida
PDF
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
by
NTT DATA Technology & Innovation
PDF
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
by
Takahiko Ito
PDF
MySQLアーキテクチャ図解講座
by
Mikiya Okuno
PDF
SolrとElasticsearchを比べてみよう
by
Shinsuke Sugaya
PDF
マイクロサービス 4つの分割アプローチ
by
増田 亨
PDF
MySQLで論理削除と正しく付き合う方法
by
yoku0825
PDF
Where狙いのキー、order by狙いのキー
by
yoku0825
PPTX
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
by
NTT DATA Technology & Innovation
PDF
DockerとPodmanの比較
by
Akihiro Suda
PDF
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
by
Toru Makabe
PPTX
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
by
NTT DATA Technology & Innovation
PDF
SQLアンチパターン - ナイーブツリー
by
ke-m kamekoopa
PDF
速習!論理レプリケーション ~基礎から最新動向まで~(PostgreSQL Conference Japan 2022 発表資料)
by
NTT DATA Technology & Innovation
PDF
超実践 Cloud Spanner 設計講座
by
Samir Hammoudi
PDF
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
by
Hironobu Suzuki
PPTX
Ceph アーキテクチャ概説
by
Emma Haruka Iwao
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
by
Amazon Web Services Japan
PostgreSQLアンチパターン
by
Soudai Sone
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
by
NTT DATA OSS Professional Services
Fluentdのお勧めシステム構成パターン
by
Kentaro Yoshida
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
by
NTT DATA Technology & Innovation
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
by
Takahiko Ito
MySQLアーキテクチャ図解講座
by
Mikiya Okuno
SolrとElasticsearchを比べてみよう
by
Shinsuke Sugaya
マイクロサービス 4つの分割アプローチ
by
増田 亨
MySQLで論理削除と正しく付き合う方法
by
yoku0825
Where狙いのキー、order by狙いのキー
by
yoku0825
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
by
NTT DATA Technology & Innovation
DockerとPodmanの比較
by
Akihiro Suda
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
by
Toru Makabe
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
by
NTT DATA Technology & Innovation
SQLアンチパターン - ナイーブツリー
by
ke-m kamekoopa
速習!論理レプリケーション ~基礎から最新動向まで~(PostgreSQL Conference Japan 2022 発表資料)
by
NTT DATA Technology & Innovation
超実践 Cloud Spanner 設計講座
by
Samir Hammoudi
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
by
Hironobu Suzuki
Ceph アーキテクチャ概説
by
Emma Haruka Iwao
Viewers also liked
PPTX
ぼくがAthenaで死ぬまで
by
Shinichi Takahashi
PDF
NetflixにおけるPresto/Spark活用事例
by
Amazon Web Services Japan
PDF
Gunosyデータマイニング研究会 #118 これからの強化学習
by
圭輔 大曽根
PDF
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑
by
Seiji Takahashi
PDF
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
by
Hiroaki Kudo
PPTX
A/B Testing at Pinterest: Building a Culture of Experimentation
by
WrangleConf
PDF
Apache Kudu - Updatable Analytical Storage #rakutentech
by
Cloudera Japan
PDF
#cwt2016 Apache Kudu 構成とテーブル設計
by
Cloudera Japan
PDF
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
by
Cloudera Japan
PDF
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
by
Hiroaki Kudo
PDF
記事分類における教師データおよびモデルの管理
by
圭輔 大曽根
PDF
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
by
圭輔 大曽根
PDF
マイクロサービスとABテスト
by
圭輔 大曽根
PDF
論文紹介@ Gunosyデータマイニング研究会 #97
by
圭輔 大曽根
PDF
WebDB Forum 2016 gunosy
by
Hiroaki Kudo
PPTX
Amazon Athena で実現する データ分析の広がり
by
Amazon Web Services Japan
PDF
いまさら聞けない機械学習の評価指標
by
圭輔 大曽根
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
by
Cloudera Japan
ぼくがAthenaで死ぬまで
by
Shinichi Takahashi
NetflixにおけるPresto/Spark活用事例
by
Amazon Web Services Japan
Gunosyデータマイニング研究会 #118 これからの強化学習
by
圭輔 大曽根
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑
by
Seiji Takahashi
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
by
Hiroaki Kudo
A/B Testing at Pinterest: Building a Culture of Experimentation
by
WrangleConf
Apache Kudu - Updatable Analytical Storage #rakutentech
by
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
by
Cloudera Japan
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
by
Cloudera Japan
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
by
Hiroaki Kudo
記事分類における教師データおよびモデルの管理
by
圭輔 大曽根
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
by
圭輔 大曽根
マイクロサービスとABテスト
by
圭輔 大曽根
論文紹介@ Gunosyデータマイニング研究会 #97
by
圭輔 大曽根
WebDB Forum 2016 gunosy
by
Hiroaki Kudo
Amazon Athena で実現する データ分析の広がり
by
Amazon Web Services Japan
いまさら聞けない機械学習の評価指標
by
圭輔 大曽根
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
by
Cloudera Japan
More from Kentaro Yoshida
PDF
Improve data engineering work with Digdag and Presto UDF
by
Kentaro Yoshida
PDF
TREASUREDATAのエコシステムで作るロバストなETLデータ処理基盤の作り方
by
Kentaro Yoshida
PDF
Fluentd, Digdag, Embulkを用いたデータ分析基盤の始め方
by
Kentaro Yoshida
PDF
トレジャーデータ 導入体験記 リブセンス編
by
Kentaro Yoshida
PDF
Hivemallで始める不動産価格推定サービス
by
Kentaro Yoshida
PDF
MySQLと組み合わせて始める全文検索プロダクト"elasticsearch"
by
Kentaro Yoshida
PDF
MySQLユーザ視点での小さく始めるElasticsearch
by
Kentaro Yoshida
PDF
Fluentdベースのミドルウェア"Yamabiko"でMySQLのテーブルをElasticsearchへレプリケートする話 #fluentdcasual
by
Kentaro Yoshida
PDF
MySQL 5.6への完全移行を実現したTritonnからMroongaへの移行体験記
by
Kentaro Yoshida
PDF
ElasticSearch+Kibanaでログデータの検索と視覚化を実現するテクニックと運用ノウハウ
by
Kentaro Yoshida
PDF
Tritonn (MySQL5.0.87+Senna)からの mroonga (MySQL5.6) 移行体験記
by
Kentaro Yoshida
PDF
MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」
by
Kentaro Yoshida
Improve data engineering work with Digdag and Presto UDF
by
Kentaro Yoshida
TREASUREDATAのエコシステムで作るロバストなETLデータ処理基盤の作り方
by
Kentaro Yoshida
Fluentd, Digdag, Embulkを用いたデータ分析基盤の始め方
by
Kentaro Yoshida
トレジャーデータ 導入体験記 リブセンス編
by
Kentaro Yoshida
Hivemallで始める不動産価格推定サービス
by
Kentaro Yoshida
MySQLと組み合わせて始める全文検索プロダクト"elasticsearch"
by
Kentaro Yoshida
MySQLユーザ視点での小さく始めるElasticsearch
by
Kentaro Yoshida
Fluentdベースのミドルウェア"Yamabiko"でMySQLのテーブルをElasticsearchへレプリケートする話 #fluentdcasual
by
Kentaro Yoshida
MySQL 5.6への完全移行を実現したTritonnからMroongaへの移行体験記
by
Kentaro Yoshida
ElasticSearch+Kibanaでログデータの検索と視覚化を実現するテクニックと運用ノウハウ
by
Kentaro Yoshida
Tritonn (MySQL5.0.87+Senna)からの mroonga (MySQL5.6) 移行体験記
by
Kentaro Yoshida
MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」
by
Kentaro Yoshida
Recently uploaded
PDF
20260119_VIoTLT_vol22_kitazaki_v1___.pdf
by
Ayachika Kitazaki
PDF
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
by
e-Patent Co., Ltd.
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
by
akipii ogaoga
PDF
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf
by
akipii ogaoga
PDF
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
by
CRI Japan, Inc.
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
by
akipii ogaoga
PDF
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
by
嶋 是一 (Yoshikazu SHIMA)
PDF
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S...
by
akipii ogaoga
PDF
FY2025 IT Strategist Afternoon I Question-1 Balanced Scorecard
by
akipii ogaoga
PDF
アジャイル導入が止まる3つの壁 ─ 文化・他部門・組織プロセスをどう乗り越えるか
by
Graat(グラーツ)
20260119_VIoTLT_vol22_kitazaki_v1___.pdf
by
Ayachika Kitazaki
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
by
e-Patent Co., Ltd.
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
by
akipii ogaoga
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf
by
akipii ogaoga
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
by
CRI Japan, Inc.
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
by
akipii ogaoga
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
by
嶋 是一 (Yoshikazu SHIMA)
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S...
by
akipii ogaoga
FY2025 IT Strategist Afternoon I Question-1 Balanced Scorecard
by
akipii ogaoga
アジャイル導入が止まる3つの壁 ─ 文化・他部門・組織プロセスをどう乗り越えるか
by
Graat(グラーツ)
爆速クエリエンジン”Presto”を使いたくなる話
1.
page Apr, 2015 24th ! 爆速クエリエンジン”Presto”を使いたくなる話 1
2.
page 1. 自己紹介 2
4.
お知らせ
5.
page 自己紹介 5 好きなプロダクト
6.
page 1. 自己紹介 2. Prestoを使う理由 3.
HiveからPrestoへの書換Tips 4. まとめ 本日の流れ 6
7.
page 2. Prestoを使う理由 7
8.
page Prestoのメリット 8 クエリ処理が高速 トライ&エラーを繰り返しやすい 学習コストが低い ANSI標準SQLに従って作られているため 分析・集計が る WITH句・WINDOW関数が使える
9.
page PrestoとHiveの使い分け 9 Presto 長くても2∼3分で終わる集計に最適 コンパクトな処理をすばやく実行したい時 Hive 数分以上∼数時間掛かるバッチクエリ メモリに乗り切らないオーダーの処理 JOIN数が多い時ないし、JOINの条件が文字列である時 結果セットが数百万行、文字列型カラム多数の時
10.
page Prestoのスピード 10 SELECT count(1) FROM
access WHERE status = … 約150億行のレコードに対して実行 Presto: 36秒 Hive: 12分20秒
11.
page Prestoのスピード 11
12.
page Presto雑感 12 WITH句がとても便利(可読性・UNION句での再利用性) CASTを使うことが思いのほか多い LIKE句よりregexp_like()が速いので積極的に使うべき JOIN結果が数十∼数百万行となるクエリで、文字列型の キーを使うとメモリを使い切って失敗する TreasureDataにはsmart_digestがあるのでそれを使うと吉 ハッシュ関数の衝突確率を下げるため、 substr()を用いた文字列の先頭一致も併せて行いましょう
13.
page WITH句の例 13 WITH t1 AS
( SELECT ... FROM ... ), t2 AS ( SELECT ... FROM ... ) SELECT ... FROM t1 INNER JOIN t2 USING(id)
14.
page WITH句の例 14 WITH t1 AS
( SELECT ... FROM ... ) SELECT … FROM t1 WHERE … UNION ALL SELECT … FROM t1 WHERE … UNION ALL SELECT … FROM t1 WHERE …
15.
page 3. HiveからPrestoへの書換Tips 15
16.
page HiveからPrestoへの書換Tips 16 正規表現のエスケープ挙動 select regexp_extract('(123)', '^((.+))$',
1) Hive: (123) Presto: 123 select regexp_extract('(123)', '^((.+))$', 1) Hive: 123 Presto: ※空文字
17.
page HiveからPrestoへの書換Tips 17 INT型の割り算で結果がFLOAT/DOUBLE型となるとき select 3 /
2 as division Hive: 1.5 Presto: 1 select CAST(3 AS DOUBLE) / 2 as division Hive: 1.5 Presto: 1.5 ※ 全てがINT型とならないようにいずれかをCASTする
18.
page HiveからPrestoへの書換Tips 18 substr()などでマルチバイト文字列を扱うとき select substr('日本語学校', 1,
3) Hive: 日本語 Presto: 日 ! Prestoは文字列をASCIIとして扱うためである UTF-8文字は1文字3バイトとなる
19.
page HiveからPrestoへの書換Tips 19 length()などでマルチバイト文字列を扱うとき select length('日本語学校') Hive: 5 Presto:
15 ! Prestoは文字列をASCIIとして扱うためである UTF-8文字は1文字3バイトとなる
20.
page HiveからPrestoへの書換Tips 20 文字列置換関数はtranslate()ではなくreplace()を使う その他は、Qiita記事にまとめています Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関 数の挙動の違い http://qiita.com/y-ken/items/400b7c70c324ac67af02
22.
page 4. まとめ 22
23.
page まとめ 23 とてもクエリ実行が速いため調査・分析業務が る MySQLテーブルをHadoopにインポートしてJOINしている Prestgresを用いるとPostgreSQLのように使えるので便利 TreasureDataのオプションサービス契約して良かった
24.
page まとめ 24 2015年4月現在、マルチバイト対応が甘い リソースコントロールが甘い 重たいクエリがノードのリソースを使い切ってしまう SELECTするカラムvarchar型が多いとき、HiveQLより 極端に遅くなることがあったがpresto v0.100現在は解消 日々改善・進歩しているため、今後に期待
25.
page 宣伝 25 サーバ/インフラエンジニア養成読本 ログ収集∼可視化編 [現場主導のデータ分析環 境を構築!] (Software
Design plus) 出版社/メーカー: 技術評論社 定価: 本体1,980円+税
26.
お知らせ
30.
page Thanks! 30 ご清聴ありがとうございました。
Download