Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Huy Do
560 views
[Scalameetup]spark shuffle
[Scalameetup]spark shuffle
Engineering
◦
Read more
0
Save
Share
Embed
Embed presentation
Download
Download to read offline
1
/ 7
2
/ 7
3
/ 7
4
/ 7
5
/ 7
6
/ 7
7
/ 7
More Related Content
PPTX
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
by
Koichi Fujikawa
PDF
Logをs3とredshiftに格納する仕組み
by
Ken Morishita
PDF
Consistent Hashingの小ネタ
by
Huy Do
PDF
Thriftを用いた分散型のNyancatを作ってきた
by
Huy Do
PDF
20151114 drupal温泉合宿 成果
by
Kunihiro Imura
PDF
Itlc2015
by
Huy Do
PDF
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
by
Minero Aoki
PPTX
Amazon Redshift ことはじめ
by
Shiro Miyazaki
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
by
Koichi Fujikawa
Logをs3とredshiftに格納する仕組み
by
Ken Morishita
Consistent Hashingの小ネタ
by
Huy Do
Thriftを用いた分散型のNyancatを作ってきた
by
Huy Do
20151114 drupal温泉合宿 成果
by
Kunihiro Imura
Itlc2015
by
Huy Do
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
by
Minero Aoki
Amazon Redshift ことはじめ
by
Shiro Miyazaki
More from Huy Do
PDF
Distributed Tracing, from internal SAAS insights
by
Huy Do
PDF
Engineering Efficiency in LINE
by
Huy Do
PDF
NoSQL for great good [hanoi.rb talk]
by
Huy Do
PDF
実践Akka
by
Huy Do
PDF
Making CLI app in ruby
by
Huy Do
PDF
Write on memory TSDB database (gocon tokyo autumn 2018)
by
Huy Do
PDF
GOCON Autumn (Story of our own Monitoring Agent in golang)
by
Huy Do
PDF
CA15卒勉強会 メタプログラミングについて
by
Huy Do
PDF
Story Writing Byte Serializer in Golang
by
Huy Do
PDF
CacheとRailsの簡単まとめ
by
Huy Do
PDF
DI in ruby
by
Huy Do
PDF
Akka と Typeの話
by
Huy Do
PDF
Some note about GC algorithm
by
Huy Do
PDF
[Htmlday]present
by
Huy Do
Distributed Tracing, from internal SAAS insights
by
Huy Do
Engineering Efficiency in LINE
by
Huy Do
NoSQL for great good [hanoi.rb talk]
by
Huy Do
実践Akka
by
Huy Do
Making CLI app in ruby
by
Huy Do
Write on memory TSDB database (gocon tokyo autumn 2018)
by
Huy Do
GOCON Autumn (Story of our own Monitoring Agent in golang)
by
Huy Do
CA15卒勉強会 メタプログラミングについて
by
Huy Do
Story Writing Byte Serializer in Golang
by
Huy Do
CacheとRailsの簡単まとめ
by
Huy Do
DI in ruby
by
Huy Do
Akka と Typeの話
by
Huy Do
Some note about GC algorithm
by
Huy Do
[Htmlday]present
by
Huy Do
[Scalameetup]spark shuffle
1.
SparkのShuffle周り @huydx
2.
Shuffleについて • Map -
Reduce モデル • Map段階からReduce段階への中間レイヤーは 「Shuffle」と呼ぶ • Shuffleでは • SparkがPullモデル(まずディスクに結果書い て、Reduceジョブが取りに行く) • SparkはReduceジョブに必要なデータはメモリ フィットしないといけない
3.
いつShuffleが発生する • Join • Cogroup •
*ByKeyオペレーション
4.
Shuffleの問題 • Shuffleファイル数 • Mapの数がM、Reduceの数がRとしたらディスクに書く ファイル数が
M * R (M = 5000, R = 1024 だと 500万ファ イル!) • Reduceするときにソートアルゴリズムが必要 • 並列にソートする必要ができるもの • 通信が重い
5.
Shuffleの問題解決 • Shuffleファイル数: • O(M
* R) じゃなくて O(R)まで抑えられる • Hashed base shuffle(一つのRひとつのファイル)じゃなくて Sort base shuffle • 参考:https://issues.apache.org/jira/secure/attachment/ 12637642/Consolidating%20Shuffle%20Files%20in %20Spark.pdf • https://issues.apache.org/jira/browse/SPARK-2045
6.
Shuffleの問題解決 • Sortのアルゴリズム選択 • https://databricks.com/blog/2014/10/10/spark- petabyte-sort.html •
Timsortを実装する • 色々なソートアルゴリズムの組む合わせで平 均Worst Caseパーフォマンスを減らす
7.
Shuffleの問題解決 • ネットワークモジュールを改善 • https://issues.apache.org/jira/browse/ SPARK-2468 •
Netty ベースデータ転送の実装 (FileChannel.transferToでzero copy)
Download