Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
IoT時代におけるストリームデータ処理と急成長の Apache Flink
Takanori Suzuki
Redisの特徴と活用方法について
Yuji Otani
Hadoopのシステム設計・運用のポイント
Cloudera Japan
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Web Services Japan
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
Hibino Hisashi
1
of
23
Top clipped slide
NetflixにおけるPresto/Spark活用事例
Feb. 9, 2016
•
0 likes
24 likes
×
Be the first to like this
Show More
•
7,885 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Technology
Hadoop/Spark Conference Japan 2016でのライトニングトークの資料 by Ryosuke Iwanaga (@riywo)
Amazon Web Services Japan
Follow
Amazon Web Services Japan
Advertisement
Advertisement
Advertisement
Recommended
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
20K views
•
61 slides
Cassandraのしくみ データの読み書き編
Yuki Morishita
30.6K views
•
30 slides
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
Recruit Lifestyle Co., Ltd.
14.8K views
•
82 slides
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
52.5K views
•
60 slides
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
NTT DATA Technology & Innovation
630 views
•
63 slides
はじめてのElasticsearchクラスタ
Satoyuki Tsukano
39K views
•
63 slides
More Related Content
Slideshows for you
(20)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
•
426 views
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
•
865 views
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
•
756 views
IoT時代におけるストリームデータ処理と急成長の Apache Flink
Takanori Suzuki
•
27.9K views
Redisの特徴と活用方法について
Yuji Otani
•
98.7K views
Hadoopのシステム設計・運用のポイント
Cloudera Japan
•
34.5K views
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Web Services Japan
•
13.6K views
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
Hibino Hisashi
•
13.3K views
Hiveを高速化するLLAP
Yahoo!デベロッパーネットワーク
•
8.4K views
AWSで作る分析基盤
Yu Otsubo
•
7K views
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
Amazon Web Services Japan
•
29.2K views
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
Yahoo!デベロッパーネットワーク
•
12.8K views
Presto on YARNの導入・運用
cyberagent
•
1.6K views
Amazon Athena 初心者向けハンズオン
Amazon Web Services Japan
•
24.9K views
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
•
11.4K views
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
•
25.4K views
Apache Hadoopの新機能Ozoneの現状
NTT DATA OSS Professional Services
•
6.1K views
事例で学ぶApache Cassandra
Yuki Morishita
•
6K views
Dockerからcontainerdへの移行
Kohei Tokunaga
•
15.4K views
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
Amazon Web Services Japan
•
55.5K views
Similar to NetflixにおけるPresto/Spark活用事例
(20)
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
Eiji Shinohara
•
2K views
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
•
5.7K views
Hadoopことはじめ
Katsunori Kanda
•
1.6K views
OSC2014 Tokyo/Spring Hadoop
Shinichi YAMASHITA
•
1.7K views
Hadoop Source Code Reading #17
Shingo Furuyama
•
6.8K views
Apache Hadoop 2.8.0 の新機能 (抜粋)
NTT DATA OSS Professional Services
•
3.2K views
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
Amazon Web Services Japan
•
2.1K views
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
•
4.4K views
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
NTT DATA Technology & Innovation
•
387 views
OSSとクラウドによるコンピューティングモデルの変化
Nobuyori Takahashi
•
2.6K views
最新版Hadoopクラスタを運用して得られたもの
cyberagent
•
5.1K views
OpenStack Now!
Hideki Saito
•
824 views
Cloud Foundryで学ぶ、PaaSのしくみ講座
Kazuto Kusama
•
26.8K views
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
•
3K views
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
•
10.5K views
Java Clientで入門する Apache Kafka #jjug_ccc #ccc_e2
Yahoo!デベロッパーネットワーク
•
8.3K views
Ph perがawsと出会ってdev opsを目指した話
Shota Umeda
•
12.5K views
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
•
15.6K views
Hadoop事始め
You&I
•
1K views
ビッグデータ関連Oss動向調査とニーズ分析
Yukio Yoshida
•
2.9K views
Advertisement
More from Amazon Web Services Japan
(20)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
Amazon Web Services Japan
•
6.9K views
Infrastructure as Code (IaC) 談義 2022
Amazon Web Services Japan
•
3.1K views
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Web Services Japan
•
1.9K views
20220409 AWS BLEA 開発にあたって検討したこと
Amazon Web Services Japan
•
3.5K views
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
Amazon Web Services Japan
•
4K views
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
•
6.6K views
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
Amazon Web Services Japan
•
832 views
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
Amazon Web Services Japan
•
760 views
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
Amazon Web Services Japan
•
4.3K views
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
Amazon Web Services Japan
•
3.5K views
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
Amazon Web Services Japan
•
15.1K views
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
Amazon Web Services Japan
•
5.3K views
20211109 JAWS-UG SRE keynotes
Amazon Web Services Japan
•
2K views
20211109 bleaの使い方(基本編)
Amazon Web Services Japan
•
2.1K views
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
Amazon Web Services Japan
•
7.3K views
AWS の IoT 向けサービス
Amazon Web Services Japan
•
2K views
AWS IoT Coreを オンプレミス環境と使う際の アーキテクチャ例 (AWS IoT Deep Dive #5)
Amazon Web Services Japan
•
1.9K views
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
Amazon Web Services Japan
•
1.7K views
製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)
Amazon Web Services Japan
•
792 views
IoT@Loft#20 - IoTプラットフォームを進化さ せるAWSの活用方法
Amazon Web Services Japan
•
1.3K views
Recently uploaded
(20)
社内ソフトスキルを考える
infinite_loop
•
90 views
Wandb LLM Webinar May 30 2023 (配布用).pdf
Yuya Yamamoto
•
65 views
ネットワークパケットブローカー市場.pdf
HinaMiyazu
•
8 views
Forguncy8 製品概要 202305.pptx
フォーガンシー
•
56 views
TestSIP (1).pdf
DeependraSingh712859
•
2 views
Transformerについて解説!!
Yosuke Horio
•
0 views
ヘッドレス化したbaserCMS5とその機能
Ryuji Egashira
•
10 views
Üslup ve tercüme.pdf
1Hmmtks
•
2 views
統計学の攻略_正規分布ファミリーの全体像.pdf
akipii Oga
•
259 views
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
Rakuten Group, Inc.
•
35 views
開発環境向けEKSのコスト最適
ducphan87
•
0 views
ChatGPT + LlamaIndex 0 .6 による チャットボット の実装
Takanari Tokuwa
•
72 views
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
NTT DATA Technology & Innovation
•
166 views
JSTQB_テストマネジメントとレビュープロセス.pdf
akipii Oga
•
231 views
DrupalをDockerで起動してみる
iPride Co., Ltd.
•
22 views
SoftwareControl.pdf
ssusercd9928
•
7 views
MC-800DMT intrusion detector manual
Vedard Security Alarm System Store
•
3 views
量子論.pdf
hiro150493
•
9 views
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
•
74 views
モバイル・クラウド・コンピューティング-データを如何に格納し、組み合わせ、情報として引き出すか
Masahiko Funaki
•
2 views
Advertisement
NetflixにおけるPresto/Spark活用事例
1 NetflixにおけるPresto/Spark活用事例 2016/02/08 Ryosuke Iwanaga Solutions Architect,
Amazon Web Services Japan
2 Amazon EMR -
1クリックでHadoop/Spark • 分散処理基盤 – クラスタを簡単に構築 して破棄 • 分散処理アプリ – 使いたいアプリを選ぶ だけ • Hadoop 2.7.1 • Hive 1.0.0 • Pig 0.14.0 • Mahout 0.11.0 • Oozie 4.2.0 • Spark 1.6.0 • Presto 0.130 • Zeppelin 0.5.5 • Hue 3.7.1更新の速い(ほぼ月1ペース) ディストリビューション
3 Amazon EMR -
1クリックでHadoop/Spark • 分散処理基盤 – クラスタを簡単に構築 して破棄 • 分散処理アプリ – 使いたいアプリを選ぶ だけ • Hadoop 2.7.1 • Hive 1.0.0 • Pig 0.14.0 • Mahout 0.11.0 • Oozie 4.2.0 • Spark 1.6.0 • Presto 0.130 • Zeppelin 0.5.5 • Hue 3.7.1
© 2015, Amazon
Web Services, Inc. or its Affiliates. All rights reserved. Eva Tse and Daniel Weeks, Netflix October 2015 BDT303 Running Presto and Spark on the Netflix Big Data Platform
Netflixで鍵となるビジネス上のメトリクス 6500万人以上 の会員 50の国 1000以上の デバイス をサポート 100億 時間 / 四半期
我々のBig Dataの規模感 トータル ~25PB
のデータウェアがAmazon S3に 読み出し ~10% (データ/日) 書き込み ~10% (読み出しデータ/日) ~ 5500億イベント/日 ~ 350のアクティブなプラットフォームユーザ
Amazon S3をデータウェアストレージとして使う Amazon S3を唯一の正しいデータソースに(HDFSではなく) イレブン9の耐久性と99.99%の可用性が設計されている コンピュートとストレージを分離 鍵となる追加機能 -
複数の多様なクラスタ - Red-Blackデプロイで簡単に更新 S3
分析 ETL 対話的なデータ探索 対話的なデータスライス リアルタイム分析、機械学習、他にも 異なるBig Dataの処理要件
なぜ我々はPrestoを愛しているか? Hadoopとの親和性 - Hive
metastoreとの連携 AWS上で動かしやすい - Amazon S3と簡単に連携 スケーラブル - ペタバイトの規模で動作する ユーザが使いやすい - ANSI SQL オープンソース - Java! 高速
利用状況の統計 ~3500 queries/day > 90%
我々のデプロイ Version 0.114 + いくつかのパッチ +
1つの未公開パッチ (Parquet vectorized read integration) Amazon EMRのBootstrap Actionでデプロイ Hadoop YARNのクラスタとは別のクラスタ Hadoopのサービスは使わない Amazon EMRをクラスタ管理機能として活用
2つの本番クラスタ リソースを隔離 Ad-hocクラスタ 1 coordinator (r3.4xl)
+ 225 workers (r3.4xl) アプリケーション専用クラスタ 1 coordinator (r3.4xl) + 4 workers + dynamic workers (r3.xl, r3.2xl, r3.4xl) Netflix spinnaker APIで、動的にクラスタサイズを変更
動的なクラスタサイズ変更
なぜSpark? バッチジョブ (Pig, Hive) •
ETLジョブ • レポートや、その他分析 対話的なジョブ (Presto) 対話的な機械学習ジョブ (Spark) プログラムが必要なユースケース
デプロイ @ Netflix Spark
on Mesos • 独自のAMI • 全てBDAS (Berkeley Data Analytics Stack) • オンラインストリーム分析 Spark on YARN • Spark as a service • Amazon EMR上のYARNのアプリケーション • オフラインのバッチ分析
マルチテナント
Dynamic Allocation [SPARK-6954]
複数バージョンをサポート $ spark-shell –ver
1.5 … s3://…/spark-1.4.tar.gz s3://…/spark-1.5.tar.gz s3://…/spark-1.5-custom.tar.gz s3://…/1.5/spark-defaults.conf s3://…/h2prod/yarn-site.xml s3://../h2prod/core-site.xml … 設定アプリケーション
22 Summary • Amazon EMR
+ Amazon S3 – コンピュートとストレージを分離 – 25 PBのAmazon S3のデータをAmazon EMRのクラスタから操作 • Presto at Netflix – インタラクティブ用途、90%のクエリが1分未満 – Amazon EMRで構築、動的なサイジングも • Spark at Netflix – 機械学習バッチ、YARNでマルチテナント、Dynamic Allocation – Amazon EMRのYARNに、任意のバージョンのSparkで実行
23
Advertisement