Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
RY
Uploaded by
Ryo Yamaoka
PDF, PPTX
2,158 views
Dataflow(python)を使ってelasticsearchにデータを移行した話
酔いどれGCPUG(20180302)の発表資料です
Technology
◦
Read more
1
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 25
2
/ 25
3
/ 25
4
/ 25
5
/ 25
6
/ 25
7
/ 25
8
/ 25
9
/ 25
10
/ 25
11
/ 25
12
/ 25
13
/ 25
14
/ 25
15
/ 25
16
/ 25
17
/ 25
18
/ 25
19
/ 25
20
/ 25
21
/ 25
22
/ 25
23
/ 25
24
/ 25
25
/ 25
More Related Content
PDF
Dataflow(python)を触った所感
by
Ryo Yamaoka
PPTX
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
by
Yu Yamada
PPTX
Google cloudnext recap_DataAnalytics
by
Yu Yamada
PDF
Kaggle&競プロ紹介 in 中田研究室
by
Takami Sato
PDF
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
by
Takami Sato
PPTX
GraphQLのsubscriptionで出来ること
by
Shingo Fukui
PDF
地域活性化アプリ提案天草編
by
博喜 井上
PDF
Microsoft Search @O365JPFUK
by
HiroakiNagao
Dataflow(python)を触った所感
by
Ryo Yamaoka
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
by
Yu Yamada
Google cloudnext recap_DataAnalytics
by
Yu Yamada
Kaggle&競プロ紹介 in 中田研究室
by
Takami Sato
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
by
Takami Sato
GraphQLのsubscriptionで出来ること
by
Shingo Fukui
地域活性化アプリ提案天草編
by
博喜 井上
Microsoft Search @O365JPFUK
by
HiroakiNagao
What's hot
PPTX
データプランナーによるデータ系施策について
by
Recruit Lifestyle Co., Ltd.
PDF
コピー自動生成プロダクトでDataflowを導入した話
by
ShunyoKawamoto
PDF
プロダクト中心のデータ駆動を推進していくために必要なこと
by
Kazuhito Osabe
PPTX
データを扱いたい!はじめてのAWS
by
ShoichiYashiro
PDF
検索クエリの時間差を可視化することでわかる人の行動パターン #yjdsnight
by
Yahoo!デベロッパーネットワーク
PDF
Bigfoot 活用事例
by
Toshihiro Gotou
PDF
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
by
Atsushi Tsuchiya
PPTX
Power BI 勉強会 0902 小林 : Power BI と Azure ML でデータサイエンスしてみる
by
寿 小林
PDF
『アジャイルデータサイエンス』2章 データ
by
Hisao Soyama
PDF
Data Scientist Workbench 入門
by
soh kaijima
PDF
dots. 7/7 DSWBハンズオン資料
by
s. kaijima
PDF
PyData入門(超初心者編)~野球のデータをカジュアルに可視化
by
Shinichi Nakagawa
PPTX
Power bi 0602_kobayashi
by
寿 小林
PPTX
Pythonで時系列のデータを分析してみよう
by
Tatuya Kobayashi
PDF
ソウゾウ1人目機械学習エンジニアの現在地
by
Wakana Nogami
データプランナーによるデータ系施策について
by
Recruit Lifestyle Co., Ltd.
コピー自動生成プロダクトでDataflowを導入した話
by
ShunyoKawamoto
プロダクト中心のデータ駆動を推進していくために必要なこと
by
Kazuhito Osabe
データを扱いたい!はじめてのAWS
by
ShoichiYashiro
検索クエリの時間差を可視化することでわかる人の行動パターン #yjdsnight
by
Yahoo!デベロッパーネットワーク
Bigfoot 活用事例
by
Toshihiro Gotou
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
by
Atsushi Tsuchiya
Power BI 勉強会 0902 小林 : Power BI と Azure ML でデータサイエンスしてみる
by
寿 小林
『アジャイルデータサイエンス』2章 データ
by
Hisao Soyama
Data Scientist Workbench 入門
by
soh kaijima
dots. 7/7 DSWBハンズオン資料
by
s. kaijima
PyData入門(超初心者編)~野球のデータをカジュアルに可視化
by
Shinichi Nakagawa
Power bi 0602_kobayashi
by
寿 小林
Pythonで時系列のデータを分析してみよう
by
Tatuya Kobayashi
ソウゾウ1人目機械学習エンジニアの現在地
by
Wakana Nogami
Similar to Dataflow(python)を使ってelasticsearchにデータを移行した話
PDF
Elastic Stackの紹介とOpenStackでの活用事例(Searchlightなど) - OpenStack最新情報セミナー 2016年5月
by
VirtualTech Japan Inc.
PDF
Elasticsearch入門 pyfes 201207
by
Jun Ohtani
PDF
ElasticSearch勉強会 第6回
by
Naoyuki Yamada
PDF
MySQLと組み合わせて始める全文検索プロダクト"elasticsearch"
by
Kentaro Yoshida
PDF
Elastic searchをrailsから使ってみた
by
Yoichi Toyota
PDF
Elastic circle ci-co-webinar-20210127
by
Shotaro Suzuki
PDF
Integrating elasticsearch with asp dot net core
by
Shotaro Suzuki
PPTX
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
by
Holden Karau
PDF
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
by
株式会社MonotaRO Tech Team
PDF
Spark in small or middle scale data processing with Elasticsearch
by
chibochibo
PDF
メディアコンテンツ向け記事検索DBとして使うElasticsearch
by
Yasuhiro Murata
PDF
20200324 ms open-tech-elastic
by
Koji Kawamura
Elastic Stackの紹介とOpenStackでの活用事例(Searchlightなど) - OpenStack最新情報セミナー 2016年5月
by
VirtualTech Japan Inc.
Elasticsearch入門 pyfes 201207
by
Jun Ohtani
ElasticSearch勉強会 第6回
by
Naoyuki Yamada
MySQLと組み合わせて始める全文検索プロダクト"elasticsearch"
by
Kentaro Yoshida
Elastic searchをrailsから使ってみた
by
Yoichi Toyota
Elastic circle ci-co-webinar-20210127
by
Shotaro Suzuki
Integrating elasticsearch with asp dot net core
by
Shotaro Suzuki
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
by
Holden Karau
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
by
株式会社MonotaRO Tech Team
Spark in small or middle scale data processing with Elasticsearch
by
chibochibo
メディアコンテンツ向け記事検索DBとして使うElasticsearch
by
Yasuhiro Murata
20200324 ms open-tech-elastic
by
Koji Kawamura
Recently uploaded
PDF
Machine Tests Benchmark Suite. Explain github.com/alexziskind1/machine_tests #2
by
Tasuku Takahashi
PDF
流行りに乗っかるClaris FileMaker 〜AI関連機能の紹介〜 by 合同会社イボルブ
by
Evolve LLC.
PPTX
楽々ナレッジベース「楽ナレ」3種比較 - Dify / AWS S3 Vector / Google File Search Tool
by
Kiyohide Yamaguchi
PDF
エンジニアが選ぶべきAIエディタ & Antigravity 活用例@ウェビナー「触ってみてどうだった?Google Antigravity 既存IDEと...
by
NorihiroSunada
PDF
Machine Tests Benchmark Suite. Explain github.com/alexziskind1/machine_tests #1
by
Tasuku Takahashi
PDF
20251210_MultiDevinForEnterprise on Devin 1st Anniv Meetup
by
Masaki Yamakawa
Machine Tests Benchmark Suite. Explain github.com/alexziskind1/machine_tests #2
by
Tasuku Takahashi
流行りに乗っかるClaris FileMaker 〜AI関連機能の紹介〜 by 合同会社イボルブ
by
Evolve LLC.
楽々ナレッジベース「楽ナレ」3種比較 - Dify / AWS S3 Vector / Google File Search Tool
by
Kiyohide Yamaguchi
エンジニアが選ぶべきAIエディタ & Antigravity 活用例@ウェビナー「触ってみてどうだった?Google Antigravity 既存IDEと...
by
NorihiroSunada
Machine Tests Benchmark Suite. Explain github.com/alexziskind1/machine_tests #1
by
Tasuku Takahashi
20251210_MultiDevinForEnterprise on Devin 1st Anniv Meetup
by
Masaki Yamakawa
Dataflow(python)を使ってelasticsearchにデータを移行した話
1.
Dataflow (Python) を使って Elasticsearchにデータを移行した話 (株)エーピーコミュニケーションズ
山岡 亮 2018/03/02
2.
自己紹介 • 山岡 亮(やまおか
りょう) • (株)エーピーコミュニケーションズ • 新規自社サービス立ち上げ事業部に所属(5人) • NEIGHBORSというサービスを作っています (Riot.js + AppEngine Golang) • 仕事ではGCPしか使っていないのに AWS SA Professional持ちです (趣味で取りました) Qiita https://qiita.com/ryo-yamaoka Twitter https://twitter.com/mountainhill14
3.
背景 • こ
4.
・サービスのコンセプト「自分一人では気付けない情報やニーズ、面白さを知る」 ・Google検索は1→100にすることはできるが、0→1には向いていない(何を知りたいかわかっているものは 調べられるが、調べるべき対象が確定されていないと調べようがない) ・例えば皆さん「グヤーシュ」という料理をご存知ですか?多分知らないですよね? 実はすごく美味しいハンガリー料理です。でも皆さんはその存在を知らないので今これを知った瞬間まで 調べることさえできませんでしたよね? そういったものをピックアップすることを目指しているサービスです ・具体的にはユーザーをフォローすることができるRSSリーダーで、配信された記事を閲覧すると それがフォロワーに伝達される(読んだ人のアイコンがついてタイムラインの一番先頭に来る)という動きです
5.
https://neighbors.cc/
6.
本日の内容 • NEIGHBORSで全文検索機能を作りたい • アプリケーション側はRSSから取得した記事をElasticsearchに 登録する処理を追加 •
既存の記事(約600,000件のDatastore Entity)を別途移行した 時にやったこと、そこから脱線して遊んでみたことを共有します
7.
構成 • Datastore Property •
記事タイトル • 記事概要 • URL • 登録日時 • Elasticsearch • ElasticCloud(GCP)を使用 asia-northeast-1はよ
8.
構成 • Datastore Property •
記事タイトル • 記事概要 • URL • 登録日時 • Elasticsearch • ElasticCloud(GCP)を使用 asia-northeast-1はよ ←ここに対して全文検索をかけたい
9.
最初にやったこと • Dataflowを使う • Elasticsearchを扱うPythonライブラリがあったので、1エンティティずつ 投入する処理にした •
Bulkじゃないので遅いだろうけど、まぁ1回ポッキリだしちょっとくらい 遅くてもいいやという軽い気持ちでやってみた
10.
が、ダメ
11.
あまりにも遅すぎた
12.
3件/secくらい https://github.com/twitter/twemoji ・600,000 / 3
/ 3,600 ≒ 55時間……?! ・ワーカーをマシマシにしてみたが20件/secくらいが限界だった ・流石にちょっと安直過ぎた
13.
次にやったこと • 真面目にAppEngineのTaskQueueでバッチを作った • 128件ずつのBulkでサクッと1,300件/secくらいのスループット •
真っ当な手段で万事解決
14.
次にやったこと • 真面目にAppEngineのTaskQueueでバッチを作った • 128件ずつのBulkでサクッと1,300件/secくらいのスループット •
真っ当な手段で万事解決 • 残念ながら当然の結果
15.
めでたしめでたし
16.
仕事はここで終わったので ちょっと脱線してみました
17.
どうやったら速くなるのか? MythBusters(邦題:怪しい伝説)的脱線
18.
どうする? • やはりBulkを使おう • 当然全Entityを1つに集約するとデカすぎる •
1つあたりxxx件にまとめる、的な都合の良い処理は無いっぽい • 全Entityに乱数を割り振ってそれをキーにして集約しよう
20.
結果 • 上手くいった • 5,000件/secくらいのスループットが出た •
但しGCEで処理するので単価は高い
21.
結果 • 上手くいった • 5,000件/secくらいのスループットが出た •
但しGCEで処理するので単価は高い • やっぱりこの程度の要件だったらTaskQueueのバッチ作った方がいい
22.
結果 • 上手くいった • 5,000件/secくらいのスループットが出た •
但しGCEで処理するので単価は高い • やっぱりこの程度の要件だったらTaskQueueのバッチ作った方がいい • 残念ながら当然の結論
23.
結果
24.
ちなみに
25.
Javaには標準でElasticsearchIOがあります https://github.com/twitter/twemoji
Download