Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
RY
Uploaded by
Ryo Yamaoka
PDF, PPTX
1,573 views
Dataflow(python)を触った所感
2017/11/28 酔いどれGCPUGで発表させて頂いたLTの資料です。 https://gcpug-tokyo.connpass.com/event/71125/
Technology
◦
Read more
1
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 20
2
/ 20
3
/ 20
4
/ 20
5
/ 20
6
/ 20
7
/ 20
8
/ 20
9
/ 20
10
/ 20
11
/ 20
12
/ 20
13
/ 20
14
/ 20
15
/ 20
16
/ 20
17
/ 20
18
/ 20
19
/ 20
20
/ 20
More Related Content
PDF
Dataflow(python)を使ってelasticsearchにデータを移行した話
by
Ryo Yamaoka
PPTX
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
by
Yu Yamada
PDF
Kaggle&競プロ紹介 in 中田研究室
by
Takami Sato
PPTX
Google cloudnext recap_DataAnalytics
by
Yu Yamada
PDF
地域活性化アプリ提案天草編
by
博喜 井上
PDF
知られざる、Alibaba Cloudを支えるオープンソース
by
Shinya Mori (@mosuke5)
PDF
コピー自動生成プロダクトでDataflowを導入した話
by
ShunyoKawamoto
PDF
クラウドコンピューティングでつくるビッグデータ解析のいまとこれから
by
Shohei Kobayashi
Dataflow(python)を使ってelasticsearchにデータを移行した話
by
Ryo Yamaoka
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
by
Yu Yamada
Kaggle&競プロ紹介 in 中田研究室
by
Takami Sato
Google cloudnext recap_DataAnalytics
by
Yu Yamada
地域活性化アプリ提案天草編
by
博喜 井上
知られざる、Alibaba Cloudを支えるオープンソース
by
Shinya Mori (@mosuke5)
コピー自動生成プロダクトでDataflowを導入した話
by
ShunyoKawamoto
クラウドコンピューティングでつくるビッグデータ解析のいまとこれから
by
Shohei Kobayashi
What's hot
PPTX
データプランナーによるデータ系施策について
by
Recruit Lifestyle Co., Ltd.
PDF
20150128 cross2015
by
Akira Shibata
PDF
検索クエリの時間差を可視化することでわかる人の行動パターン #yjdsnight
by
Yahoo!デベロッパーネットワーク
PDF
プロダクト中心のデータ駆動を推進していくために必要なこと
by
Kazuhito Osabe
PDF
Microsoft Search @O365JPFUK
by
HiroakiNagao
PPTX
データを扱いたい!はじめてのAWS
by
ShoichiYashiro
PDF
「R for Cloud Computing」の紹介
by
Takekatsu Hiramura
PDF
読書会のすすめ
by
Satoshi Noto
PDF
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
by
Atsushi Tsuchiya
PDF
『アジャイルデータサイエンス』2章 データ
by
Hisao Soyama
PPTX
PySpark を分析用途に使っている話
by
LINE Corporation
PPTX
Power BI 勉強会 0902 小林 : Power BI と Azure ML でデータサイエンスしてみる
by
寿 小林
PDF
PyData入門(超初心者編)~野球のデータをカジュアルに可視化
by
Shinichi Nakagawa
PPTX
Pythonで時系列のデータを分析してみよう
by
Tatuya Kobayashi
データプランナーによるデータ系施策について
by
Recruit Lifestyle Co., Ltd.
20150128 cross2015
by
Akira Shibata
検索クエリの時間差を可視化することでわかる人の行動パターン #yjdsnight
by
Yahoo!デベロッパーネットワーク
プロダクト中心のデータ駆動を推進していくために必要なこと
by
Kazuhito Osabe
Microsoft Search @O365JPFUK
by
HiroakiNagao
データを扱いたい!はじめてのAWS
by
ShoichiYashiro
「R for Cloud Computing」の紹介
by
Takekatsu Hiramura
読書会のすすめ
by
Satoshi Noto
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
by
Atsushi Tsuchiya
『アジャイルデータサイエンス』2章 データ
by
Hisao Soyama
PySpark を分析用途に使っている話
by
LINE Corporation
Power BI 勉強会 0902 小林 : Power BI と Azure ML でデータサイエンスしてみる
by
寿 小林
PyData入門(超初心者編)~野球のデータをカジュアルに可視化
by
Shinichi Nakagawa
Pythonで時系列のデータを分析してみよう
by
Tatuya Kobayashi
Similar to Dataflow(python)を触った所感
PDF
Google Cloud Dataflow を理解する - #bq_sushi
by
Google Cloud Platform - Japan
PPTX
Tech lounge gcp_20190313
by
yutaka_baba
PPT
Flume
by
あしたのオープンソース研究所
PDF
A practical guide to machine learning on GCP
by
Hayato Yoshikawa
PDF
『じゃらん』『ホットペッパーグルメ』を支えるクラウド・データ基盤
by
Recruit Lifestyle Co., Ltd.
PPTX
データ集計基盤のいままでとこれから 〜Hadoopからdataflowまで使い込んだ経験を徹底共有〜
by
Kazuhiro Mitsuhashi
PDF
最新版Hadoopクラスタを運用して得られたもの
by
cyberagent
PDF
Why Reactive Matters #ScalaMatsuri
by
Yuta Okamoto
PDF
Google Cloud Platformでソーシャルゲームを1本出してみた!
by
Hasegawa Yusuke
PDF
GCP本格採用で遭遇した課題とマイクロサービス的解決
by
Google Cloud Platform - Japan
PDF
Google cloudinside3
by
Masaki Toyoshima
PDF
Storm×couchbase serverで作るリアルタイム解析基盤
by
NTT Communications Technology Development
PDF
リアルタイム処理エンジンGearpumpの紹介
by
Sotaro Kimura
PDF
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
by
Daisuke Ikeda
PDF
GCをみればRTSが見えてくる、かも。。。
by
dec9ue
PDF
CQRS+ES on GCP
by
Masaki Toyoshima
PDF
Facebookのリアルタイム Big Data 処理
by
maruyama097
PDF
なぜリアクティブは重要か #ScalaMatsuri
by
Yuta Okamoto
PPTX
gcpug_okinawa_#2_hiroshi_kawakami
by
Hiroshi Kawakami
PDF
プロファイラGuiを用いたコード分析 20160610
by
HIDEOMI SUZUKI
Google Cloud Dataflow を理解する - #bq_sushi
by
Google Cloud Platform - Japan
Tech lounge gcp_20190313
by
yutaka_baba
Flume
by
あしたのオープンソース研究所
A practical guide to machine learning on GCP
by
Hayato Yoshikawa
『じゃらん』『ホットペッパーグルメ』を支えるクラウド・データ基盤
by
Recruit Lifestyle Co., Ltd.
データ集計基盤のいままでとこれから 〜Hadoopからdataflowまで使い込んだ経験を徹底共有〜
by
Kazuhiro Mitsuhashi
最新版Hadoopクラスタを運用して得られたもの
by
cyberagent
Why Reactive Matters #ScalaMatsuri
by
Yuta Okamoto
Google Cloud Platformでソーシャルゲームを1本出してみた!
by
Hasegawa Yusuke
GCP本格採用で遭遇した課題とマイクロサービス的解決
by
Google Cloud Platform - Japan
Google cloudinside3
by
Masaki Toyoshima
Storm×couchbase serverで作るリアルタイム解析基盤
by
NTT Communications Technology Development
リアルタイム処理エンジンGearpumpの紹介
by
Sotaro Kimura
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
by
Daisuke Ikeda
GCをみればRTSが見えてくる、かも。。。
by
dec9ue
CQRS+ES on GCP
by
Masaki Toyoshima
Facebookのリアルタイム Big Data 処理
by
maruyama097
なぜリアクティブは重要か #ScalaMatsuri
by
Yuta Okamoto
gcpug_okinawa_#2_hiroshi_kawakami
by
Hiroshi Kawakami
プロファイラGuiを用いたコード分析 20160610
by
HIDEOMI SUZUKI
Recently uploaded
PDF
流行りに乗っかるClaris FileMaker 〜AI関連機能の紹介〜 by 合同会社イボルブ
by
Evolve LLC.
PPTX
楽々ナレッジベース「楽ナレ」3種比較 - Dify / AWS S3 Vector / Google File Search Tool
by
Kiyohide Yamaguchi
PDF
20251210_MultiDevinForEnterprise on Devin 1st Anniv Meetup
by
Masaki Yamakawa
PDF
エンジニアが選ぶべきAIエディタ & Antigravity 活用例@ウェビナー「触ってみてどうだった?Google Antigravity 既存IDEと...
by
NorihiroSunada
PDF
Machine Tests Benchmark Suite. Explain github.com/alexziskind1/machine_tests #2
by
Tasuku Takahashi
PDF
Machine Tests Benchmark Suite. Explain github.com/alexziskind1/machine_tests #1
by
Tasuku Takahashi
流行りに乗っかるClaris FileMaker 〜AI関連機能の紹介〜 by 合同会社イボルブ
by
Evolve LLC.
楽々ナレッジベース「楽ナレ」3種比較 - Dify / AWS S3 Vector / Google File Search Tool
by
Kiyohide Yamaguchi
20251210_MultiDevinForEnterprise on Devin 1st Anniv Meetup
by
Masaki Yamakawa
エンジニアが選ぶべきAIエディタ & Antigravity 活用例@ウェビナー「触ってみてどうだった?Google Antigravity 既存IDEと...
by
NorihiroSunada
Machine Tests Benchmark Suite. Explain github.com/alexziskind1/machine_tests #2
by
Tasuku Takahashi
Machine Tests Benchmark Suite. Explain github.com/alexziskind1/machine_tests #1
by
Tasuku Takahashi
Dataflow(python)を触った所感
1.
GCP Dataflow (Python)
を触った所感 (株)エーピーコミュニケーションズ 山岡 亮 2017/11/28
2.
自己紹介 • 山岡 亮(やまおか
りょう) • (株)エーピーコミュニケーションズ • 新規自社サービス立ち上げ部隊に所属(5人) • Webアプリのバックエンド、自動化周りを担当中 • 前職は新潟県の温泉旅館で経理事務担当 Qiita https://qiita.com/ryo-yamaoka Twitter https://twitter.com/mountainhill14
3.
背景 • ここ最近はWebサービスの開発を担当しています • AppEngine
SE + Golang • まだ未発表のプロダクトなのですが、今後ユーザー数が増えた場合に アクセスログの分析等でサービスの改善や収益化に役立てて行こう という野望を抱いています • その処理基盤の候補としてDataflowを触ってみましたので、 内容と所感についてお話します
4.
やってみたこと • WordCount • 巨大なリストを生成して大量の乱数生成結果をカウント •
Datastoreに格納されている大量のデータをJanomeで 形態素解析してJSONに変換しGCSに結果を出力する
5.
WordCount • 言わずと知れた分散処理界隈のHello, World
6.
朝飯前
7.
乱数カウント • 10億行の配列を生成してrandom.choice()の結果を 格納しカウントする
8.
昼飯前
9.
躓いたところ、解決法、活用方法 • いきなり beam.Create([0]
* 1000000000) とやって OOMで死亡(そりゃそうだ) • FlatMapで1000倍ずつ増やすことを2回繰り返して回避
10.
躓いたところ、解決法、活用方法 • いきなり beam.Create([0]
* 1000000000) とやって OOMで死亡(そりゃそうだ) • FlatMapで1000倍ずつ増やすことを2回繰り返して回避 • お昼ご飯のメニューに迷った場合のソリューションとして使える • 蒙古タンメン中●にするか、それともラーメン●郎にするか
11.
大量のデータを形態素解析 • Datastoreに格納されているデータをJanomeで形態素解析 してGCSに結果を出力する • RSSフィードから収集したタイトルと概要、約31万件レコード •
それを結合して単語毎に区切ったJSONに変換 • n1-highcpu-4指定で約1時間かかった (ピーク時10台までオートスケールした) URL タイトル 概要 日時 http://www.kiji.jp/xxx.html 本日は晴天なり…… この記事は云々…… 1508310060 {"http://www.kiji.jp/xxx.html": ["本日", "は", "晴天", "なり", "この", "記事", "は", "云々"]}
12.
夕飯前
13.
躓いたところ、解決法 • ある程度までオートスケーリングが大きくなると起動失敗 を繰り返す事象が発生 • グローバルアドレスとCPUコア数がソフトリミットに引っかかっていた •
申請直後に拡大されたので一定数以下は恐らく自動対応 • requirements.txtを使った環境構築に失敗する • pkg-resources==0.0.0 が無いというエラーが発生 • その原因は……
14.
Ubuntuのバグでした https://github.com/twitter/twemoji
15.
バグでした • Ubuntu16.04が変なメタデータを渡してくるのが原因 • https://github.com/pypa/pip/issues/4022 pip
freeze includes "pkg-resources==0.0.0" (Ubuntu Server 16.04 LTS) • pip freeze > requirements.txt で出力したら pkg-resources==0.0.0 の行を削除して再度実行すれば無事に動きます
16.
Apache Beamの所感 • ここが良い •
初学者でも手軽に分散処理を書ける • 後から知りましたがPySparkに類似な雰囲気のコードです • 開発が活発(GitHubの通知は切った方がいいです) • ここがイマイチ • Python対応がまだちょっと弱いので今後に期待 • Streamingを始め未対応機能がチラホラ…… • 特に是非Python3系へ対応を……(切実
17.
GCP Dataflowの所感 • ここが良い •
Dataprocより尚手軽に使える分散処理基盤で揺り籠から 墓場までVMの運用管理を全く気にする必要が無く非常に楽 • ここがイマイチ • Dataflowを使ったフローをどう組むか? • AppEngineからKick……? • Apache Airflow! • PreemptibleVMに非対応なのでお金が嵩みやすい
18.
一番ハマったところ
19.
公式日本語ドky(以下略
20.
ご清聴ありがとうございました
Download