Submit Search
Upload
データ分析基盤の憂鬱と退屈
•
0 likes
•
680 views
Shu (shoe116)
Follow
データサイエンティストも憂鬱だけど、データ基盤屋も憂鬱だ
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 10
Download now
Download to read offline
Recommended
DataProcessingInBuffettCode-20190213
DataProcessingInBuffettCode-20190213
Shu (shoe116)
データ分析基盤の憂鬱と退屈
データ分析基盤の憂鬱と退屈
Shu Suzuki
Gunosy go2015 06-02
Gunosy go2015 06-02
Yuta Kashino
Pythonデータ分析 第3回勉強会資料 7章
Pythonデータ分析 第3回勉強会資料 7章
Makoto Kawano
Hadoop_startup
Hadoop_startup
Yusuke Shimizu
Rとデータベース 第61回 Tokyo.R
Rとデータベース 第61回 Tokyo.R
Takashi Minoda
傾向スコアを使ったキャンペーン効果検証V1
傾向スコアを使ったキャンペーン効果検証V1
Kazuya Obanayama
分かった気分になるスタックトレース
分かった気分になるスタックトレース
Trash Briefing ,Ltd
Recommended
DataProcessingInBuffettCode-20190213
DataProcessingInBuffettCode-20190213
Shu (shoe116)
データ分析基盤の憂鬱と退屈
データ分析基盤の憂鬱と退屈
Shu Suzuki
Gunosy go2015 06-02
Gunosy go2015 06-02
Yuta Kashino
Pythonデータ分析 第3回勉強会資料 7章
Pythonデータ分析 第3回勉強会資料 7章
Makoto Kawano
Hadoop_startup
Hadoop_startup
Yusuke Shimizu
Rとデータベース 第61回 Tokyo.R
Rとデータベース 第61回 Tokyo.R
Takashi Minoda
傾向スコアを使ったキャンペーン効果検証V1
傾向スコアを使ったキャンペーン効果検証V1
Kazuya Obanayama
分かった気分になるスタックトレース
分かった気分になるスタックトレース
Trash Briefing ,Ltd
20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国
Yusuke Sato
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
Yahoo!デベロッパーネットワーク
Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道
Shinsuke Sugaya
Apache sparkとapache cassandraで行うテキスト解析
Apache sparkとapache cassandraで行うテキスト解析
Kazutaka Tomita
Firestoreでマスタ取得を 効率化するいくつかの方法
Firestoreでマスタ取得を 効率化するいくつかの方法
Hirotaka Nishimiya
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめよう
Shinsuke Sugaya
pg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいこと
Masahiko Sawada
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
Yahoo!デベロッパーネットワーク
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
Puppet
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
Tokoroten Nakayama
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
You&I
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
Tokoroten Nakayama
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
Yoshikazu Suganuma
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
Yasushi Hara
pg_bigmと類似度検索
pg_bigmと類似度検索
Masahiko Sawada
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
Yasushi Hara
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
Ryuji Tamagawa
各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較
株式会社オプト 仙台ラボラトリ
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
Yasushi Hara
20120223 fb researchの舞台裏
20120223 fb researchの舞台裏
Masahiro Hiramitsu
GCPでStreamなデータパイプライン作った
GCPでStreamなデータパイプライン作った
Shu (shoe116)
オープンデータを利用した企業分析ツール"Buffett-Code"について
オープンデータを利用した企業分析ツール"Buffett-Code"について
Shu (shoe116)
More Related Content
What's hot
20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国
Yusuke Sato
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
Yahoo!デベロッパーネットワーク
Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道
Shinsuke Sugaya
Apache sparkとapache cassandraで行うテキスト解析
Apache sparkとapache cassandraで行うテキスト解析
Kazutaka Tomita
Firestoreでマスタ取得を 効率化するいくつかの方法
Firestoreでマスタ取得を 効率化するいくつかの方法
Hirotaka Nishimiya
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめよう
Shinsuke Sugaya
pg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいこと
Masahiko Sawada
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
Yahoo!デベロッパーネットワーク
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
Puppet
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
Tokoroten Nakayama
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
You&I
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
Tokoroten Nakayama
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
Yoshikazu Suganuma
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
Yasushi Hara
pg_bigmと類似度検索
pg_bigmと類似度検索
Masahiko Sawada
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
Yasushi Hara
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
Ryuji Tamagawa
各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較
株式会社オプト 仙台ラボラトリ
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
Yasushi Hara
20120223 fb researchの舞台裏
20120223 fb researchの舞台裏
Masahiro Hiramitsu
What's hot
(20)
20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道
Apache sparkとapache cassandraで行うテキスト解析
Apache sparkとapache cassandraで行うテキスト解析
Firestoreでマスタ取得を 効率化するいくつかの方法
Firestoreでマスタ取得を 効率化するいくつかの方法
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめよう
pg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいこと
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
pg_bigmと類似度検索
pg_bigmと類似度検索
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
20120223 fb researchの舞台裏
20120223 fb researchの舞台裏
More from Shu (shoe116)
GCPでStreamなデータパイプライン作った
GCPでStreamなデータパイプライン作った
Shu (shoe116)
オープンデータを利用した企業分析ツール"Buffett-Code"について
オープンデータを利用した企業分析ツール"Buffett-Code"について
Shu (shoe116)
analists_rating_by_lda_hackday_201702
analists_rating_by_lda_hackday_201702
Shu (shoe116)
データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈
Shu (shoe116)
idoling_approval_desire
idoling_approval_desire
Shu (shoe116)
tokyo_webmining_no51
tokyo_webmining_no51
Shu (shoe116)
Hadoop Ops & Fabric
Hadoop Ops & Fabric
Shu (shoe116)
エンジニアが日々何を考えているのか、ということ
エンジニアが日々何を考えているのか、ということ
Shu (shoe116)
More from Shu (shoe116)
(8)
GCPでStreamなデータパイプライン作った
GCPでStreamなデータパイプライン作った
オープンデータを利用した企業分析ツール"Buffett-Code"について
オープンデータを利用した企業分析ツール"Buffett-Code"について
analists_rating_by_lda_hackday_201702
analists_rating_by_lda_hackday_201702
データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈
idoling_approval_desire
idoling_approval_desire
tokyo_webmining_no51
tokyo_webmining_no51
Hadoop Ops & Fabric
Hadoop Ops & Fabric
エンジニアが日々何を考えているのか、ということ
エンジニアが日々何を考えているのか、ということ
データ分析基盤の憂鬱と退屈
1.
データ分析基盤の憂鬱と退屈 @shoe116
2.
今日話すこと 0. whoami 1. データ分析基盤の憂鬱 1.
データ量に対してコストがスケールする 2. 顧客が本当に必要だったもの 2. データ分析基盤の退屈: 1. 結局のところ、使う側次第 2. なんかすごそうだけど、地味
3.
0. whoami なまえ:しゅう (@shoe116) お仕事:広告系エンジニア→データ分析基盤屋屋さん 推し事:ももくろ→でんぱ組→BiSH→CY8ER 関連語:hadoop,
kafka, storm, hive 最近のトピックス: 1. 転職までの無職期間(3週間)ヨーロッパふらふらした 2. バフェット・コード作った https://www.buffett-code.com/ 3. CY8ERの苺りなはむに名前覚えられた(俗に言う認知)
4.
1. データ基盤の憂鬱
5.
1.1 データ量に対してコストがスケールする - 本来、分析作業が生む価値に合わせてスケールするべき -
通常のトランザクションデータとは本質的に異なる - サービス用のデータは、その成長に対してスケール - 取得するログは無尽蔵に増やせるし増やしたくなる - ほとんどの場合、下記のすべてがスケールしてしまう - CPU/メモリ/ストレージ/ネットワーク - システムの管理コスト - 1つの処理にかかる時間 or 並列実行数
6.
1. 2 顧客が本当に必要だったもの -
「基盤」と聞くと夢が広がる - 環境的な:でかいストレージ、すごいコンピュート - 管理的な:ACL、セキュリティ、スキーマ情報 - DWH的な:分析しやすい良さげなテーブルが揃う - データサイエンティストに求められるスキルセット問題 - ビジネス力 - データササイエンス力 - データエンジニア力 - “基盤”で全部解決するの無理w
7.
1. データ基盤の退屈
8.
2.1 結局の所、使う側次第 - 分析基盤の価値は利用者個人個人に委ねられる -
環境的な:自分がやりたいことができるか - 管理的な:使いたいけど、管理はめんどくさい - DWH的な:自分にとって必要なデータの有無 - 分析基盤の性能は、使い方に大きく依存する - DBのデザインやスキーマ設計 - 圧縮アルゴリズム、ファイルフォーマット - アホなクエリはどうしたって遅い
9.
2.1 なんかすごそうだけど、地味 - 要件自体はひたすらシンプル -
漏れなくダブりなく、なる早でデータを集める - 処理効率が高く、圧縮が効く形でデータを保存 - 分析者が利用しやすい形でデータを提供する - 技術的には楽しくて仕方ないけど、地味 - チューニングで劇的に性能が左右される - 分散システム、圧縮、ソート、インデックス生成etc - 何がどうすごくなったか、なかなか伝わらない
10.
関連資料 - データサイエンティストのスキルセット - http://www.datascientist.or.jp/news/2014/pdf/1210.pdf -
データサイエンティストの憂鬱 - http://shoe116.hatenablog.com/entry/2016/04/04/084113 - バフェット・コード - https://www.buffett-code.com/ - https://github.com/BuffetCode/edinet_xbrl - CY8ERと苺りなはむ - http://icigostyle.com/ - https://twitter.com/CY8ERinfo - https://twitter.com/rinahamu
Download now