SlideShare a Scribd company logo
1 of 10
Download to read offline
データ分析基盤の憂鬱と退屈
@shoe116
今日話すこと
0. whoami
1. データ分析基盤の憂鬱
1. データ量に対してコストがスケールする
2. 顧客が本当に必要だったもの
2. データ分析基盤の退屈:
1. 結局のところ、使う側次第
2. なんかすごそうだけど、地味
0. whoami
なまえ:しゅう (@shoe116)
お仕事:広告系エンジニア→データ分析基盤屋屋さん
推し事:ももくろ→でんぱ組→BiSH→CY8ER
関連語:hadoop, kafka, storm, hive
最近のトピックス:
1. 転職までの無職期間(3週間)ヨーロッパふらふらした
2. バフェット・コード作った https://www.buffett-code.com/
3. CY8ERの苺りなはむに名前覚えられた(俗に言う認知)
1. データ基盤の憂鬱
1.1 データ量に対してコストがスケールする
- 本来、分析作業が生む価値に合わせてスケールするべき
- 通常のトランザクションデータとは本質的に異なる
- サービス用のデータは、その成長に対してスケール
- 取得するログは無尽蔵に増やせるし増やしたくなる
- ほとんどの場合、下記のすべてがスケールしてしまう
- CPU/メモリ/ストレージ/ネットワーク
- システムの管理コスト
- 1つの処理にかかる時間 or 並列実行数
1. 2 顧客が本当に必要だったもの
- 「基盤」と聞くと夢が広がる
- 環境的な:でかいストレージ、すごいコンピュート
- 管理的な:ACL、セキュリティ、スキーマ情報
- DWH的な:分析しやすい良さげなテーブルが揃う
- データサイエンティストに求められるスキルセット問題
- ビジネス力
- データササイエンス力
- データエンジニア力
- “基盤”で全部解決するの無理w
1. データ基盤の退屈
2.1 結局の所、使う側次第
- 分析基盤の価値は利用者個人個人に委ねられる
- 環境的な:自分がやりたいことができるか
- 管理的な:使いたいけど、管理はめんどくさい
- DWH的な:自分にとって必要なデータの有無
- 分析基盤の性能は、使い方に大きく依存する
- DBのデザインやスキーマ設計
- 圧縮アルゴリズム、ファイルフォーマット
- アホなクエリはどうしたって遅い
2.1 なんかすごそうだけど、地味
- 要件自体はひたすらシンプル
- 漏れなくダブりなく、なる早でデータを集める
- 処理効率が高く、圧縮が効く形でデータを保存
- 分析者が利用しやすい形でデータを提供する
- 技術的には楽しくて仕方ないけど、地味
- チューニングで劇的に性能が左右される
- 分散システム、圧縮、ソート、インデックス生成etc
- 何がどうすごくなったか、なかなか伝わらない
関連資料
- データサイエンティストのスキルセット
- http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
- データサイエンティストの憂鬱
- http://shoe116.hatenablog.com/entry/2016/04/04/084113
- バフェット・コード
- https://www.buffett-code.com/
- https://github.com/BuffetCode/edinet_xbrl
- CY8ERと苺りなはむ
- http://icigostyle.com/
- https://twitter.com/CY8ERinfo
- https://twitter.com/rinahamu

More Related Content

What's hot

20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国Yusuke Sato
 
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016Yahoo!デベロッパーネットワーク
 
Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道Shinsuke Sugaya
 
Apache sparkとapache cassandraで行うテキスト解析
Apache sparkとapache cassandraで行うテキスト解析Apache sparkとapache cassandraで行うテキスト解析
Apache sparkとapache cassandraで行うテキスト解析Kazutaka Tomita
 
Firestoreでマスタ取得を
効率化するいくつかの方法
Firestoreでマスタ取得を
効率化するいくつかの方法Firestoreでマスタ取得を
効率化するいくつかの方法
Firestoreでマスタ取得を
効率化するいくつかの方法Hirotaka Nishimiya
 
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめようLastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめようShinsuke Sugaya
 
pg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいことpg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいことMasahiko Sawada
 
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015Yahoo!デベロッパーネットワーク
 
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社Puppet
 
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話Tokoroten Nakayama
 
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポートYou&I
 
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話Tokoroten Nakayama
 
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用Yoshikazu Suganuma
 
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道Yasushi Hara
 
pg_bigmと類似度検索
pg_bigmと類似度検索pg_bigmと類似度検索
pg_bigmと類似度検索Masahiko Sawada
 
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみようYasushi Hara
 
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquetRyuji Tamagawa
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめYasushi Hara
 
20120223 fb researchの舞台裏
20120223 fb researchの舞台裏20120223 fb researchの舞台裏
20120223 fb researchの舞台裏Masahiro Hiramitsu
 

What's hot (20)

20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国
 
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
 
Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道
 
Apache sparkとapache cassandraで行うテキスト解析
Apache sparkとapache cassandraで行うテキスト解析Apache sparkとapache cassandraで行うテキスト解析
Apache sparkとapache cassandraで行うテキスト解析
 
Firestoreでマスタ取得を
効率化するいくつかの方法
Firestoreでマスタ取得を
効率化するいくつかの方法Firestoreでマスタ取得を
効率化するいくつかの方法
Firestoreでマスタ取得を
効率化するいくつかの方法
 
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめようLastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめよう
 
pg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいことpg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいこと
 
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
 
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
 
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
 
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
 
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
 
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
 
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
 
pg_bigmと類似度検索
pg_bigmと類似度検索pg_bigmと類似度検索
pg_bigmと類似度検索
 
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
 
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
 
各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 
20120223 fb researchの舞台裏
20120223 fb researchの舞台裏20120223 fb researchの舞台裏
20120223 fb researchの舞台裏
 

More from Shu (shoe116)

GCPでStreamなデータパイプライン作った
GCPでStreamなデータパイプライン作ったGCPでStreamなデータパイプライン作った
GCPでStreamなデータパイプライン作ったShu (shoe116)
 
オープンデータを利用した企業分析ツール"Buffett-Code"について
オープンデータを利用した企業分析ツール"Buffett-Code"についてオープンデータを利用した企業分析ツール"Buffett-Code"について
オープンデータを利用した企業分析ツール"Buffett-Code"についてShu (shoe116)
 
analists_rating_by_lda_hackday_201702
analists_rating_by_lda_hackday_201702analists_rating_by_lda_hackday_201702
analists_rating_by_lda_hackday_201702Shu (shoe116)
 
データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈Shu (shoe116)
 
idoling_approval_desire
idoling_approval_desireidoling_approval_desire
idoling_approval_desireShu (shoe116)
 
tokyo_webmining_no51
tokyo_webmining_no51tokyo_webmining_no51
tokyo_webmining_no51Shu (shoe116)
 
エンジニアが日々何を考えているのか、ということ
エンジニアが日々何を考えているのか、ということエンジニアが日々何を考えているのか、ということ
エンジニアが日々何を考えているのか、ということShu (shoe116)
 

More from Shu (shoe116) (8)

GCPでStreamなデータパイプライン作った
GCPでStreamなデータパイプライン作ったGCPでStreamなデータパイプライン作った
GCPでStreamなデータパイプライン作った
 
オープンデータを利用した企業分析ツール"Buffett-Code"について
オープンデータを利用した企業分析ツール"Buffett-Code"についてオープンデータを利用した企業分析ツール"Buffett-Code"について
オープンデータを利用した企業分析ツール"Buffett-Code"について
 
analists_rating_by_lda_hackday_201702
analists_rating_by_lda_hackday_201702analists_rating_by_lda_hackday_201702
analists_rating_by_lda_hackday_201702
 
データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈
 
idoling_approval_desire
idoling_approval_desireidoling_approval_desire
idoling_approval_desire
 
tokyo_webmining_no51
tokyo_webmining_no51tokyo_webmining_no51
tokyo_webmining_no51
 
Hadoop Ops & Fabric
Hadoop Ops & FabricHadoop Ops & Fabric
Hadoop Ops & Fabric
 
エンジニアが日々何を考えているのか、ということ
エンジニアが日々何を考えているのか、ということエンジニアが日々何を考えているのか、ということ
エンジニアが日々何を考えているのか、ということ
 

データ分析基盤の憂鬱と退屈