SlideShare a Scribd company logo
データ分析基盤の憂鬱と退屈
@shoe116
今日話すこと
0. whoami
1. データ分析基盤の憂鬱
1. データ量に対してコストがスケールする
2. 顧客が本当に必要だったもの
2. データ分析基盤の退屈:
1. 結局のところ、使う側次第
2. なんかすごそうだけど、地味
0. whoami
なまえ:しゅう (@shoe116)
お仕事:広告系エンジニア→データ分析基盤屋屋さん
推し事:ももくろ→でんぱ組→BiSH→CY8ER
関連語:hadoop, kafka, storm, hive
最近のトピックス:
1. 転職までの無職期間(3週間)ヨーロッパふらふらした
2. バフェット・コード作った https://www.buffett-code.com/
3. CY8ERの苺りなはむに名前覚えられた(俗に言う認知)
1. データ基盤の憂鬱
1.1 データ量に対してコストがスケールする
- 本来、分析作業が生む価値に合わせてスケールするべき
- 通常のトランザクションデータとは本質的に異なる
- サービス用のデータは、その成長に対してスケール
- 取得するログは無尽蔵に増やせるし増やしたくなる
- ほとんどの場合、下記のすべてがスケールしてしまう
- CPU/メモリ/ストレージ/ネットワーク
- システムの管理コスト
- 1つの処理にかかる時間 or 並列実行数
1. 2 顧客が本当に必要だったもの
- 「基盤」と聞くと夢が広がる
- 環境的な:でかいストレージ、すごいコンピュート
- 管理的な:ACL、セキュリティ、スキーマ情報
- DWH的な:分析しやすい良さげなテーブルが揃う
- データサイエンティストに求められるスキルセット問題
- ビジネス力
- データササイエンス力
- データエンジニア力
- “基盤”で全部解決するの無理w
1. データ基盤の退屈
2.1 結局の所、使う側次第
- 分析基盤の価値は利用者個人個人に委ねられる
- 環境的な:自分がやりたいことができるか
- 管理的な:使いたいけど、管理はめんどくさい
- DWH的な:自分にとって必要なデータの有無
- 分析基盤の性能は、使い方に大きく依存する
- DBのデザインやスキーマ設計
- 圧縮アルゴリズム、ファイルフォーマット
- アホなクエリはどうしたって遅い
2.1 なんかすごそうだけど、地味
- 要件自体はひたすらシンプル
- 漏れなくダブりなく、なる早でデータを集める
- 処理効率が高く、圧縮が効く形でデータを保存
- 分析者が利用しやすい形でデータを提供する
- 技術的には楽しくて仕方ないけど、地味
- チューニングで劇的に性能が左右される
- 分散システム、圧縮、ソート、インデックス生成etc
- 何がどうすごくなったか、なかなか伝わらない
関連資料
- データサイエンティストのスキルセット
- http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
- データサイエンティストの憂鬱
- http://shoe116.hatenablog.com/entry/2016/04/04/084113
- バフェット・コード
- https://www.buffett-code.com/
- https://github.com/BuffetCode/edinet_xbrl
- CY8ERと苺りなはむ
- http://icigostyle.com/
- https://twitter.com/CY8ERinfo
- https://twitter.com/rinahamu

More Related Content

What's hot

20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国
Yusuke Sato
 
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
Tokoroten Nakayama
 

What's hot (20)

20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国20121123_bulkloaderを使ってみよう@GDG中国
20121123_bulkloaderを使ってみよう@GDG中国
 
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
いろいろなストリーム処理プロダクトをベンチマークしてみた #hcj2016
 
Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道Fess/Elasticsearchを使った業務で使える?全文検索への道
Fess/Elasticsearchを使った業務で使える?全文検索への道
 
Apache sparkとapache cassandraで行うテキスト解析
Apache sparkとapache cassandraで行うテキスト解析Apache sparkとapache cassandraで行うテキスト解析
Apache sparkとapache cassandraで行うテキスト解析
 
Firestoreでマスタ取得を
効率化するいくつかの方法
Firestoreでマスタ取得を
効率化するいくつかの方法Firestoreでマスタ取得を
効率化するいくつかの方法
Firestoreでマスタ取得を
効率化するいくつかの方法
 
LastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめようLastaFluteでKotlinをはじめよう
LastaFluteでKotlinをはじめよう
 
pg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいことpg_bigmを触り始めた人に伝えたいこと
pg_bigmを触り始めた人に伝えたいこと
 
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
 
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
NetAppのデータ管理をPuppetで。〜APIとコミュニティのオープン性〜 - 渡邊 誠 、ネットアップ株式会社
 
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
 
第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート第1回Hadoop関西勉強会参加レポート
第1回Hadoop関西勉強会参加レポート
 
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
 
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
 
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
 
pg_bigmと類似度検索
pg_bigmと類似度検索pg_bigmと類似度検索
pg_bigmと類似度検索
 
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
 
20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet20151205 Japan.R SparkRとParquet
20151205 Japan.R SparkRとParquet
 
各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較各種データベースの特徴とパフォーマンス比較
各種データベースの特徴とパフォーマンス比較
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 
20120223 fb researchの舞台裏
20120223 fb researchの舞台裏20120223 fb researchの舞台裏
20120223 fb researchの舞台裏
 

More from Shu (shoe116)

More from Shu (shoe116) (8)

GCPでStreamなデータパイプライン作った
GCPでStreamなデータパイプライン作ったGCPでStreamなデータパイプライン作った
GCPでStreamなデータパイプライン作った
 
オープンデータを利用した企業分析ツール"Buffett-Code"について
オープンデータを利用した企業分析ツール"Buffett-Code"についてオープンデータを利用した企業分析ツール"Buffett-Code"について
オープンデータを利用した企業分析ツール"Buffett-Code"について
 
analists_rating_by_lda_hackday_201702
analists_rating_by_lda_hackday_201702analists_rating_by_lda_hackday_201702
analists_rating_by_lda_hackday_201702
 
データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈データサイエンティストの憂鬱と退屈
データサイエンティストの憂鬱と退屈
 
idoling_approval_desire
idoling_approval_desireidoling_approval_desire
idoling_approval_desire
 
tokyo_webmining_no51
tokyo_webmining_no51tokyo_webmining_no51
tokyo_webmining_no51
 
Hadoop Ops & Fabric
Hadoop Ops & FabricHadoop Ops & Fabric
Hadoop Ops & Fabric
 
エンジニアが日々何を考えているのか、ということ
エンジニアが日々何を考えているのか、ということエンジニアが日々何を考えているのか、ということ
エンジニアが日々何を考えているのか、ということ
 

Recently uploaded

ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
miyp
 

Recently uploaded (8)

エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
 
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
 
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
 
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
 
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHubCompute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
 
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する  CTO・VPoEに聞く by DIGGLE CTO 水上【登壇資料】スタートアップCTO経験からキャリアについて再考する  CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
 
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
 
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
 

データ分析基盤の憂鬱と退屈