データ分析基盤の憂鬱と退屈

データ分析基盤の憂鬱と退屈
@shoe116

今日話すこと
0. whoami
1. データ分析基盤の憂鬱
1. データ量に対してコストがスケールする
2. 顧客が本当に必要だったもの
2. データ分析基盤の退屈：
1. 結局のところ、使う側次第
2. なんかすごそうだけど、地味

0. whoami
なまえ：しゅう (@shoe116)
お仕事：広告系エンジニア→データ分析基盤屋屋さん
推し事：ももくろ→でんぱ組→BiSH→CY8ER
関連語：hadoop, kafka, storm, hive
最近のトピックス：
1. 転職までの無職期間（３週間）ヨーロッパふらふらした
2. バフェット・コード作った https://www.buffett-code.com/
3. CY8ERの苺りなはむに名前覚えられた（俗に言う認知）

1.1 データ量に対してコストがスケールする
- 本来、分析作業が生む価値に合わせてスケールするべき
- 通常のトランザクションデータとは本質的に異なる
- サービス用のデータは、その成長に対してスケール
- 取得するログは無尽蔵に増やせるし増やしたくなる
- ほとんどの場合、下記のすべてがスケールしてしまう
- CPU/メモリ/ストレージ/ネットワーク
- システムの管理コスト
- 1つの処理にかかる時間 or 並列実行数

1. 2 顧客が本当に必要だったもの
- 「基盤」と聞くと夢が広がる
- 環境的な：でかいストレージ、すごいコンピュート
- 管理的な：ACL、セキュリティ、スキーマ情報
- DWH的な：分析しやすい良さげなテーブルが揃う
- データサイエンティストに求められるスキルセット問題
- ビジネス力
- データササイエンス力
- データエンジニア力
- “基盤”で全部解決するの無理ｗ

2.1 結局の所、使う側次第
- 分析基盤の価値は利用者個人個人に委ねられる
- 環境的な：自分がやりたいことができるか
- 管理的な：使いたいけど、管理はめんどくさい
- DWH的な：自分にとって必要なデータの有無
- 分析基盤の性能は、使い方に大きく依存する
- DBのデザインやスキーマ設計
- 圧縮アルゴリズム、ファイルフォーマット
- アホなクエリはどうしたって遅い

2.1 なんかすごそうだけど、地味
- 要件自体はひたすらシンプル
- 漏れなくダブりなく、なる早でデータを集める
- 処理効率が高く、圧縮が効く形でデータを保存
- 分析者が利用しやすい形でデータを提供する
- 技術的には楽しくて仕方ないけど、地味
- チューニングで劇的に性能が左右される
- 分散システム、圧縮、ソート、インデックス生成etc
- 何がどうすごくなったか、なかなか伝わらない

関連資料
- データサイエンティストのスキルセット
- http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
- データサイエンティストの憂鬱
- http://shoe116.hatenablog.com/entry/2016/04/04/084113
- バフェット・コード
- https://www.buffett-code.com/
- https://github.com/BuffetCode/edinet_xbrl
- CY8ERと苺りなはむ
- http://icigostyle.com/
- https://twitter.com/CY8ERinfo
- https://twitter.com/rinahamu

データ分析基盤の憂鬱と退屈

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Shu (shoe116)

More from Shu (shoe116) (8)

データ分析基盤の憂鬱と退屈