PySpark を分析用途に使っている話

© LINE Data Labs
Pyparkを分析用途に使っている話
LINE株式会社 DataLabs
丸尾大貴

© LINE Data Labs
話すこと/話さないこと
話さないこと
🙅PySpark/Sparkの中身のはなし（正直全くわからない）
🙅高度な分析
話すこと
🙆PySparkが日常の統計分析業務をカバーできること

© LINE Data Labs
分析とその活用のプロセス
現状把握仮説の立案データ分析
施策の
策定・実行
効果測定

© LINE Data Labs
例題:架空のサブスクリプションサービスの分析
・2週間単位で契約するものとする
・プランは一つしかなくて定額制=ARPPUは不変とする
・以下のテーブルが登場

© LINE Data Labs
現状把握:KPIツリーの作成
Subscriber
# of New user
Conversion
rate
Subscriber× × Retention rate
Revenue
ARPPU×

© LINE Data Labs
現状把握:可視化の例
ある日のsubscriberの数を計算する簡単なクエリ
SQLで工夫できる？かもしれないが、
普通にやるならデイリーバッチ回したい

© LINE Data Labs
現状把握:可視化の例

© LINE Data Labs
仮説の立案:KPI向上のための仮説立案
hypo Zhypo Yhypo A ……
Subscriber
# of New user
Conversion
rate
# of Continue
user× ×
Revenue
ARPPU
Retention rate

© LINE Data Labs
データ分析:データマートの作成
user_no is_ret feature1 … feature200
200 1 200 … A
664 0 40 … C

© LINE Data Labs
・pysparkで同様の判定をすることもできる
ただし、lead/when/isnull/otherwiseの組み合わせで、結構しんどい
・しかも、joinと順番を入れ替えるとバグる（あたりまえだがハマる）
・SQLのほうが総合的には楽な場合もある（コードは短い？）

© LINE Data Labs
・さっきと同じ集計もできる

© LINE Data Labs
・for文で回せそうな処理がある場合はpysparkが便利
SQLベタ書きするとメンテ性がすこぶる悪化する場面を避けられる

© LINE Data Labs
データ分析:モデルの訓練
user_no is_ret feature1 … feature200
200 1 200 … A
664 0 40 … C

© LINE Data Labs
データ分析:モデルの訓練
・scikitともうほとんど変わらないレベルでお手軽にかける
ただ、特定の形式しか受け付けないなどでけっこうハマる
ハマったらまず前処理のAPIを見ることを推奨(ml.feature)

© LINE Data Labs
データ分析:モデルのcross validation
・cv用のモジュールも充実。CrossValidatorに3つ渡すだけ、シンプル。

© LINE Data Labs
データ分析:重要な特徴量の検証
・よくある重要度plotもお茶の子さいさい
sum(action)

© LINE Data Labs
効果測定:A/Bテストの集計

© LINE Data Labs
効果測定:比率の差の検定
・Pandasで受けてstatsmodelsにわたして検定もできる

© LINE Data Labs
Tips1:SQLで書けるのでレビューが楽
python派
R派
tableau派
・SQLが実質的にチームの共通言語となっている
🙅pandas
🙆dplyr
👩SQL
🙆pandas
🙅dplyr
👩SQL
🙅pandas
🙅dplyr
🙆SQL

© LINE Data Labs
Tips2:df.cache()を使ってgroupbyしまくろう
・分析用のテーブルを作ってからキャッシュする
・その後様々な切り口でorder_all.groupby()することができる
・探索的分析の速度・確度が上がる

© LINE Data Labs
Tips3:RDD/udfはやめよう
ド
ラ
イ
バ
ー
ド
ラ
イ
バ
ー
DataFrame API RDD/Python UDF
エグゼキューター
・UDFを書いちゃうとjavaとpythonインタプリタの間でデータのやり取り
が起きて性能劣化。改善の取り組みもあるが、改善されるまではオススメ
しない。(世の中のUDF書きまくりのspark本をそのままpythonにしては🙅)

© LINE Data Labs
Tips4:cross validation周辺が賢くなるぞ
・現状Cross Validatorが賢くない
パラメータとデータセットに対して直列にtrainしていく
(つまりパラメータの組み合わせ数×CVの分割数だけ直列に時間がかかる)
Model1-param1
Model3-param1
Model2-param1
Model4-param1
Model1-param2
Model3-param2
Model2-param2
Model4-param2
Train1
Train2
Train3
Train4

© LINE Data Labs
特徴量/
データ
マート
最高に自由度高い最高という人もいる大量に特徴量つくりたい
ときは不向き
分析用の
機械学習
最高にお手軽 sparklyR使ったことない
のでわからない
🙅バッドノウハウ
※決してSQLで協調フィルタなどを実装することを批判するものではあり
ません

PySpark を分析用途に使っている話

More Related Content

What's hot

More from LINE Corporation

Recently uploaded

PySpark を分析用途に使っている話