PySpark を分析用途に使っている話

© LINE Data Labs
Pyparkを分析用途に使っている話
LINE株式会社 DataLabs
丸尾大貴

© LINE Data Labs
話すこと/話さないこと
話さないこと
🙅PySpark/Sparkの中身のはなし（正直全くわからない）
🙅高度な分析
話すこと
🙆PySparkが日常の統計分析業務をカバーできること

© LINE Data Labs
分析とその活用のプロセス
現状把握仮説の立案データ分析
施策の
策定・実行
効果測定

© LINE Data Labs
例題:架空のサブスクリプションサービスの分析
・2週間単位で契約するものとする
・プランは一つしかなくて定額制=ARPPUは不変とする
・以下のテーブルが登場

© LINE Data Labs
現状把握:KPIツリーの作成
Subscriber
# of New user
Conversion
rate
Subscriber× × Retention rate
Revenue
ARPPU×

© LINE Data Labs
現状把握:可視化の例
ある日のsubscriberの数を計算する簡単なクエリ
SQLで工夫できる？かもしれないが、
普通にやるならデイリーバッチ回したい

© LINE Data Labs
現状把握:可視化の例

© LINE Data Labs
仮説の立案:KPI向上のための仮説立案
hypo Zhypo Yhypo A ……
Subscriber
# of New user
Conversion
rate
# of Continue
user× ×
Revenue
ARPPU
Retention rate

© LINE Data Labs
データ分析:データマートの作成
user_no is_ret feature1 … feature200
200 1 200 … A
664 0 40 … C

© LINE Data Labs
・pysparkで同様の判定をすることもできる
ただし、lead/when/isnull/otherwiseの組み合わせで、結構しんどい
・しかも、joinと順番を入れ替えるとバグる（あたりまえだがハマる）
・SQLのほうが総合的には楽な場合もある（コードは短い？）

© LINE Data Labs
・さっきと同じ集計もできる

© LINE Data Labs
・for文で回せそうな処理がある場合はpysparkが便利
SQLベタ書きするとメンテ性がすこぶる悪化する場面を避けられる

© LINE Data Labs
データ分析:モデルの訓練
user_no is_ret feature1 … feature200
200 1 200 … A
664 0 40 … C

© LINE Data Labs
データ分析:モデルの訓練
・scikitともうほとんど変わらないレベルでお手軽にかける
ただ、特定の形式しか受け付けないなどでけっこうハマる
ハマったらまず前処理のAPIを見ることを推奨(ml.feature)

© LINE Data Labs
データ分析:モデルのcross validation
・cv用のモジュールも充実。CrossValidatorに3つ渡すだけ、シンプル。

© LINE Data Labs
データ分析:重要な特徴量の検証
・よくある重要度plotもお茶の子さいさい
sum(action)

© LINE Data Labs
効果測定:A/Bテストの集計

© LINE Data Labs
効果測定:比率の差の検定
・Pandasで受けてstatsmodelsにわたして検定もできる

© LINE Data Labs
Tips1:SQLで書けるのでレビューが楽
python派
R派
tableau派
・SQLが実質的にチームの共通言語となっている
🙅pandas
🙆dplyr
👩SQL
🙆pandas
🙅dplyr
👩SQL
🙅pandas
🙅dplyr
🙆SQL

© LINE Data Labs
Tips2:df.cache()を使ってgroupbyしまくろう
・分析用のテーブルを作ってからキャッシュする
・その後様々な切り口でorder_all.groupby()することができる
・探索的分析の速度・確度が上がる

© LINE Data Labs
Tips3:RDD/udfはやめよう
ド
ラ
イ
バ
ー
ド
ラ
イ
バ
ー
DataFrame API RDD/Python UDF
エグゼキューター
・UDFを書いちゃうとjavaとpythonインタプリタの間でデータのやり取り
が起きて性能劣化。改善の取り組みもあるが、改善されるまではオススメ
しない。(世の中のUDF書きまくりのspark本をそのままpythonにしては🙅)

© LINE Data Labs
Tips4:cross validation周辺が賢くなるぞ
・現状Cross Validatorが賢くない
パラメータとデータセットに対して直列にtrainしていく
(つまりパラメータの組み合わせ数×CVの分割数だけ直列に時間がかかる)
Model1-param1
Model3-param1
Model2-param1
Model4-param1
Model1-param2
Model3-param2
Model2-param2
Model4-param2
Train1
Train2
Train3
Train4

© LINE Data Labs
特徴量/
データ
マート
最高に自由度高い最高という人もいる大量に特徴量つくりたい
ときは不向き
分析用の
機械学習
最高にお手軽 sparklyR使ったことない
のでわからない
🙅バッドノウハウ
※決してSQLで協調フィルタなどを実装することを批判するものではあり
ません

PySpark を分析用途に使っている話

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to PySpark を分析用途に使っている話

Similar to PySpark を分析用途に使っている話 (20)

More from LINE Corporation

More from LINE Corporation (20)

Recently uploaded

Recently uploaded (9)

PySpark を分析用途に使っている話