Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

こんな分析〇〇はイヤだ -Platium Data meetup vol1 LT-

762 views

Published on

Platinum Data Meetup 第1回のLT資料です。

分析を仕事にする場合に起こりそうなイヤな分析〇〇をまとめました

Published in: Data & Analytics
  • Login to see the comments

  • Be the first to like this

こんな分析〇〇はイヤだ -Platium Data meetup vol1 LT-

  1. 1. こんな分析〇〇はイヤだ 辻 陽行 Platinum Data Meetup LT 【免責事項】 ※本資料での意見は個人の見解であり、所属する組織の公式見解ではありません ※また、こんなことがあったらイヤだなぁと思っているだけで実際にあったとかなかったとかは詮索せぬよう願います
  2. 2. こんな分析PJはイヤだ
  3. 3. どんなデータを使えるのか 誰も知らない
  4. 4. 「使える」とは何か? • RDB形式で構造化されている • 自由記述カラムはダブルクオーテーションで囲っている • テーブル定義書が存在する • PJ担当者と情シス部門担当者が仲良し • データの格納元がExcelじゃない • データの抽出に2週間以上掛からない *担当者が依頼して情シス担当者が「しゃあねぇなぁ。。やってやるか」と気乗りするまでの時間を含む
  5. 5. 「知っている」とは何か? • そもそも持ち出し可能なのかどうかを知っている • 売上実績と顧客マスタだけではどうにもならないことを知って いる • 過去何年分のデータを格納しているか知っている • 履歴を全て残しているのか、Updateを掛けて最新分のみを残し ているだけなのかを知っている • テーブル間をJoinする主キーがどれかを知っている
  6. 6. PoCのゴールが壮大すぎる • • • • ロボティクス技術もなぜか発展している 人の監視が完全に不要になっている パラメータチューニングも自動化されている アドホックな分析コードはプロダクト用に 転用可能だから開発工数は削減できる Proof of Concept
  7. 7. こんな分析Kick Offはイヤだ
  8. 8. 理想のKick Off • 経営層がPJを認識している • 分析結果をどう活用するつもり かの算段が立っている • PJ担当者と業務部門担当者が仲 良し • 活用方法について、業務部門と 積極的なディスカッションをす る場が用意されている 理想
  9. 9. 現実のKick Off • 担当者の範囲でPJが閉じている • データがあるので、とりあえず 何ができる かやってみたい • AIでやるなら予測精度は100% に近くなくては意味がない (ただし、人手でやった時の予測精度がどの程度なのかを計測し たことはない) 現実
  10. 10. こんな需要予測PJはイヤだ
  11. 11. 予測精度が改善しても オペレーションに影響しない
  12. 12. 100 75 4月 5月 6月 7月 Actual Pred(Before) Pred(After) 50 Improve 25 0 予測誤差が±30本から±20本 に 収まるようになりました!! (ドヤァァ) へぇ!!凄いですね!! でもウチ、発注する時は 100本単位でしか発注できないんで 現行の発注業務の1%にしか 関係しないっすね Improve
  13. 13. 検証時にしか使えない前処理メソッドを使っちゃう import pandas as pd df_train = pd.read_csv(‘sample_train.csv’) df_test = pd.read_csv(‘sample_test.csv’) df = pd.concat([df_train,df_test]) #item_categoryのユニーク数分One-Hotに行列を展開する df_item_category = pd.get_dummies(df[‘item_category’]) 実際に予測する時にget_dummies()使っちゃうと モデリング時と階数変わっちゃうの忘れてたわ
  14. 14. こんな分析官はイヤだ
  15. 15. 分析するために分析している 【特徴】 • いつまで経っても結論が出ない • 主張に対してグラフが5倍以上ある • 業務要件に興味がない
  16. 16. 分析している製品を使ったことがない あれ? なんでこの商品6月だけ 異常に売れるんだろ?90 67.5 45 22.5 0 4月 5月 6月 7月
  17. 17. 都道府県コードをそのまま線形回帰しちゃう 北海道から沖縄まで 緩 やかに暑くなっていくから セェーフ!! アウトや!! 1 13 46 47 3
  18. 18. こんな分析ベンダーはイヤだ
  19. 19. 営業がすぐできらぁ!!と言ってしま う 100万円/1.5ヶ月で RMSEを5%改善する おたくにそんなこと ができるかな? な。。舐めやがってぇ!! できらぁ!!!! こりゃあ面白いベンダーだぜ 100万円でやってもらおうじゃないか 営業 終わった クライアント データサイエンティスト
  20. 20. 炎上覚悟で短納期受注している 【特徴】 • データアセスメント期間が存在しない • MTGと資料作成時間を除くと分析工数が 0.3/月以下になる • 体制図のメンバーがBy Nameじゃない
  21. 21. 提案書 提案内容と成果の差が激しい 成果物 • • • • 最新のアルゴリズム使います 様々なアプローチを検討します 毎週分析結果を報告します アルゴリズムの詳細も記載します • 実用性の高いアルゴリズム使いました • 最適と思われるアプローチを選択しました • 今週のMTGはスキップでお願いします • アルゴリズムの詳細、興味あります?
  22. 22. 最後に
  23. 23. 以上の内容は必ずしも実際にあったことではありません。 しかしやたら具体的なものはその限りではありません。 皆さんが今日挙げたような事態に陥らないことを 心より祈っております。。。 おしまい

×