Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

機械学習による積極的失業〜オウンドメディアの訪問予測

5,227 views

Published on

第54回 Tokyo Web Mining 懇親会LT

Published in: Data & Analytics
  • Be the first to comment

機械学習による積極的失業〜オウンドメディアの訪問予測

  1. 1. 機械学習による積極的失業〜オ ウンドメディアの訪問予測 2016/06/25 Mr_Sakaue
  2. 2. 自己紹介 Mr_Sakaue 渋谷の某ベンチャー企業のWebマーケティング(50%)と分析(50%)を兼務 大学・大学院で経済理論と計量経済学を専攻 主にR・Pythonを用いて、機械学習や自然言語処理を用いたアドホック分析から、自社 サイトの運用のアドバイスなどを行っている。 2
  3. 3. Mr_Sakaueのオウンドメディア実績 ・検索エンジン経由の月間訪問数を1年半で5.4倍  検索エンジン経由の月間CV数を1年半で4.5倍  セオリーに従い運営していった結果、非常に成長したものの、労働集約的な働き方が 常態化している。 3
  4. 4. 自分の仕事を機械に委ね、失業したい 4 データマイニングにもっと注力していきたい!
  5. 5. 自社オウンドメディアのデータ特性 ・主に求職者が仕事を探すに際し、Googleなどで検索を行った結果、自社サイトに訪問 する。 ・ロングテールな訪問のデータで、数ヶ月に一回訪問するようなページが多い。 ・テキスト情報は十分に規格化されておらず、ページによって文字数など情報量にちら ばりがある。 5
  6. 6. オウンドメディアの課題 毎月数百件の求人ページが掲載期間終了で Web上から削除される。( 404 Not Found化) 掲載期間が終了しても、自社サービスに関心を持ってくれるユーザーは存在する。 (捨てるなんて勿体無い) 掲載期間が過ぎても募集終了を明記して残すべき求人ページとそうでないページをふるいにかけたい。 現状はMr_Sakaueの勘と経験と度胸(KKD)で今後訪問の来そうなページ (3ヶ月間で訪問がくる)を選定 している。(精度は51%) 6
  7. 7. 分析の目的 ・私の判断基準で選定した結果の精度(51%)を上回るような、訪問の来そうな求人ペー ジ選定の識別器を作りたい。  【期待される効果】  ・私の判断にあてる時間のコストカット   (このタスクに関しては積極的に失業したい。)  ・精度向上によるオウンドメディアの訪問数増 7
  8. 8. フローチャート データ 学習550件 テスト550件 前処理 特徴量作成 予測アルゴリ ズム適用 予測結果の 活用 チューニング 8
  9. 9. 特徴量の準備 9
  10. 10. 第7回テキストマイニング・シンポジウムにて 電子カルテのテキスト情報を形態 素解析して、それを特徴量とする 際に、GBDTを使ったらどれを使う べきかの判断に使えるだろうと 某研究者が発言していた。 求人情報のテキストも形態素解析 して、特徴量に使うことで予測モデ ルに使うことができるかもしれな い。 10
  11. 11. 求人ページ内における訪問数と相関しそうな単語 11訪問と相関してそうな単語はあるので、きっと予測に使えるかも!
  12. 12. クリック予測に有効な特徴量の選び方 12 CTR予測に関してはHistorical Featureが予測パフォーマン ス向上に大きく寄与する!
  13. 13. 今回の分析で用いる特徴量 ・給与や文字数、本文内の単語を特徴量として利用(Contextual Feature)  MeCabにより本文を形態素解析しTF-IDFを計算し、  Bag of Wordsを作成して特徴量とした。 ・過去3ヶ月間の訪問数を特徴量として利用(Historical Feature) 13
  14. 14. 手法 14
  15. 15. 手法 ・XGBoost(GBDTの高性能版) ・Random Forest 15
  16. 16. 評価指標 Precisionで評価  機械学習システムによって提案された候補の内、向こう3ヶ月以内に訪問のくる求人 ページをどれだけ選択できたかを評価します。  訪問の来なさそうなページを公開することは極力避けたいので、Recallは重視しませ ん。 16
  17. 17. 様々な特徴量で予測を行う ・単価と文字数だけで予測(変数2個) ・単価と文字数と過去訪問数で予測(変数3個) ・単価と文字数と過去訪問数とテキスト情報で予測(変数は数百個) ・単価と文字数とテキスト情報で予測(変数は数百個) 17
  18. 18. 18 チューニングを行った XGBoostのパ ラメータ達 colsample_bytree min_child_weight max_depth gamma subsample alpha eta ・・・ 特徴量の数が多いと計算が相当に 厳しいことを実感した。
  19. 19. 推定結果(Precision) 19 Mr_Sakaueチョイス(51%)
  20. 20. Historical Featureの重要度スコアが高い 20
  21. 21. 念のためにRecallも・・・ 精度だけでなく、結果として返さ れる数も十分許せるレベルで あった。(Recallは約60%) 21
  22. 22. 考察 ・私が求人を選定するよりも、分類器にかけたほうが最大で20%近く正解を当てることが できる。(失業してもいい・・・?) ・単価と文字数にHistorical Featureを加えたRomdom Forestのモデルの精度は71%と 最も高い。 ・チューニングを前提としたXGBoostならば、Contextual Featureの追加により精度の 向上が観察されているが、Random Forestの71%には勝てない。 22
  23. 23. 今後の研究 ・形態素解析による特徴量の作成だけでなく、トピック分析などにより特徴量を作成する アプローチにも挑戦してみる。(教師付きLDAも気になる。) ・Factorization Machineによる特徴量の作成に挑戦してみる。 ・ページごとに構造化されたデータの作成を行う。 ・パラメータチューニングを行いやすい分析環境を用意する。 ・学習データ数をもっと増やしていく。 23
  24. 24. ご清聴ありがとうございました! 24

×