Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

小町のレス数が予測できるか試してみた

10,023 views

Published on

小町のレス数が予測できるか試してみた

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

小町のレス数が予測できるか試してみた

  1. 1. 発言小町のレス数は予測できるか 試してみた Team 朝寝坊
  2. 2. レス数? ● 発言に対する返信の数
  3. 3. これができると? ● レスがもらいやすい文章かどうかをチェックできるサービ ス – (炎上回避の側面も?) ● ● 盛り上がる文章の特徴認の確認 – 単語? – 文体?
  4. 4. どうやって? ● 対象:発言小町の全データ (all.json) – 特徴量候補 ● タイトル ● 発言者名 ● 本文 ● アイコン ● ● 分析 – JubatusのRegressionを利用 ● サーバー建てるのを面倒だったのでembeddedを利用
  5. 5. 結果1 ● 未加工で投入→今ひとつ 予 測 正解
  6. 6. 試行錯誤の始まり ● 追加した特徴量 – 品詞によるフィルタ(MeCabを使用) – 品詞の出現頻度 – 係り受け情報  (CaboCha:https://taku910.github.io/cabocha/ を使用) – ● 収束してない?10回繰り返し学習
  7. 7. 結果2 ● 結果1とあまり変わらず 予 測 正解
  8. 8. 他考えたこと ● その時のテーマみたいなものがあるか? – →直近(2016/9・10)の最レスポンス数トピックを見るとそうでもない ● 「新築の家に2人の子供がいる友達が子連れで来ます」 ● ● 近傍探索を用いて、レスがつきやすいテーマがあるかの調査 – →そもそも近傍のトピックとテーマに関連性が見えなかった ● (↑のトピックスの近傍トピック) ● 【PR】あなたのイチオシ紅葉スポット、オススメの楽しみ方を教えてくださ い! (レス24件) ● 結婚前提なのに忙しいと会って貰えません。 (レス223件) ● 女一人旅の楽しみ方を教えてください (レス56件) ● 文系博士の民間就職と研究の継続 (レス59件) ● ペットの葬儀とお悔やみのメッセージ (レス15件) ● 発表者寝坊のためここまで!
  9. 9. 現状の結論 ● 現時点でレス数を決定づける要素は文中に見つけられませ んでした ● ● 仮説1:結局どれだけ露出されるか次第で決まる – Twitter等でURLの言及量を特徴量として使う ● 仮説2:文としては問題がないが全体的な構成で決まる – 文の関連情報(文と文の関連性)
  10. 10. おまけ ● 投票数も同様にやってみました(画像は「びっくり」のも の)

×