Successfully reported this slideshow.
Your SlideShare is downloading. ×

Icwsm読み会

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Cikm読み会
Cikm読み会
Loading in …3
×

Check these out next

1 of 20 Ad

More Related Content

Advertisement

Icwsm読み会

  1. 1. ICWSM読み回 Booming Up the Long Tails: Discovering Potentially Contributive Users in Community-Based Question Answering Services @_A_K_5
  2. 2. 概要 • CQAサービスに貢献するユーザの早期発見 • 多くのユーザが、あまり活動しないまま居なくなる • いなくなる前に、将来有望なユーザを見つけて、質問 を推薦してあげる • 有望そうなユーザの定義 • Joinしたてで、かつ専門性の高そうなユーザ • 専門性の高いユーザでコミュニティが回っている
  3. 3. 推定アプローチ • 3つのデータを利用 • ヘビーユーザの回答集合 • ヘビーユーザの統計量 • ベストアンサー数、その比率、回答推薦数 • ライトユーザの回答集合 • 注目する素性 • ヘビーユーザが頻繁に使うキーフレーズ、統計量 • ライトユーザの直近のアクティビティ
  4. 4. 推定の流れ ヘビーユーザ集合… ライトユーザ集合… • 入力データ ターゲットカテゴリ… • 学習データ キーワード集合… • 出力データ ライトユーザが将来ヘビーユーザになるかどうかの推定値… 全ライトユーザで算出し、この値が高いユーザに質問を推薦 各キーワードで、ヘビーユーザに依存したWordlevelを計算
  5. 5. 推定式の導出 • 推定式 …調整パラメータ …ヘビーユーザのキーワードから 推定したライトユーザの専門度 …ライトユーザの直近のアクティビティ affordanceの高いユーザは、専門性が強く 直近のアクティビティが高い人である
  6. 6. 専門性の算出1 • ヘビーユーザの専門性      −+ 2 )( 2 )))(1(1( )( h h h uE uE uEntropy otherwise ucPif hett 5.0)|( arg > )|(log)|()( 2 },arg{ h othersettc hh ucPucPuE ∑∈ −= ・ 専門性が強いほどエントロピーがたかくなる P(c_target|u) E(u) 0 0.5 1 1 調整パラメータ u_hの間違い
  7. 7. 専門性の算出2 • ヘビーユーザの専門性 2 ))(())(( )( hh h utRecommCounSuSelcountS uRating + = α⋅− + = t e tS 1 1 )( t S(t) • Selcount…ベストアンサー数(A) • Recomm…回答推薦数(C)
  8. 8. キーワードの算出1 • ヘビーユーザの回答からキーワードのレベルを算出 • キーワードのレベルからライトユーザの専門性を推定
  9. 9. キーワードの算出2 ∑ ∑ ∑ ∑ = H hu h H hu h U A ujiji U A ujijih i Aawtfidfaw AawtfidfawuExpertise wWordlevel ),,(),( ),,(),()( )( σ σ    ∈ = otherwise Aausedwif aw huji ji 0 1 ),(δ ),(),(),,( hh uijiuji AwidfawtfAawtfidf ⋅= • キーワードのレベル算出式 任意のヘビーユーザの 回答集合 ワード出現頻度 逆回答頻度 ワードレベルが高くなるほど、専門性の 高い人がよく使う
  10. 10. キーワードの算出3 ※WordLevelが非常に小さいワードは無視 ∑ ∑ ⋅ = lu lu W i W ii l w wwWordlevel uxpertiseEstimatedE )( )()( )( ρ ρ    ≥ = otherwise wWordLevelif w i i 0 1.0)(1 )(ρ • ライトユーザの専門性を推定 任意のライトユーザの 回答のキーワード集合
  11. 11. アクティビティの算出 ∑ + = luA j l aAge ucency 2)( 1 )(Re ))((Re)( ll ucencySutyAvailabili = • ライトユーザのアクティビティを算出 任意のライトユーザの 回答集合 回答がより頻繁でより 直近であるほどアクティ ビティが高い
  12. 12. データセット • 韓国のCQAサイトKinの質問回答集合 • おおよそ10年間分のデータ(2002∼2012) • 今回は2つのカテゴリに絞って収集 • 期間内で5回以上回答したユーザに絞る • データの選定 • 質問したユーザが選んだ回答のみに絞る(ノイズ対策)
  13. 13. 実験設定 • データを3分割(学習、予測、評価) • 学習データでヘビーユーザからワードの特徴量計算 • 次の期間でライトユーザの専門性を推定 • 次の期間で推定したユーザのCQAへの貢献度を評価
  14. 14. パラメータと評価指標 • 調整パラメータ • パラメータはデータ量で変化するもの • 今回は経験的に設定(各々決めうち) • 正解データと比較手法 • Kin内で使われているユーザのランキングを正解データに ->ベストアンサー等の値を利用したもの • Expertise(),SelectCount(),ReccomCount()を比較手法 ->評価期間でのランキング結果を利用 ->予測期間でランキングを求め、評価期間の正解データと比較
  15. 15. 事前調査 • ちゃんと専門性の強いユーザを推定できているか • EstimatedExpertiseの値でユーザを降順ソートして、上と比較 • サイト内で、ユーザは自分の興味を示す機能がある EstimatedExpertiseが高いユーザは、9割近くが そのカテゴリに興味がある
  16. 16. 評価1 • Precisionでの評価 • Computerでは頑健な結果が得られている • Travelではベターな結果 ->ユーザのエントロピーを使うとこうなるらしい
  17. 17. 評価2 • コールドスタート問題に対応できるか • 推定ランキングをKinのランキングの相関係数 • 質問と回答の数が少なくても頑健な推定ができている
  18. 18. 評価3.1 • affordanceの評価 • 推定ユーザが将来CQAへ貢献しているか • 評価指標 • availability...ランキング上位ユーザがちゃんと回答しているか • posession...ランキング上位ユーザが占める回答率 ランキングユーザのランキングユニーク回答数/全ユーザのユニーク回答数 ランキングユーザのランキング全回答数/全ユーザの全回答数 • 評価方法 • 2012年7月末のランキング結果とその後1ヶ月の状況
  19. 19. 評価3.2 • 提案手法は全期間でKinのランキングを上回る ※一週間ごとにランキングを再計算している • 特にComputerでは顕著な結果が得られている
  20. 20. まとめ • CQAサイトの活性化 • 入りたての、専門性の高そうなユーザをターゲット • ヘビーユーザの専門性と利用するキーワードを利用 • ライトユーザから専門性の推定 • キーワードのレベルとアクティビティから推定 • 様々な評価 • サービス内のランキングよりも良好な予測結果

×