Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

SmartVideoRanking: 視聴者の時刻同期コメントに基づく動画ランキングシステム

134 views

Published on

WebDB Forum 2015

Published in: Technology
  • Be the first to comment

  • Be the first to like this

SmartVideoRanking: 視聴者の時刻同期コメントに基づく動画ランキングシステム

  1. 1. 佃 洸摂 濱崎 雅弘 後藤 真孝 産業技術総合研究所 SmartVideoRanking: 視聴者の時刻同期コメントに基づく 動画ランキングシステム
  2. 2. 動画の視聴者の反応 を利用した動画検索の提案
  3. 3. 3動画の視聴者の反応に基づく動画検索 癒されるという反応が大きい 初音ミクに関する動画の検索 キレがいいという反応が大きい 踊りに関する動画の検索 sm2223018 sm13166246
  4. 4. 4動画検索の現状 1. 検索クエリを入力 2. 検索結果を並び替え – 再生数の多い順 – 関連度の高い順 – 投稿日時の新しい順 – に含まれる語 タイトル タグ 初音ミク 検索 再生数の多い順 【初音ミク】みくみくにして あげる♪【してやんよ】 初音ミクがオリジナル曲を 歌ってくれたよ「メルト」 『初音ミク』千本桜『オリ ジナル曲PV』 【オリジナル曲PV】マトリョ シカ【初音ミク・GUMI】
  5. 5. 5問題点1 動画の内容を考慮した検索が困難 動画のタイトルやタグでは動画の内容が十分に表されない 初音ミクの 癒される動画 を検索したいな タグ 音楽 ミクオリジナル曲 虹の貝殻 踊りの キレがある動画 を検索したいな タグ 踊ってみた オリジナル振り付け 気まぐれプリンス 検索初音ミク 癒し 検索踊り キレ タイトル 【初音ミク】虹の貝殻【オリジナル曲】 タイトル 【気まぐれプリンス】Heart Beatsを踊って みた(巡音ルカ)
  6. 6. 6問題点2 クエリ非依存の少数の尺度でしか動画を並び替えられない 多様な動画が投稿されているにも関わらず一部の 動画のみ視聴され大部分はほとんど視聴されない 初音ミクの 癒される動画 を検索したいな 再生数の多い順 関連度の高い順 投稿日時の新しい順
  7. 7. 動画の内容を反映した 視聴者の反応を活用
  8. 8. 8視聴者の反応の取得 sm1340413 ニコニコ動画 Twitter + テレビ番組 #ametalk 視聴者が動画に投稿した時刻同期コメントを利用 動画の再生時刻に同期したコメント 視聴者の反応に基づくニコニコ動画の検索を実現
  9. 9. 9対象とする動画カテゴリ|VOCALOIDオリジナル曲+派生動画 オリジナル曲 歌ってみた 踊ってみた 演奏してみた PV・描いてみた MMD ニコニコ動画には が存在 13万以上のオリジナル曲 58万以上の派生動画 sm17483164 sm16309076 sm25558705sm16739331sm18407945 sm15630734
  10. 10. 10対象とする動画カテゴリ|派生動画の検索の難しさ タイトル・タグが類似した動画の増加による問題の深刻化 視聴者の反応を利用することでユーザの検索を支援 歌ってみた 「千本桜」歌ってみた ココル 【浦島坂田船】千本桜【歌ってみた】 『千本桜』を歌わせて頂きました。灯油 【千本桜】を歌ってみたんですよ【蓮】 【ぽこた】千本桜 歌ってみた 『千本桜』を歌ってみた★実谷なな 【歌ってみました】千本桜【杏ノ助】 曲名:千本桜
  11. 11. 11問題解決のためのアプローチ  動画の内容を反映したコメントを抽出(問題1の解決)  コメントによる多様な動画の検索を実現(問題2の解決) 癒される かわいい イントロ いいなあ PVかっけえ
  12. 12. デモ
  13. 13. 手法
  14. 14. 14フローチャート 2. 関連動画取得 3. 関連コメント取得 1. クエリ入力 4. コメント前処理 かわいい かわぃぃいいい! かわぃいいい!!! かわい 5. 特徴量計算 6. 有用度推定
  15. 15. 15フローチャート 2. 関連動画取得 3. 関連コメント取得 1. クエリ入力 4. コメント前処理 かわいい かわぃぃいいい! かわぃいいい!!! かわい 5. 特徴量計算 6. 有用度推定
  16. 16. 16関連動画取得  動画データセット – 提供元 :NII(http://www.nii.ac.jp/dsc/idr/nico/nico.html) – カテゴリ:VOCALOIDオリジナル曲+派生動画 – 動画数 :11,180件  関連動画 – クエリをタグに持つ動画 歌ってみた 踊ってみた 演奏してみた PV・描いてみた MMD 動画DB 検索初音ミク … 2,035件
  17. 17. 17フローチャート 2. 関連動画取得 3. 関連コメント取得 1. クエリ入力 4. コメント前処理 かわいい かわぃぃいいい! かわぃいいい!!! かわい 5. 特徴量計算 6. 有用度推定
  18. 18. 18関連コメント取得  コメントデータセット – 提供元:NII(http://www.nii.ac.jp/dsc/idr/nico/nico.html) – 対象 :各動画の投稿日時の新しい1,000コメント – コメント数:11,180動画×1,000コメント=1,118万件  関連コメント – 3件以上の関連動画に10回以上投稿されたコメント … コメントDB サビ最高 泣ける かっけー 笑顔が良い かわいい GJ 9,565件 … …
  19. 19. 19フローチャート 2. 関連動画取得 3. 関連コメント取得 1. クエリ入力 4. コメント前処理 かわいい かわぃぃいいい! かわぃいいい!!! かわい 5. 特徴量計算 6. 有用度推定
  20. 20. 20コメントの前処理|前処理が必要な理由 人は気持ちの強さを表現するために 文字を繰り返して記述する傾向がある[Brody 2011] かわいい コメント投稿 かわいい かわぃぃいいい! かわぃいいい!!! sm12658454 問題点:各コメントを別々に扱うとコメントの特徴量 を求める際にデータが疎になる
  21. 21. 21コメントの前処理|コメントの正規化 スペース・記号の除去 小書き文字を大文字に 半角文字を全角文字に 英語の小文字を大文字に 末尾の「w」除去 同一文字の繰り返し除去 かわいい かわぃぃいいい! かわい かわぃいいい!!! 正規化フィルタ 代表的な元コメントとの紐付け 正規化して「かわい」になるコメントの中でデータセット中で 最も出現頻度の高いコメント「かわいい」を代表的な元コメントとする
  22. 22. 22フローチャート 2. 関連動画取得 3. 関連コメント取得 1. クエリ入力 4. コメント前処理 かわいい かわぃぃいいい! かわぃいいい!!! かわい 5. 特徴量計算 6. 有用度推定
  23. 23. 23コメントの特徴 かわい(かわいい)に対して14カテゴリの特徴を使用 1. クエリ関連度 2. クエリ類似度 3. 文字数 4. 出現頻度 5. 元コメントの種類数 6. 形容詞の有無 7. 形容動詞の有無 8. 投稿時刻のエントロピー 9. サビ区間の出現確率 10. 類似コメント種類数 11. 類似コメ+出現頻度 12. 類似コメ+エントロピー 13. 類似コメ+サビ出現確率 14. 文字バイグラム 𝑃 𝑞, 𝑐 ∙ log 𝑃 𝑞, 𝑐 𝑃 𝑞 𝑃 𝑐 かわい かわぃい かわいいいい! かわぃいい!!! かわいい ○ かわいい ✕ かわい かわいすぎる かわゆす かわええ かわいい かわ+わい かわいい 41 − 𝐷𝐿 𝑞, 𝑐𝑡 𝐿 𝑚𝑎𝑥 𝑞, 𝑐𝑡 12 5 33 9 928 19 11 86 23 2591 𝒕 𝒕
  24. 24. 24形容詞・形容動詞の有無 コメント中の の有無は楽曲の印象推定に有用 形容詞 形容動詞 [Yamamoto 2013] 仮定: を含むコメントの有用度は高い 形容詞 形容動詞 かわいい かっけえ 動きがすごい 泣ける ○ ○ ✕ ✕ 爽やかー 声綺麗 泣ける ○ ○ ✕ ✕ さっすがー MeCab MeCab 形容詞 形容動詞
  25. 25. 25類似コメント+出現頻度・文字バイグラム 仮定:動画内で類似コメントの出現頻度が高いコメントは有用 仮定:あるクエリにとって有用なコメントは他のクエリでも有用 先頭二文字が一致 正規化編集距離が0.4以下 かわいい 類似コメント かわいすぎ かわいいな かわゆす 出現頻度 86 231119 計: 2,591 かわい バイグラム かわ わい ベクトル 0 1 1 0 ⋮ 0 最高 かわ わい 歌詞 GJ 18,544次元 類似コメント+出現頻度 文字バイグラム
  26. 26. 26フローチャート 2. 関連動画取得 3. 関連コメント取得 1. クエリ入力 4. コメント前処理 かわいい かわぃぃいいい! かわぃいいい!!! かわい 5. 特徴量計算 6. 有用度推定
  27. 27. 27クエリに対するコメントの有用度推定 SVM 線形回帰 訓練データ クエリ: 初音ミク コメント 泣ける 歌詞すごい なにこれ 聞き入る 推定結果 順位 コメント スコア 1 聞き入る 2.14 2 歌詞すごい 1.98 3 鳥肌やばい 1.81 200 また来た 0.06 … …SVM線形回帰を用いてコメントの有用度を推定
  28. 28. 評価実験 28
  29. 29. 29Research Question 1  コメントの有用度の推定はどの程度の精度で可能か  コメントの有用度の推定にはどの特徴が有効か 正解データ 順位 コメント スコア 1 歌詞すごい 2.0 2 良い声 1.8 3 聞き入る 1.8 200 なにこれ 0 … 推定結果 順位 コメント スコア 1 聞き入る 2.14 2 歌詞すごい 1.98 3 鳥肌やばい 1.81 200 また来た 0.06 … 相関は? 誤差は?
  30. 30. 30クエリ・評価用コメント  クエリ – データセット内の出現頻度が高い50個のタグ  評価用コメント – 各クエリから200件のコメントをサンプリングして使用 – 評価に使用するコメントは全部で50クエリ×200件=1万件 歌ってみた 初音ミク 涙腺崩壊 音楽 踊ってみた 鏡音リン 謎の中毒性 メルト 演奏してみた 巡音ルカ 神調教 VOCAROCK 合唱シリーズ GUMI もっと評価されるべき そらる
  31. 31. 31コメントの有用度の正解データ作成 「初音ミク」に関する動画で「かわいい」と 言われている動画を検索したいですか?Q 0. 検索したくない 1. それなりに検索したい 2. 検索したい クエリ :初音ミク コメント:かわいい に対するアンケート 1 2 2 1 2 平均 1.6  5名の評価者の平均値=コメントの有用度の正解値  コメント1万件分のアンケートに回答
  32. 32. 32評価方法  Leave-one-out交差検証  逐次特徴選択 SVM 線形回帰 49クエリの 訓練データ クエリ: 初音ミク コメント 泣ける 歌詞すごい なにこれ 聞き入る 正解データ 順位 コメント スコア 1 歌詞すごい 2.0 2 良い声 1.8 3 聞き入る 1.8 200 なにこれ 0 スピアマンの順位相関係数 ケンドールのタウ 平均二乗平方根誤差(RMSE) … … 推定結果 順位 コメント スコア 1 聞き入る 2.14 2 歌詞すごい 1.98 3 鳥肌やばい 1.81 200 また来た 0.06 … – 50クエリのRMSEの平均値が最小になる特徴を順番に選択 ステップ1 特徴 RMSE A 0.2 B 0.1 C 0.4 ステップ2 特徴 RMSE B+A 0.13 B+C 0.27 ステップ3 特徴 RMSE B+A+C 0.19 Bを選択 Aを選択
  33. 33. 33逐次特徴選択による有用度推定精度の推移 ステップ 選択された素性 スピアマン ケンドール RMSE 1 文字バイグラム 0.7454 0.6003 0.2779 2 文字数 0.7526 0.6075 0.2744 3 形容詞の有無 0.7540 0.6086 0.2737 4 類似コメ+出現頻度 0.7546 0.6092 0.2737 5 形容動詞の有無 0.7547 0.6092 0.2736 6 クエリ類似度 0.7552 0.6094 0.2735 7 類似コメ+エントロピー 0.7555 0.6102 0.2735 14 類似コメント種類数 0.7561 0.6109 0.2735 …  コメントの有用度推定において文字バイグラムは非常に有効  RMSEが最小になった際のスピアマンの相関係数は0.7552
  34. 34. 34クエリごとのスピアマンの相関係数 0 0.2 0.4 0.6 0.8 1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 合唱シリーズ 踊ってみた クエリID  大部分のクエリで相関係数0.6以上の精度で有用度推定を達成  「踊ってみた」と「合唱シリーズ」の2クエリでは低い精度 – 特定のユーザに向けたコメントの有用度を高く推定(例:まぁむかわいい) – 改善案:Web上のユーザ名リストを用いてユーザ名の有無を素性として使用
  35. 35. 35Research Question 2 コメントに基づく動画のランキング結果と 従来尺度に基づく動画のランキング結果はどの程度異なるか クエリ: 初音ミク コメント: かわいい クエリ: 初音ミク 尺度: 再生数の多い順 重複件数は? 【初音ミク】なでなで【オリ ジナル】 初音ミクのえれくとりっく・ えんじぇぅで手書きアニメ メルトPV描いてみた【フル ver】 【初音ミク】バスルームガー デン【オリジナル曲】 1 2 3 30 【初音ミク】みくみくにして あげる♪【してやんよ】 初音ミクがオリジナル曲を 歌ってくれたよ「メルト」 『初音ミク』千本桜『オリ ジナル曲PV』 【オリジナル曲PV】マトリョ シカ【初音ミク・GUMI】 1 2 3 30 … …
  36. 36. 36コメントに基づく動画のランキング クエリ :初音ミク コメント:かわいい に対する動画のランキング 「初音ミク」に関する動画を 「かわいい」とその類似コメントの投稿数が多い順にランキング クエリ: 初音ミク コメント: かわいい 類似コメント かわいすぎ かわいいな かわゆい 検索初音ミク かわいい 【初音ミク】なでなで【オリ ジナル】 初音ミクのえれくとりっく・ えんじぇぅで手書きアニメ メルトPV描いてみた【フル ver】 【初音ミク】バスルームガー デン【オリジナル曲】 1 2 3 30 …
  37. 37. 37評価方法  従来尺度:再生数・マイリスト数・コメント数の多い順  使用コメント:各クエリの有用度上位10コメント  上位5件・10件・20件・30件の重複件数検証 クエリ: 初音ミク コメント: かわいい クエリ: 初音ミク 尺度: 再生数の多い順 【初音ミク】みくみくにして あげる♪【してやんよ】 初音ミクがオリジナル曲を 歌ってくれたよ「メルト」 『初音ミク』千本桜『オリ ジナル曲PV』 【オリジナル曲PV】マトリョ シカ【初音ミク・GUMI】 1 2 3 30 … 【初音ミク】なでなで【オリ ジナル】 初音ミクのえれくとりっく・ えんじぇぅで手書きアニメ メルトPV描いてみた【フル ver】 【初音ミク】バスルームガー デン【オリジナル曲】 1 2 3 30 …
  38. 38. 38従来のランキング尺度に基づく検索結果との重複度  上位30件を閲覧しても従来のランキングとの重複は3件未満  視聴者の反応に基づいて動画のランキングを生成することで 従来は発見しづらかった動画の検索の支援が可能に ランキング尺度 上位5件 上位10件 上位20件 上位30件 再生数 0.0470 0.330 1.22 2.92 マイリスト数 0.0838 0.335 1.32 2.96 コメント数 0.0327 0.249 1.03 2.49 (重複件数)
  39. 39. SmartVideoRanking
  40. 40. 40インタフェース
  41. 41. 41インタフェース 「かわいい歌」とその類似コメント の投稿数が多い順に動画をランキング
  42. 42. 42インタフェース  「かわいい歌」とその類似コメントの投稿数の推移  グラフをクリックすることで任意のシーンにジャンプ
  43. 43. デモ
  44. 44. 44まとめ|本研究の貢献・今後の課題  クエリに特化した有用なコメントの提示  Webサービスとして公開しユーザの検索行動を分析 2SVMの線形回帰によりコメントの有用度を推定 人が評価した有用度の正解データとの相関0.755を達成 1視聴者の反応を指標とする動画のランキングを提案 「初音ミク」に関する動画を「癒される」度に基づいてランキング 3コメントに基づくランキングの有用性を検証 既存のランキング指標では発見が困難であった動画の検索を実現 4動画ランキングシステムSmartVideoRankingを実装 各ユーザの好みに応じた動画ランキングの生成を実現 今後の 課題

×