GNWS2016「音楽動画に対するソーシャルコメントと音響・映像特徴量を用いた印象推定手法の検討」

217 views

Published on

GNWS2016にて発表
「音楽動画に対するソーシャルコメントと音響・映像特徴量を用いた印象推定手法の検討」

Published in: Science
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
217
On SlideShare
0
From Embeds
0
Number of Embeds
179
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

GNWS2016「音楽動画に対するソーシャルコメントと音響・映像特徴量を用いた印象推定手法の検討」

  1. 1. 音楽動画に対するソーシャルコメントと 音響・映像特徴量を用いた 印象推定手法の検討 阿部 和樹(明治大学 総合数理学部3年) 土屋 駿貴 大野 直紀 中村 聡史(明治大学 総合数理学部) 山本 岳洋(京都大学大学院情報学研究科)
  2. 2. 背景:音楽動画の例 http://www.nicovideo.jp/watch/sm16707821
  3. 3. 背景:音楽動画数の爆発 • Web上の音楽動画の増加 • 創作支援ツールの発展 - VOCALOID、動画編集ソフトなど アクセス可能な音楽動画の数が膨大になる
  4. 4. 背景:音楽動画の検索 アーティスト名 曲名
  5. 5. 背景:音楽動画の検索 • キーワードによる検索 - アーティスト名、曲名など • タグによる検索 - ユーザが付与する音楽動画の情報 音楽動画そのものに対する 事前知識が必要
  6. 6. 背景:動画から受ける印象 初音ミク 「ロングディスタンス」 http://www.nicovideo.jp/watch/sm16707821 どんな印象を受けますか? 可愛い… 作) kk2
  7. 7. 背景:音楽動画から受ける印象 印象という曖昧な情報でも検索可能
  8. 8. 印象語を用いた 音楽動画の検索 背景:印象による検索
  9. 9. 背景:印象による検索 • 印象語を検索クエリにする - 動画が印象情報を持つ • 問題点 - 動画の説明文には含まれていない - 印象にまつわる「タグ」が付与されている 音楽動画は全体の5%程度 [山本 2013] 全ての音楽動画に人手で 印象情報を付与することは困難
  10. 10. 背景:印象による検索 可愛い? 激しい? カッコイイ? 音楽動画が持つ特徴から 印象を推定する必要がある
  11. 11. 背景:音楽動画の特徴量 音楽 映像 歌詞と音響特徴量を用いた楽曲 印象軌跡推定手法の設計と評価 [西川 2011] 音響特徴量による 印象推定 映像特徴量による 印象推定 客観的(物理的)特徴
  12. 12. 背景:音楽動画の特徴量 ソーシャルコメントからの音楽動画の 印象推定可能性に関する検討 [土屋 2016] コメント コメント特徴量 による印象推定 主観的特徴
  13. 13. 背景:音楽動画の特徴量 コメント 映像音響 すべての特徴を用いた 印象推定は行われていない 3つの特徴量 コメント+音響特徴量 による印象推定 [山本 2013]
  14. 14. 研究目的 1. 映像特徴量を用いた印象推定 2. コメント+音響+映像特徴量の 3つを用いた印象推定
  15. 15. 1. 映像特徴量を用いた印象推定
  16. 16. アプローチ 色の情報 動きの情報 人物の情報 色の情報 動画解析・印象推定による 動画BGMの自動生成 [清水 2015]
  17. 17. 映像特徴量 • 映像から複数枚の画像を切り出す • 映像全体における色情報を抽出
  18. 18. 実験目的 • 色情報の抽出方法について 適した方法を検証する • 映像からの画像切り出し間隔の 違いによる影響を調べる
  19. 19. 色情報の抽出方法 • カラーヒストグラムを用いた手法 • Color Coherence Vectorを用いた手法 映像特徴量の抽出について 以下の二つの手法を比較する 映像からの画像切り出し間隔は5秒に統一
  20. 20. カラーヒストグラム • 色を減色し、各色のピクセル数 を計算 • 映像全体における平均の値と 分散の値を計算する
  21. 21. Color Coherence Vector • カラーヒストグラムと同じく、 色を減色する • 色領域により、大と小の2つに ベクトルを分ける • 同じく平均の値と分散の値を用いる
  22. 22. 印象評価データセット [大野 2015] • C1(堂々とした) • C2(元気が出る) • C3(切ない) • C4(激しい) • C5(滑稽) • C6(かわいい) • Valence(快感-不快) • Arousal(覚醒-鎮静) 音楽動画(500件)を人に評価してもらう 8つの印象クラス 各印象について -2~+2 の5段階で評価 http://nkmr.io/mood/
  23. 23. 実験 • SVM(サポートベクターマシン)を使用 - 各印象における高評価(正例)と低評価 (負例)の音楽動画を学習させる - 高評価の動画を正確に分類できるか 実験する 印象推定の精度を 各手法で比較する
  24. 24. 印象推定の流れ 印象推定器(SVM) 高評価 低評価 可愛いと評価された動画 可愛いくないと評価された動画
  25. 25. 印象推定の流れ 印象推定器(SVM) 高評価 低評価 特徴を学習 可愛い?
  26. 26. 結果 C1 C2 C3 C4 C5 C6 V A 平均 ①avg 0.730 0.725 0.712 0.754 0.725 0.793 0.571 0.692 0.712 ①avg+std 0.720 0.745 0.707 0.727 0.725 0.784 0.569 0.679 0.707 ②avg 0.629 0.725 0.701 0.701 0.647 0.772 0.539 0.676 0.673 ②avg+std 0.629 0.728 0.703 0.701 0.642 0.770 0.549 0.671 0.674 平均 0.677 0.730 0.705 0.720 0.684 0.779 0.557 0.679 0.691 抽出手法 印象クラス
  27. 27. 結果 C1 C2 C3 C4 C5 C6 V A 平均 ①avg 0.730 0.725 0.712 0.754 0.725 0.793 0.571 0.692 0.712 ①avg+std 0.720 0.745 0.707 0.727 0.725 0.784 0.569 0.679 0.707 ②avg 0.629 0.725 0.701 0.701 0.647 0.772 0.539 0.676 0.673 ②avg+std 0.629 0.728 0.703 0.701 0.642 0.770 0.549 0.671 0.674 平均 0.677 0.730 0.705 0.720 0.684 0.779 0.557 0.679 0.691 カラーヒストグラムの手法 avg=平均の値のみ avg+std=平均の値と分散の値 Color Coherence Vectorの手法 avg=平均の値のみ avg+std=平均の値と分散の値
  28. 28. 結果 C1 C2 C3 C4 C5 C6 V A 平均 ①avg 0.730 0.725 0.712 0.754 0.725 0.793 0.571 0.692 0.712 ①avg+std 0.720 0.745 0.707 0.727 0.725 0.784 0.569 0.679 0.707 ②avg 0.629 0.725 0.701 0.701 0.647 0.772 0.539 0.676 0.673 ②avg+std 0.629 0.728 0.703 0.701 0.642 0.770 0.549 0.671 0.674 平均 0.677 0.730 0.705 0.720 0.684 0.779 0.557 0.679 0.691 カラーヒストグラムの手法による 推定精度が最も高い
  29. 29. 画像切り出しの間隔 • 間隔を5秒,1秒,0.1秒ごとに変化させる • 推定精度を比較する
  30. 30. 結果 0.1秒 1秒 5秒 平均 ①avg 0.702 0.709 0.713 0.708 ①avg+std 0.709 0.711 0.707 0.709 ②avg 0.673 0.668 0.674 0.672 ②avg+std 0.676 0.670 0.674 0.673 平均 0.690 0.690 0.692 0.690 時間間隔による推定精度の変化はなかった
  31. 31. 考察 色情報の抽出方法について 画像の切り出し間隔について カラーヒストグラムの手法による平均の値 を用いることが、最適な手法である 5秒の間隔による切り出しでも問題なく 特徴量を抽出できる
  32. 32. 2. コメント+音響+映像特徴量を用いた印象推定
  33. 33. 特徴量抽出 使用頻度の高い形容詞の数 コメント 周波数などの音響的特徴 音響 特徴的な色のピクセル数 映像
  34. 34. コメント特徴量 • MeCabによる形態素解析を利用 • コメントにおける形容詞の数を 計算する [土屋 2016] - 例)「可愛い」という単語の数 • 出現回数の多い30個の単語を利用 (30次元)
  35. 35. 音響特徴量 • 解析ツールとしてMARSYASを利用 特徴量 次元数 スペクトル特徴量 3 メル周波数ケプストラム 係数(MFCC) 13 クロマベクトル 14 ゼロクロッシング 1 合計 31次元
  36. 36. 映像特徴量 • 映像の色情報をカラーヒストグラム から抽出 • RGBそれぞれを3階調とし、27色の 色に減色して行う(27次元)
  37. 37. 実験 • SVM(サポートベクターマシン)を使用 • 高評価と低評価の音楽動画を学習 させ、高評価の動画を正確に分類 できるか実験する 各特徴それぞれによる推定と、 組み合わせた場合の推定を比較する
  38. 38. 結果 C1 C2 C3 C4 C5 C6 V A 平均 Comment 0.737 0.886 0.750 0.843 0.567 0.919 0.647 0.858 0.776 Audio 0.777 0.623 0.619 0.767 0.550 0.711 0.694 0.666 0.676 Visual 0.639 0.761 0.746 0.759 0.483 0.801 0.615 0.706 0.689 C+A+V 0.808 0.880 0.764 0.957 0.532 0.900 0.701 0.862 0.800 平均 0.740 0.787 0.720 0.831 0.533 0.833 0.664 0.773 0.735 印象クラス 利用した特徴量
  39. 39. C1 C2 C3 C4 C5 C6 V A 平均 Comment 0.737 0.886 0.750 0.843 0.567 0.919 0.647 0.858 0.776 Audio 0.777 0.623 0.619 0.767 0.550 0.711 0.694 0.666 0.676 Visual 0.639 0.761 0.746 0.759 0.483 0.801 0.615 0.706 0.689 C+A+V 0.808 0.880 0.764 0.957 0.532 0.900 0.701 0.862 0.800 平均 0.740 0.787 0.720 0.831 0.533 0.833 0.664 0.773 0.735 結果 コメントによる推定は精度が高い
  40. 40. C1 C2 C3 C4 C5 C6 V A 平均 Comment 0.737 0.886 0.750 0.843 0.567 0.919 0.647 0.858 0.776 Audio 0.777 0.623 0.619 0.767 0.550 0.711 0.694 0.666 0.676 Visual 0.639 0.761 0.746 0.759 0.483 0.801 0.615 0.706 0.689 C+A+V 0.808 0.880 0.764 0.957 0.532 0.900 0.701 0.862 0.800 平均 0.740 0.787 0.720 0.831 0.533 0.833 0.664 0.773 0.735 結果
  41. 41. C1 C2 C3 C4 C5 C6 V A 平均 Comment 0.737 0.886 0.750 0.843 0.567 0.919 0.647 0.858 0.776 Audio 0.777 0.623 0.619 0.767 0.550 0.711 0.694 0.666 0.676 Visual 0.639 0.761 0.746 0.759 0.483 0.801 0.615 0.706 0.689 C+A+V 0.808 0.880 0.764 0.957 0.532 0.900 0.701 0.862 0.800 平均 0.740 0.787 0.720 0.831 0.533 0.833 0.664 0.773 0.735 結果 すべての特徴を用いた推定精度の平均は高い
  42. 42. 考察 コメントによる推定は精度が高い • コメントは人の主観を利用 音楽・映像特徴は物理的(客観的)特徴 • コメントを利用すれば、印象によっては 高い推定を得られる
  43. 43. 印象クラスごとの特徴語 高評価群 低評価群 C1(堂々とした) かわいいい,可愛,かわゆ 怖い,多い,すごく C2(元気が出る) かわいい,かわいー,弱い こわい,美しい,怖い C3(切ない) 悪い,怖い,重い かわいいい,可愛,おかしい C4(激しい) 早く,カッコイイ,こい かわいいい,ヤバイ,かわゆ C5(滑稽な) おかしい,こわい,こわ かる,かわいいい,なう C6(可愛い) かわいいい,可愛,切ない こわい,早く,怖い Valence(快-不快) 早く,かっこよ,怖い かわいいい,すごく Arousal(覚醒-鎮静) 良かっ,かわいー,おおー 良,かっこよ,怖い
  44. 44. 考察 すべての特徴を用いた推定精度の平均は高い • さまざまな印象に対して、汎用的に活用 することができる • すべての特徴を利用するが、コメントに 重みをつけることでさらに精度が上がる 可能性がある
  45. 45. まとめ • 印象によっては、コメントによる推定精度が高い • 全ての特徴を用いた手法は、汎用的に活用できる 1. 映像特徴量による印象推定 2. コメント+音響+映像特徴量による印象推定 • カラーヒストグラムより、平均の値を用いるのが 適している • 画像切り出しの間隔は5秒が適切 今後の課題 • 推定精度をさらに上げる方法を検討 • 印象による検索インターフェースの実現

×