Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

主観特徴と物理特徴の融合による音楽動画印象推定手法の検討

143 views

Published on

It is a slide used at the CVIM research group.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

主観特徴と物理特徴の融合による音楽動画印象推定手法の検討

  1. 1. 主観特徴と物理特徴の融合による 音楽動画印象推定手法の検討 明治大学 総合数理学部 上西隆平 阿部和樹 大野直紀 土屋駿貴 中村聡史
  2. 2. 背景: 音楽動画の例 http://www.nicovideo.jp/watch/sm15942116 【鏡音リン】月でうさぎとダンスする【オリジナルPV】
  3. 3. 背景: 従来の検索方法 •キーワードによる検索 - アーティスト名, 曲名など •タグによる検索 - ユーザが付与する動画の情報 動画そのものに対する 事前知識が必要 未知の動画と 出会うことが難しい
  4. 4. 背景 未知の動画と出会うために、、、 •推薦機能 - 同じ動画を見ている人の履歴から推薦 •ランキング機能 - ジャンル, 再生数, コメント数などでランキング 同じようなものばかり… 埋もれてしまう動画も…
  5. 5. 背景: 印象による検索 https://www.youtube.com/watch?v=PqJNc9KVIZE livetune feat. 初音ミク 『Tell Your World』 かわいい 〇〇と 似てる動画
  6. 6. 背景: 現状の印象検索の問題点 動画に印象情報は付随していない - 印象にまつわる「タグ」が付与されている 音楽動画は全体の5%程しかない[山本 2013] 音楽動画一つ一つに人手で 印象情報を付与するのは困難 機械的に印象を推定して 付与することが必要!
  7. 7. 音楽動画の印象推定のアプローチ 音楽動画の印象
  8. 8. 音楽動画の印象推定のアプローチ 音楽動画の印象
  9. 9. 音楽動画の印象推定のアプローチ 音楽動画の印象
  10. 10. 音楽動画の印象推定のアプローチ 音楽の印象 映像の印象 音楽動画の印象 ?
  11. 11. 関連研究 映像の印象 動画解析・印象推定 による動画BGMの 自動生成[2015 清水] 推定 映像特徴 歌詞と音響特徴量を用い た楽曲印象軌跡推定法の 設計と評価[2011 西川] 音楽の印象 推定 音響特徴
  12. 12. これまでの研究 音楽動画に対するソーシャルコメントと 音響・映像特徴量を用いた印象推定 手法の検討[阿部 2016] 映像の印象 映像特徴 音楽の印象 音響特徴 物理特徴 コメント 主観特徴
  13. 13. これまでの問題点: 映像特徴 明るい 暗い 切ない切なくない 27色 27色
  14. 14. これまでの問題点: 映像特徴 明るい 暗い 切ない切なくない , , ,,
  15. 15. これまでの問題点: コメント 音楽・映像のどちらにも 同じコメントを使用 コメント かわいい! www ドラム激しいね 絵がきれい! いい曲だ、、、 イラスト可愛い
  16. 16. これまでの問題点: コメント 音楽・映像のどちらにも 同じコメントを使用 コメント かわいい! www ドラム激しいね 絵がきれい! いい曲だ、、、 イラスト可愛い
  17. 17. これまでの問題点: コメント 音楽・映像のどちらにも 同じコメントを使用 コメント かわいい! www ドラム激しいね 絵がきれい! いい曲だ、、、 イラスト可愛い
  18. 18. 研究内容 1. 映像特徴量を用いた 映像に対する印象推定手法の改良 2. 音楽・映像向けに改良した コメントを用いた 音楽・映像に対する印象推定
  19. 19. 印象評価データセット[大野2015] 音楽・映像・音楽動画(音楽+映像)という 3つのメディアタイプに対し 以下の印象クラスで評価したもの • C1(堂々とした) • C2(元気が出る) • C3(切ない) • C4(激しい) • C5(滑稽な) • C6(かわいい) • Valence(快-不快) • Arousal(覚醒-鎮静) -2 ~ +2で評価されている http://nkmr.io/mood/
  20. 20. 1. 映像特徴量を用いた 印象推定手法の改良
  21. 21. 全体の流れ 1. 映像から画像を5秒おきに切り出す 2. 切り出された画像から色情報を抽出 3. その特徴量を用いて印象推定を行う
  22. 22. 色情報抽出方法: 1/3 清水ら[2015]が 映像の印象推定に利用していた 12色を用意 赤 橙 桃 黄 緑 青 水 紫 茶 灰 黒
  23. 23. 色情報抽出方法: 2/3 全12色の組み合わせを作成 例 2色選ぶ: 赤橙, 赤桃, 赤黄... 66通り ~ 12色選ぶ:赤橙桃黄緑青水紫茶 灰黒 1通り 合計4083通り
  24. 24. 色情報抽出方法: 3/3 • 2で作成した色へ 分割された画像を減色し 各色のピクセル数を計算 (カラーヒストグラム) • 映像全体における平均値を算出
  25. 25. 実験方法 • SVM(サポートベクターマシン)を使用 - 各印象における高評価群と低評価群の 音楽動画を学習 - 高評価群,低評価群の動画を正確に 分類できるか実験 その際5-fold Cross Validationにて 正解率を算出 2-1 10-2 低評価群 高評価群
  26. 26. 結果 各印象クラスにおける正解率が 最も高い色の組み合わせと正解率 と過去の手法を比較 C1 堂々と した C2 元気が 出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal C1~A 平均 色の 組み合わせ 赤橙 緑桃 青赤緑 黄水紫 黒 紫水赤 橙青桃 赤橙 黄青 緑 紫黒 水赤 橙黒桃 赤黄 紫黒桃 赤紫青 橙緑 黒水桃 本手法 正解率 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 27色 0.855 0.789 0.722 0.811 0.575 0.877 0.740 0.778 0.768 12色 0.805 0.770 0.687 0.794 0.600 0.832 0.694 0.765 0.743
  27. 27. 結果 各印象クラスにおける正解率が 最も高い色の組み合わせと正解率 と過去の手法を比較 C1 堂々と した C2 元気が 出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal C1~A 平均 色の 組み合わせ 赤橙 緑桃 青赤緑 黄水紫 黒 紫水赤 橙青桃 赤橙 黄青 緑 紫黒 水赤 橙黒桃 赤黄 紫黒桃 赤紫青 橙緑 黒水桃 本手法 正解率 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 27色 0.855 0.789 0.722 0.811 0.575 0.877 0.740 0.778 0.768 12色 0.805 0.770 0.687 0.794 0.600 0.832 0.694 0.765 0.743
  28. 28. 結果 各印象クラスにおける正解率が 最も高い色の組み合わせと正解率 と過去の手法を比較 C1 堂々と した C2 元気が 出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal C1~A 平均 色の 組み合わせ 赤橙 緑桃 青赤緑 黄水紫 黒 紫水赤 橙青桃 赤橙 黄青 緑 紫黒 水赤 橙黒桃 赤黄 紫黒桃 赤紫青 橙緑 黒水桃 本手法 正解率 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 27色 0.855 0.789 0.722 0.811 0.575 0.877 0.740 0.778 0.768 12色 0.805 0.770 0.687 0.794 0.600 0.832 0.694 0.765 0.743 阿部ら [2016] 清水ら [2015]
  29. 29. 結果 C1 堂々と した C2 元気が 出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal C1~A 平均 色の 組み合わせ 赤橙 緑桃 青赤緑 黄水紫 黒 紫水赤 橙青桃 赤橙 黄青 緑 紫黒 水赤 橙黒桃 赤黄 紫黒桃 赤紫青 橙緑 黒水桃 本手法 正解率 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 27色 0.855 0.789 0.722 0.811 0.575 0.877 0.740 0.778 0.768 12色 0.805 0.770 0.687 0.794 0.600 0.832 0.694 0.765 0.743 各印象クラスにおける正解率が 最も高い色の組み合わせと正解率 と過去の手法を比較
  30. 30. 結果 C1 堂々と した C2 元気が 出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal C1~A 平均 色の 組み合わせ 赤橙 緑桃 青赤緑 黄水紫 黒 紫水赤 橙青桃 赤橙 黄青 緑 紫黒 水赤 橙黒桃 赤黄 紫黒桃 赤紫青 橙緑 黒水桃 本手法 正解率 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 27色 0.855 0.789 0.722 0.811 0.575 0.877 0.740 0.778 0.768 12色 0.805 0.770 0.687 0.794 0.600 0.832 0.694 0.765 0.743 各印象クラスにおける正解率が 最も高い色の組み合わせと正解率 と過去の手法を比較 色を最適化させることが有効
  31. 31. 結果 C1 堂々と した C2 元気が 出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal C1~A 平均 色の 組み合わせ 赤橙 緑桃 青赤緑 黄水紫 黒 紫水赤 橙青桃 赤橙 黄青 緑 紫黒 水赤 橙黒桃 赤黄 紫黒桃 赤紫青 橙緑 黒水桃 本手法 正解率 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 27色 0.855 0.789 0.722 0.811 0.575 0.877 0.740 0.778 0.768 12色 0.805 0.770 0.687 0.794 0.600 0.832 0.694 0.765 0.743 印象ごとに 色の組み合わせの違いがある 各印象クラスにおける正解率が 最も高い色の組み合わせと正解率 と過去の手法を比較
  32. 32. 結果 C1 堂々 C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal C1~A 平均 1 位 赤橙 緑桃 青赤緑 黄水紫黒 紫水赤 橙青桃 赤橙 黄青 緑 紫黒 水赤 橙黒桃 赤黄 紫黒桃 赤紫青 橙緑黒水桃 赤橙緑 紫黒桃 2 位 黄 緑桃 赤橙緑 黄水紫黒 緑黄紫黒 赤橙青桃 赤橙 緑桃 赤緑 黄桃 緑水 赤橙黒桃 赤緑 紫茶 橙緑 黒水桃 赤橙青 水紫黒桃 3 位 黄青 水桃 黄紫 水赤 橙青桃 赤紫茶 灰黒 赤緑 青紫 緑水赤 橙黒桃 黄緑 青 紫青橙 緑黒水桃 赤橙黄緑 青水紫桃 共 通 色 桃 黄紫 青赤 桃橙 赤 緑 水赤 桃橙黒 なし 橙緑 黒水桃 赤橙 紫桃 各印象クラスにおける正解率が 高い上位3つの組み合わせと 共通している色 共通して使用されている 色がある
  33. 33. 結果 C1 堂々 C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal C1~A 平均 1 位 赤橙 緑桃 青赤緑 黄水紫黒 紫水赤 橙青桃 赤橙 黄青 緑 紫黒 水赤 橙黒桃 赤黄 紫黒桃 赤紫青 橙緑黒水桃 赤橙緑 紫黒桃 2 位 黄 緑桃 赤橙緑 黄水紫黒 緑黄紫黒 赤橙青桃 赤橙 緑桃 赤緑 黄桃 緑水 赤橙黒桃 赤緑 紫茶 橙緑 黒水桃 赤橙青 水紫黒桃 3 位 黄青 水桃 黄紫 水赤 橙青桃 赤紫茶 灰黒 赤緑 青紫 緑水赤 橙黒桃 黄緑 青 紫青橙 緑黒水桃 赤橙黄緑 青水紫桃 共 通 色 桃 黄紫 青赤 桃橙 赤 緑 水赤 桃橙黒 なし 橙緑 黒水桃 赤橙 紫桃 各印象クラスにおける正解率が 高い上位3つの組み合わせと 共通している色
  34. 34. 結果 C1 堂々 C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal C1~A 平均 1 位 赤橙 緑桃 青赤緑 黄水紫黒 紫水赤 橙青桃 赤橙 黄青 緑 紫黒 水赤 橙黒桃 赤黄 紫黒桃 赤紫青 橙緑黒水桃 赤橙緑 紫黒桃 2 位 黄 緑桃 赤橙緑 黄水紫黒 緑黄紫黒 赤橙青桃 赤橙 緑桃 赤緑 黄桃 緑水 赤橙黒桃 赤緑 紫茶 橙緑 黒水桃 赤橙青 水紫黒桃 3 位 黄青 水桃 黄紫 水赤 橙青桃 赤紫茶 灰黒 赤緑 青紫 緑水赤 橙黒桃 黄緑 青 紫青橙 緑黒水桃 赤橙黄緑 青水紫桃 共 通 色 桃 黄紫 青赤 桃橙 赤 緑 水赤 桃橙黒 なし 橙緑 黒水桃 赤橙 紫桃 各印象クラスにおける正解率が 高い上位3つの組み合わせと 共通している色 主観的なイメージと一致する色が 選ばれている場合もある
  35. 35. 映像の印象推定まとめ • 印象ごとに用いる色を最適化することは 有効 • 印象ごとに精度の高い色の 組み合わせは違う • 印象ごとに特徴となる色が存在
  36. 36. 2. 音楽・映像向けに改良した コメントを用いた 音楽・映像の印象推定
  37. 37. これまでの手法 音楽・映像のどちらにも 同じコメントを使用 コメント かわいい! www ドラム激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い
  38. 38. 映像・音楽向けコメント生成の例 かわいい! www ドラム激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い
  39. 39. 映像・音楽向けコメント生成の例 かわいい! www ドラム激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い かわいい! www 絵が綺麗! イラスト可愛い
  40. 40. 映像・音楽向けコメント生成の例 かわいい! www 絵が綺麗! イラスト可愛い かわいい! www ドラムが激しいね いい曲だ、、、 かわいい! www ドラム激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い かわいい! www ドラム激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い
  41. 41. フィルター作成 • 音楽・映像それぞれのメディアタイプに 向けられるコメントに含まれる可能性がある 単語群を用意 • 単語群を補強するため 学習済みWord2Vecのモデルを用いて コサイン類似度の高い単語を追加 音楽 映像 歌, 聴, 聞, 音, 曲, メロディ, BGM, 耳,リズム, 音圧, ドラム, イントロ, 声 絵, サムネ, 顔, イラスト, 映像, きれい, 綺麗, 顔文字
  42. 42. コメントフィルタリング • コメントに対し音楽・映像それぞれの 単語群でフィルタリングを行い 「音楽向けのコメント」 「映像向けのコメント」 を生成 かわいい! www ドラムが激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い 音楽フィルター 歌, 聴, 聞, 音, 曲, メロディ, BGM, 耳, 歌って, リズム, 音圧, ドラム, イントロ, 声
  43. 43. コメントフィルタリング • コメントに対し音楽・映像それぞれの 単語群でフィルタリングを行い 「音楽向けのコメント」 「映像向けのコメント」 を生成 音楽フィルター 歌, 聴, 聞, 音, 曲, メロディ, BGM, 耳, 歌って, リズム, 音圧, ドラム, イントロ, 声 かわいい! www ドラムが激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い
  44. 44. コメントフィルタリング • コメントに対し音楽・映像それぞれの 単語群でフィルタリングを行い 「音楽向けのコメント」 「映像向けのコメント」 を生成 音楽フィルター 歌, 聴, 聞, 音, 曲, メロディ, BGM, 耳, 歌って, リズム, 音圧, ドラム, イントロ, 声 かわいい! www ドラムが激しいね 絵が綺麗! いい曲だ、、、 イラスト可愛い
  45. 45. コメントフィルタリング • コメントに対し音楽・映像それぞれの 単語群でフィルタリングを行い 「音楽向けのコメント」 「映像向けのコメント」 を生成 音楽フィルター 歌, 聴, 聞, 音, 曲, メロディ, BGM, 耳, 歌って, リズム, 音圧, ドラム, イントロ, 声 かわいい! www 絵が綺麗! イラスト可愛い
  46. 46. コメント特徴抽出 • MeCabによる形態素解析を行い 「形容詞」を抽出 • 抽出した形容詞のTF-IDF値を求める この際1つの動画に付与されているコメントたちを 1つのドキュメントとみなす TF値 = 出現回数, DF値 = 出現した動画数 / 全動画数 • TF-IDF値の高い上位30個を特徴量とする (30次元)
  47. 47. 実験方法 • SVM(サポートベクターマシン)を使用 - 各印象における高評価群と低評価群の 音楽動画を学習 - 高評価群,低評価群の動画を正確に 分類できるか実験 その際5-fold クロスバリデーションにて 正解率を算出 2-1 10-2 低評価群 高評価群
  48. 48. 結果: 映像向けコメントで印象推定 C1 堂々とした C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal 平均 Fあり 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 Fなし 0.810 0.870 0.787 0.764 0.695 0.876 0.730 0.879 0.801
  49. 49. 結果: 映像向けコメントで印象推定 C1 堂々とした C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal 平均 Fあり 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 Fなし 0.810 0.870 0.787 0.764 0.695 0.876 0.730 0.879 0.801 全ての印象クラスにおいて 精度が向上
  50. 50. C1 堂々とした C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal 平均 Fあり 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 Fなし 0.810 0.870 0.787 0.764 0.695 0.876 0.730 0.879 0.801 特定の印象クラスの 精度が大幅に向上 結果: 映像向けコメントで印象推定
  51. 51. C1 堂々とした C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal 平均 Fあり 0.721 0.723 0.833 0.759 0.708 0.880 0.758 0.830 0.776 Fなし 0.735 0.723 0.800 0.759 0.702 0.851 0.750 0.822 0.768 映像の際と同様に 特定の印象クラスにおいて 精度が向上 結果: 音楽向けコメントで印象推定
  52. 52. C1 堂々とした C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal 平均 Fあり 0.721 0.723 0.833 0.759 0.708 0.880 0.758 0.830 0.776 Fなし 0.735 0.723 0.800 0.759 0.702 0.851 0.750 0.822 0.768 推定精度に変化がない 印象クラスも存在 結果: 音楽向けコメントで印象推定
  53. 53. 結果 映像向けコメントを用いた 映像に対する印象推定の結果 ・ C1(堂々とした)C2(元気が出る)C4(激しい) の推定精度が大幅に向上 音楽向けコメントを用いた 音楽に対する印象推定の結果 ・ C3(切ない)C6(可愛い) の推定精度が向上 ・ C2(元気が出る)C4(激しい) の推定精度に変化なし
  54. 54. 考察: 映像・音楽に対する印象推定 音楽・映像に対するコメントを抜き 精度が大幅に向上したクラスが有る ↓ これらのクラスでは音楽と映像の印象が 乖離している可能性が高いのではないか? (例) 音楽だけ聞いても可愛いくない 映像を見ると可愛い 音楽動画
  55. 55. 考察: 音楽に対する印象推定 映像に対するコメントを抜いたが 効果がないクラスが有る ↓ これらのクラスでは 音楽・映像のどちらに言及しているか わからないコメント が特徴量として占めているのではないか? (例) 可愛い! かっこいい
  56. 56. 1章(映像特徴) 2章(映像向けコメント特徴) 1章(映像特徴) + 2章(映像向けコメント特徴) などの特徴を用いた 映像に対する印象推定の結果を比較
  57. 57. C1 堂々とした C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal 平均 映像 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 コメント 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 映+コ 0.802 0.880 0.744 0.895 0.741 0.881 0.732 0.786 0.808 結果
  58. 58. 結果 C1 堂々とした C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal 平均 映像 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 コメント 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 映+コ 0.802 0.880 0.744 0.895 0.741 0.881 0.732 0.786 0.808 組み合わせたからといって 精度が上がるわけではない...
  59. 59. C1 堂々とした C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal 平均 映像 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 コメント 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 映+コ 0.802 0.880 0.744 0.895 0.741 0.881 0.732 0.786 0.808 C5の精度が向上 結果
  60. 60. C1 堂々とした C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal 平均 映像 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 コメント 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 映+コ 0.802 0.880 0.744 0.895 0.741 0.881 0.732 0.786 0.808 コメントによる印象推定の 精度が高い 結果
  61. 61. C1 堂々とした C2 元気が出る C3 切ない C4 激しい C5 滑稽な C6 かわいい Valence Arousal 平均 映像 0.880 0.870 0.748 0.896 0.718 0.883 0.820 0.810 0.828 コメント 0.890 0.900 0.805 0.838 0.708 0.890 0.757 0.889 0.835 映+コ 0.802 0.880 0.744 0.895 0.741 0.881 0.732 0.786 0.808 結果
  62. 62. 考察 • コメントによる印象推定は有効 • 印象ごとに最適な特徴を用いることで 精度を向上させることができる
  63. 63. まとめ 1.映像特徴量を用いた印象推定手法の改良 ・印象クラスごとに最適な色の組み合わせを 利用することが有効 2.音楽・映像向けに改良したコメントを用いた 音楽・映像の印象推定 ・映像向けのコメントに改良することは有効だが 音楽向けの場合は効果が薄い 今後の展望 ・印象推定の精度向上の検討 ・文章間類似度を用いた正確なコメントフィルターの実装

×