ゲーム実況動画のハイライト自動検出
- 1. ゲ ー ム 実 況 動 画 の ハ イ ラ イ ト
シーン自動検出
佐藤 颯哉
静岡大学 情報学部 行動情報学科 4年 山本研究室
sato@design.inf.shizuoka.ac.jp
卒業研究審査会
2020年2月14日
1
- 4. ウェブ上には様々なオンデマンド動画 配信
サービスが存在する
上記のようなサービスは10代,20代の若者を中心
に利用率が高く,利用時間においても1日の時間
比率で考えると大きい*1
研究の背景(1/2)
4
画像出典:(https://www.youtube.com) (https://www.netflix.com/jp/)(https://fod.fujitv.co.jp/s/)
: (https://www.nicovideo.jp/)(https://www.hulu.jp/)(https://tver.jp/)
*1:平成30年度 情報通信メディアの利用時間と情報行動に関する調査より
(https://www.soumu.go.jp/main_content/000644166.pdf)
Editor's Notes
- 時刻同期コメント
動画の再生とともに動画とは別の再生領域で時間に応じたコメントの表示が行われる
- オンデマンドの動画配信サービスの利用率は10 代で87.9%,20 代で90.9% を記録している.
また平日1 日の利用時間においても10 代では平均60.1 分,20 代では39.8 分,休日1 日では10 代95.4 分,20 代70.2 分であり1 日における時間比率も大きい
- Youtubeをはじめ,動画配信サイトで動画を配信しを職業としている人が増えている
生配信アーカイブ動画とは 生配信を行ったあとに生成される,その生配信の録画
YouTubeで配信を行った場合,基本的に自動生成され投稿される
通常は編集されたものを投稿するのである程度面白いシーンがピックアップされているか冗長的な部分はカットされている
- コメントからシーンを推定する研究
評価実験によって
- シーンの特徴ベクトル化については後述
先行研究では笑いの感情x特徴的なコメントで分析を行っていなかった
- データを集めた動画をシーンし分割シーンについたコメントデータの前処理を行う
特徴ベクトル化については後述
シーンに紐つくコメントデータの面白いシーンを正解データ,面白くないシーンを不正解データとしてラベル付け
面白い,面白くないシーンの判定には恣意的な判断にならないよう,クラウドソーシングを利用 シーンを見てもらい面白いか面白くないかでのみ評価を行った
面白い面白くないの二値分類問題であるためSVMを利用しカーネル関数にはRBFを用いた
- これらの特徴量を用いて3つの分類器を作成した
- 2つの観点からシーンをベクトル化した
コメントに含まれる名詞を
- tf-idfはコメントに含まれる名詞の数だけベクトルの次元数がある
Subは「w」を含む割合,「草」を含む割合,「笑」を含む割合,いずれかを含む割合の4次元ベクトル
特徴量
「w」を文末表現に含むコメントの割合
「草」を文末表現に含むコメントの割合
「笑」を文末表現に含むコメントの割合
「w」,「草」,「笑」のいずれかを文末
表現に含むコメントの割合
- クロスバリデーション データを訓練データとテストデータに分け訓練データで学習,テストデータで分類器を評価する
これを複数回行い平均値を出してこれを分類器の汎化性能とする
どのデータも1回は必ず訓練データとテストデータになるように分類する
- 提案特徴量を用いた分類器で面白いと分類されてクラウドソーシングでも面白いとされたシーンの例
カレーに関するコメントであるインドや,実況者のプリキュア発言から面白いシーンとして推定できたのではないか
- データ数が豊富で同じゲームタイトルのものを複数含む場合は影響は少なさそう
1本しか同じゲームタイトルを含まないとその動画に対する汎用的なコメントが特徴的なシーンとなる可能性がある
ゲームタイトル今回集めたデータははやりのゲームであったポケモン関連の動画が約4割ほどであった.
同じゲームであれば同じようなシーンはたくさん存在すると考えられるため特徴的なシーンを検出しやすい
またデータセット内で同じゲームタイトルのものが存在しないものがあり,その動画から特徴的なシーンが面白いシーンとして抽出される可能性は高くなる
- 今回利用したコメントデータの中で例のようなコメントはされているシーンはあったものの使えるほどのデータ数がそろっているかはわからないのでデータ数を増やす必要がある
感情の種類による重み付けや,組み合わせによって分類器の性能向上が見込めるのではないか
- 未知の動画のコメントデータを利用することで本当に面白いシーンを検出できる分類器なのかを客観的評価を用いて検証
前スライドの感情表現を組み合わせたり重み付けを変える
- データセットの増量や特徴量を考え分類器の性能向上
訓練データやテストデータで使っていない動画を用いて面白いシーンの検出を試みる
その検出したシーンの客観的評価を行い実際の利用シーンを考える
- 以上の理由から本研究ではYouTubeを選んだ
- TF-IDFはTFとIDFの部分に分かれ最終的にはかけ合わせた値となる
1シーンにつくコメント群を1つの文書とした場合,455シーン分のコメント群を全文書と考える
図だとすごいのTFは0.25,草は0.5,爆発,0.25
- 455シーンのうち,あるシーンのみに「運」というコメントが多く書き込まれ,他のシーンには書き込まれていなかった場合,そのシーンにおける「運」のTF-IDF値は高くなる
logを使っているのは、文書数の規模に応じた変動影響を緩和するためで1を足しているのはidfが0にならないようにするため
シーン500における運log3+1 1.47*0.75=1.1
シーン1における 草log3/2+1 0.18*0.5=0.09
- 相手が踏んだり蹴ったりなシーンであった