touya m

動画クラスタリングに関する基礎研究
複雑系工学講座調和系工学研究室
修士2年陶冶（トウヤ）
A Study on Video Clustering Method

研究背景
•日々増加する動画コンテンツを組織的に管理及び分類するのが課題になる
•ユーザ視点から、莫大なコンテンツで
•興味のある動画を探すのはたいへんなこと
ユーザが興味を持つ動画を自動発見し、提供するのが重要である
動画の自動要約と分類問題に取り組む研究が多く行われている
「Dynamic Key-frame Extraction for Video Summarization」 - Gianluigi Ciocca, Raimondo Schettini
「Video Summarization With Supervised Learning」 - Jayanta Basak, Varun Luthra, Santanu Chaudhury
「Video Summarization Preserving Dynamic Content 」 - Francine Chen, Matthew Cooper, John Adcock
「Video Summarization Using Clustering」 - Tommy Cheng
「Classification of Video Data Using Neural Network with Bhattacharyya Kernel」 - Dong-Chul Park
「A Hybrid Approach To News Video Classification Multimodal Features」 - P.Wang, R.Cai, SQ-Yang
（先行研究でやられていない）

研究目的
①自己組織化マップ(SOM)を用いた動画要約手法の検討
②要約に基づき、SOMを用いた動画クラスタリング手法の検討
③クラスタリングをユーザ嗜好の発見（予測）への適用を目指す

実験設定
•動画サンプル：風景に限定
YouTubeから20個短時間（5分以内）
•ユーザサンプル：事前に実施したアンケート
20個の動画をランダム順に見せる
「もう一度見たいまたは保存したい」と思う
動画番号を複数個
アンケート結果： 40人から返信
選択条件：（最低5つの動画が好き）
30人の実回答をユーザ嗜好データとして使用
（ユーザ：30 動画：20）

ユーザの
嗜好データ：
最低5個
最高11個
平均： 6.77個
合計：30人分

ヒストグラムの特徴抽出
画像フレームの例
Self-Organizing Maps(SOM)
120
260
……
780
43
0.12
0.26
……
0.78
0.043
正規化
ノルムが1となるベクトル
SOM学習サンプル
フレームを代表する
特徴ベクトル
RGB チャンネルの一つを利用
…………….. Sampling
0
255
Sampling 数：30

SOMに関する設定
•入力層ニューロン数： 30
•出力層： 30 x 30 の境界ある2次元セル状
•近傍半径： 4
•Weight初期値(푊푡)：Random( -1 , 1)
•学習率(θ푡)： 0.3
•学習ステップ数(t): 1000 - 3000
Self-Organizing Maps(SOM)
勝者ニューロン結合の更新式：
퐷푡: 入力ベクトル α푡: 近傍関数

①動画の要約
従来手法：（隣接画像フレームのヒストグラム差分法）
•動画シーンの切れ目を検知
•キーフレームを選択
欠点：
•シーンの内容が複雑になると、切れ目の検知が難しい
•光の照射状況によって、影響を受ける（カメラのフラッシュなど）
本研究手法：
•SOMを用いて、画像フレームをクラスタリングする
•同じ出力ニューロンにマッピングされた画像フレームの累積値で、フレーム重要度を判断
•累積の平均値以上となるフレームを選択
利点：
•フレーム間の関係に依存しない
•光などの外乱の影響を受けない
時系列フレーム
順次に入力
time

動画要約 - 例 :
（ビーチ、リゾート）

動画サンプル要約結果の一部：
動画[2]:
動画[6]:
動画[10]:
動画[12]:
動画[14]:
動画[15]:
動画[18]:
動画[19]:

②要約フレームを用いたクラスタリング（1）
要約フレーム合計：205枚
要約フレームが所属する動画番号

②要約フレームを用いたクラスタリング（2）
要約が形成したクラスタ中心

③ユーザ嗜好の発見
学習サンプル
15
8
テストサンプル
17
11
0
13
3
6
9
1
7
19
4
5
2
16
10
14
12
18
（動画：20個）
10個
10個
好き
嫌い
これらを発見しよう
設定：
•20個のサンプルをランダムに半分ずつ分ける
•興味あるサンプルを半分ずつ配分する（但し、奇数の場合テストサンプルのほうは多い）タスク：
•学習サンプルを既知情報から、未知情報としてのテストサンプルの中で、ユーザの嗜好動画を発見しよう評価方法：
•ユーザ毎に、「一回学習、一回予測」を100回行う
•100回での正解率を評価値とする
•全ユーザ分の平均値を最終評価値とする

例: User[18] = { 2, 4, 5, 8, 11, 17 }
手法
•Cluster[0] = { 0, 4, 6 }
•Cluster[1] = { 5, 14, 17 }
•Cluster[2] = { 1, 9, 12 }
•Cluster[3] = { 7, 15, 18, 19 }
•Cluster[4] = { 2, 8, 11 }
•Cluster[5] = { 3, 10, 13, 16 }
想定状況：
同系動画がユーザ嗜好である
発見：
ユーザの「好き」中心点に最寄りの同系動画を選択

③最終結果：
•ランダム法：テストサンプルからランダム選ぶ
•タグ法：動画のタグ情報に基づく
ソート
上位１６名（5割）のユーザ、30%（正解率）を超える
上位7名（2.3割）のユーザ、50%（正解率）を超える

User[13] = { 3, 10, 11, 17, 19 }
•Cluster[0] = { 0, 4, 6 }
•Cluster[1] = { 5, 14, 17 }
•Cluster[2] = { 1, 9, 12 }
•Cluster[3] = { 7, 15, 18, 19 }
•Cluster[4] = { 2, 8, 11 }
•Cluster[5] = { 3, 10, 13, 16 }
考察
アンケート回答者から：
•「同じ種類の動画が何回も出現して、重複を感じるため、好きとならなかった」
•「画面が多く変化する動画が保存したいと思った」
•など…

まとめ
①SOMを用いた動画の要約手法：
•風景動画の場合に適する ②要約に基づいた動画のクラスタリング手法：
•色的に同系の動画クラスタリングが自動形成できた ③クラスタリングに基づき、ユーザ嗜好の発見：
•クラスタリングはユーザ嗜好分析に適用できるが、より正しく予測するために、手法の改善（他手法との組み合わせなど）が必要である

touya m

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to touya m

Similar to touya m (9)

More from harmonylab

More from harmonylab (20)

touya m