Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ニコニコ米解析
@Hi_king
@Hi_king
 レコメンドエンジン作ったりしてます
 もともとは画像処理が専門でした
今日の目標
 コメント解析面白いので、皆さん一度やってみま
しょう
 ニコニココメントデータセットを利用することで手
軽に始められます
 http://www.nii.ac.jp/cscenter/idr/nico/nico.html
...
米ってどんなデータ?
 動画とコメントが持つ情報
動画
米
• テキスト
• 時間
• タグ
• 画像
• 音声
• 視聴者、投稿者
本日のトピック
ごちうさ難民はどこへ行ったか
コメントによる動画要約
動画を表現するマルチモーダル
特徴の検討
この話で使う特徴
動画
米
• テキスト
• 時間
• タグ
• 画像
• 音声
• 視聴者、投稿者
なんで?なんで?(ごちうさ)
 そのコメントの異様(褒め言葉)さで衝撃を与えたア
ニメ、”ご注文はうさぎですか”
 アニメが終わった途端に絶望感を感じ、ごちうさを
みることをやめられなくなった人々の叫びだった
 適当なアニメをレコメンドす...
 特徴量は、コメントの出現数
 候補は2014春アニメの第一話に
ついたコメントのうちの上位
 つまり、同じ定型文がどれくら
い出現しているか。
 繰り返し正規化
 一時期話題になった
coooooolllllllllの論文[1]
...
https://twitter.com/search?f=realtime&q=難民救済力%20lang:ja
ブヒリティ
“ニコニコ養豚場の特徴としては、コメントの大半が「ぶひ
いぃぃぃ」等の豚の鳴き声で占められており…”
(http://dic.nicovideo.jp/a/ニコニコ養豚場)
要するに、かわいい女の子がキャッキャしてるのを眺めている我...
ブヒリティ?
キルラキルはあざとい系アニメじゃないはず。。。
ブヒリティ?
強きものに屈服する
豚たち。。。
ぶひい、というコメントが必ずしも萌えを表すものではなかった
(“服をきた豚ども!”という台詞に呼応してる)
まとめ
 ニコニコには多数の定型文が存在し、正規化された
コメントの出現頻度でも、動画が似ている、あるい
は視聴者が似ている、という情報を得ることが出来
る。
 コメント単体で見ると字面が一緒でも、動画のコン
テクストに呼応して別の意味を持...
この話で使う特徴
動画
米
• テキスト
• 時間
• タグ
• 画像
• 音声
 動画は楽しい
 でもすべての面白い(可愛い,クレイジーな,etc…)
動画を観るには人生は短すぎる
 最速で動画を見るツールが欲しい
一枚絵とagifで動画の雰囲
気を観よう
 動画の中からコメントが盛り
上がってるシーンを抽出
 あつめてagifに
 シーンごとのコメントから
ワードクラウドを作る
 デモします
ヒストグラム?
 コメントのヒストグ
ラム取ればいいん
じゃね?
 コメ数が3σを超えて
いるフレームがキー
フレーム
 前のフレームに対し
て独立と仮定してい
るので、同じシーン
が連続して抽出され
るミスがある
カーネル密度推定
 ガウスカーネルで密度推
定する
 平均1枚/分になるように
盛り上がりTOPnの頂点
を取る
 +σを超える頂点も取って
る
 根拠はないです
次への課題
 コメントの投稿は、基本的に先行することはなくて、
遅れモデルになる。
 刺激(シーン)に対する反応(コメント)って考えるとポ
アソン分布なのかな
 形態素解析でワードクラウド作るのは読みにくい
 cooooolllllll...
この話で使う特徴
動画
米
• テキスト
• 時間
• タグ
• 画像
• 音声
• 視聴者、投稿者
全部考えてみる!
最適な特徴量?
 ごちうさ難民探しでは、同じコメントがどれくらい
現れているかを特徴量にしてたけど、本当にそれで
いいのかしら?定量評価できてない。
 簡単なタスクを設定して、特徴量間の比較をしてみ
よう
動画 特徴量
• いろんなのを
結合
識別器
• ランダムフォ
レスト固定
カテゴリ
• アニメ、ゲー
ム等29カテゴ
リ
タスク
 マルチモーダル特徴を用いて、動画の属するカテゴ
リの推定を行う
動画 特徴量
• いろんなのを
結合
識別器
• ランダムフォ
レスト固定
カテゴリ
• アニメ、ゲー
ム等29カテゴ
リ
タスク
 マルチモーダル特徴を用いて、動画の属するカテゴ
リの推定を行う
目的は、このタスクを解くことではなく、
どの...
画像
画像特徴量
 局所特徴量(SIFT等)
 大域特徴量
 エッジベース(GIST)
 色あい(カラーヒストグラム)
 CNN(畳み込みニューラルネット)
局所特徴量
 画像中のあるパーツが存在することを認識する
 人間の目、猫の耳など
 一つの画像から不定個数の特徴量が出現
 たとえば、猫の出る動画一覧とか、そういう機能に向い
ているはず。タグ認識くらいの細かいタスクだと強力か
も
 ...
大域特徴量
 画像全体に対して一つ定まる特徴
 色使い
 エッジの密度・構図(GIST)
http://people.csail.mit.edu/torralba/code/spatialenvelope/
CNN
 CNN(畳み込みニューラルネット)も比較に使う
 局所特徴をどんどん構造化してくモデル。物体認識で成功している
 トレーニング済みのモデルを利用して、中間層を特徴量にする
 ほんとはニコニコのサムネに対してファインチューニング...
実験結果
特徴量 正答率
ランダム 3.48%
GIST 13.18%
CNN 26.43%
• データ: 2876サンプル
• 29カテゴリから100サンプルずつ。
• ニコニコ新検索で”人気順”
• 学習方法: 2776で学習、100でテス...
CNNの混同行列
 歌ってみたは、元のVOCALOIDのサムネをそのまま使ってる場合が多いので無理か
 技術部が作ってみた、科学と混同されるのは妥当だけど、どういう特徴だろう
 (車載,旅行) や (アニメ, アイドルマスター)など、妥当...
音
音特徴量
 音声(意味のある語を発声したもの)
 MFCC
 音程(基本周波数)を取り除いた後の、語による特性(声動
特性)を表している。音声認識できる
 音楽(語に落としこむのが目的ではない)
 スペクトログラム分析(周波数x時間の...
パワーの統計特徴量
 音楽として統制の
とれたジャンルと、
ホームビデオ的な
ジャンルでは、音
量の分布に差があ
る。
 Max, min, avg, std
の4次元の統計量
を特徴として用い
てみた
初音ミクさんが歌う「あったかいんだか...
周波数領域の瞬時特徴量
 やはり、音声といえば周波数分
解。
 発話内容を認識したり、音楽
ジャンル(ロック <-> クラシッ
ク)を認識したりするタスクで
は、周波数分解が活躍する。
 今回のタスクを解くのにうまい
やり方が思いつかなか...
実験結果
特徴量 正答率
ランダム 7.23%
音量統計量 18.81%
瞬時特徴 20.69%
両方 24.82%
• データ: 1382サンプル
• 動画の取得に結構失敗したため画像の例よりサンプルが少ない
• さらに、カテゴリの割合がばら...
音声結合特徴の混同行列
 演奏してみた、は認識できているけど、VOCALOIDと歌って
みたは混同している。声質までは認識できていないか
 動物の精度もよい。ホームビデオ感がとらえられている?
コメントテキスト
コメント特徴量の候補
• 正規化済み生コメントのままつかう
• Ngramに分解
• 形態素解析
• tfidfフィルタリングの追加
“あずにゃんペロペロペロペロ”
をアニメと認識させる
分解方法 分解結果
生コメント あずにゃんペロペロペロ
ペロペロペロ
全く同じコメントが少な
いから難しい
正規化 あずにゃんペロ テンプレが認識される。
けどあずにゃんじゃない
対象ではだ...
Tf-IDF
 TF: コメントの出現回数じゃなくて、出現確率にす
る。コメントが少ない動画でも認識されるように
 IDF: どんな動画でも出現するコメントの重要度を減
らす。例えばwは重要じゃないとされる
今回用いた特徴
1. ユニコード正規化(NFKC)
2. 4文字以内の繰り返しを正規化
3. 1-gramと2-gramのベクトルに分解
4. 教師データ内での出現頻度上位10000次元に制限(計
算資源の都合)
5. tfとidfのフィルタか...
実験結果
特徴量 正答率
ランダム 3.45%
生コメント10000次元 42.30%
1gram+2gram10000次元 54.65%
1gram+2gram10000次元tf-idf 57.97%
• データ: 2896サンプル
• 29...
考察
 tf-idfがたいして効かないのは、人気動画のみで、か
つコメント数を最新1000件という制限をかけている
のが擬似的にtfになっているのと、ランダムフォレ
ストの次元削減により、idfと同様な重み低減が既に
行われているからかと思わ...
マルチモーダル
マルチモーダル特徴?
 いままで画像、言語、音と個別に比較した特徴を結
合する
 それぞれのベクトルを単純に結合
 重みはランダムフォレストによって調整できるため
実験結果
特徴量 次元数 正答率 サンプル数
ランダム 7.24% 2876
コメント 10000 57.97%
コメント+CNN 10960 58.84%
特徴量 次元数 正答率 サンプル数
ランダム 3.48% 1382
コメント 1000...
大規模データで再実験
 サンプルサイズを大きくし、超人気動画以外も取ってみ
る。
 新検索で人気順各カテゴリ1000 -> 約29000動画
 一時的に結果公開します http://vps.hi-
king.me/deeptag/cate...
コメント+CNNの混同行列
音楽, アニメ
音楽, 歌ってみた
アニメ, エンターテイメント
たしかに、視聴者も近く、サムネイルも似ているものが混同している
コメント+CNNの混同行列
コメント数毎の正答率
 だいたい300コメント集まれば精度が頭打ちになる
 10コメント以下でも、壊滅的な精度ではない
 画像特徴が精度向上に結びついてない原因か
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9...
考察
 動画+コメントという体験はマルチモーダルなものであ
り、特徴量を結合することで解析精度が上がることもあ
る。しかしコメントがほぼ上位互換
 音声情報や画像情報だけでもそれなりの識別は可能であ
り、タスク次第では有用性はある。
 よ...
本日のトピック
ごちうさ難民はどこへ行ったか
コメントによる動画要約
動画を表現するマルチモーダル
特徴の検討
@Hi_king
ニコニコ動画のコメント解析
ニコニコ動画のコメント解析
ニコニコ動画のコメント解析
ニコニコ動画のコメント解析
Upcoming SlideShare
Loading in …5
×

ニコニコ動画のコメント解析

13,944 views

Published on

トピック
1. ごちうさ難民はどこへ行ったか
2. コメントによる動画要約
3. ニコニコ動画を表現するマルチモーダル特徴の検討

Published in: Engineering
  • Be the first to comment

ニコニコ動画のコメント解析

  1. 1. ニコニコ米解析 @Hi_king
  2. 2. @Hi_king  レコメンドエンジン作ったりしてます  もともとは画像処理が専門でした
  3. 3. 今日の目標  コメント解析面白いので、皆さん一度やってみま しょう  ニコニココメントデータセットを利用することで手 軽に始められます  http://www.nii.ac.jp/cscenter/idr/nico/nico.html  ただし、今日のトピックでは最新のコメントや動画 情報も利用するので、このデータで全く同じことを できるわけではないです
  4. 4. 米ってどんなデータ?  動画とコメントが持つ情報 動画 米 • テキスト • 時間 • タグ • 画像 • 音声 • 視聴者、投稿者
  5. 5. 本日のトピック ごちうさ難民はどこへ行ったか コメントによる動画要約 動画を表現するマルチモーダル 特徴の検討
  6. 6. この話で使う特徴 動画 米 • テキスト • 時間 • タグ • 画像 • 音声 • 視聴者、投稿者
  7. 7. なんで?なんで?(ごちうさ)  そのコメントの異様(褒め言葉)さで衝撃を与えたア ニメ、”ご注文はうさぎですか”  アニメが終わった途端に絶望感を感じ、ごちうさを みることをやめられなくなった人々の叫びだった  適当なアニメをレコメンドすればいいんじゃね!  http://pyon.hi-king.me/
  8. 8.  特徴量は、コメントの出現数  候補は2014春アニメの第一話に ついたコメントのうちの上位  つまり、同じ定型文がどれくら い出現しているか。  繰り返し正規化  一時期話題になった coooooolllllllllの論文[1]  とりあえず4文字以内の繰り返し を一つにまとめてみた  動画同士の距離はコサイン類似 度 wwwwwwwwwwwww www 888888888888888888 8888888 ペロペロペロペロ ★≡=― ★≡=― ★≡=― ★≡=― [1] "Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs" (Brody & Diakopoulos)
  9. 9. https://twitter.com/search?f=realtime&q=難民救済力%20lang:ja
  10. 10. ブヒリティ “ニコニコ養豚場の特徴としては、コメントの大半が「ぶひ いぃぃぃ」等の豚の鳴き声で占められており…” (http://dic.nicovideo.jp/a/ニコニコ養豚場) 要するに、かわいい女の子がキャッキャしてるのを眺めている我々の ことである。
  11. 11. ブヒリティ? キルラキルはあざとい系アニメじゃないはず。。。
  12. 12. ブヒリティ?
  13. 13. 強きものに屈服する 豚たち。。。 ぶひい、というコメントが必ずしも萌えを表すものではなかった (“服をきた豚ども!”という台詞に呼応してる)
  14. 14. まとめ  ニコニコには多数の定型文が存在し、正規化された コメントの出現頻度でも、動画が似ている、あるい は視聴者が似ている、という情報を得ることが出来 る。  コメント単体で見ると字面が一緒でも、動画のコン テクストに呼応して別の意味を持っている場合もあ る
  15. 15. この話で使う特徴 動画 米 • テキスト • 時間 • タグ • 画像 • 音声
  16. 16.  動画は楽しい  でもすべての面白い(可愛い,クレイジーな,etc…) 動画を観るには人生は短すぎる  最速で動画を見るツールが欲しい
  17. 17. 一枚絵とagifで動画の雰囲 気を観よう  動画の中からコメントが盛り 上がってるシーンを抽出  あつめてagifに  シーンごとのコメントから ワードクラウドを作る  デモします
  18. 18. ヒストグラム?  コメントのヒストグ ラム取ればいいん じゃね?  コメ数が3σを超えて いるフレームがキー フレーム  前のフレームに対し て独立と仮定してい るので、同じシーン が連続して抽出され るミスがある
  19. 19. カーネル密度推定  ガウスカーネルで密度推 定する  平均1枚/分になるように 盛り上がりTOPnの頂点 を取る  +σを超える頂点も取って る  根拠はないです
  20. 20. 次への課題  コメントの投稿は、基本的に先行することはなくて、 遅れモデルになる。  刺激(シーン)に対する反応(コメント)って考えるとポ アソン分布なのかな  形態素解析でワードクラウド作るのは読みにくい  cooooolllllllll論文のように、正規形の抽出すればいい かも  シーンのクラスタリングには画像・音声を使うもの がよく研究されてるので、比較してみたい
  21. 21. この話で使う特徴 動画 米 • テキスト • 時間 • タグ • 画像 • 音声 • 視聴者、投稿者 全部考えてみる!
  22. 22. 最適な特徴量?  ごちうさ難民探しでは、同じコメントがどれくらい 現れているかを特徴量にしてたけど、本当にそれで いいのかしら?定量評価できてない。  簡単なタスクを設定して、特徴量間の比較をしてみ よう
  23. 23. 動画 特徴量 • いろんなのを 結合 識別器 • ランダムフォ レスト固定 カテゴリ • アニメ、ゲー ム等29カテゴ リ タスク  マルチモーダル特徴を用いて、動画の属するカテゴ リの推定を行う
  24. 24. 動画 特徴量 • いろんなのを 結合 識別器 • ランダムフォ レスト固定 カテゴリ • アニメ、ゲー ム等29カテゴ リ タスク  マルチモーダル特徴を用いて、動画の属するカテゴ リの推定を行う 目的は、このタスクを解くことではなく、 どのような特徴量がつくれて、どうはたらくかを確かめること
  25. 25. 画像
  26. 26. 画像特徴量  局所特徴量(SIFT等)  大域特徴量  エッジベース(GIST)  色あい(カラーヒストグラム)  CNN(畳み込みニューラルネット)
  27. 27. 局所特徴量  画像中のあるパーツが存在することを認識する  人間の目、猫の耳など  一つの画像から不定個数の特徴量が出現  たとえば、猫の出る動画一覧とか、そういう機能に向い ているはず。タグ認識くらいの細かいタスクだと強力か も  ただし、動画の膨大な画像に対して10個程度のラベルしか ついていない問題だときびしいかもしれない。教師データ は別に用意する必要があるかも
  28. 28. 大域特徴量  画像全体に対して一つ定まる特徴  色使い  エッジの密度・構図(GIST) http://people.csail.mit.edu/torralba/code/spatialenvelope/
  29. 29. CNN  CNN(畳み込みニューラルネット)も比較に使う  局所特徴をどんどん構造化してくモデル。物体認識で成功している  トレーニング済みのモデルを利用して、中間層を特徴量にする  ほんとはニコニコのサムネに対してファインチューニングしたほうがいい  Caffeのcaffenetモデルを利用  http://nbviewer.ipython.org/github/BVLC/caffe/blob/master/examples/filter_visualizati on.ipynb この層の値を特徴量に
  30. 30. 実験結果 特徴量 正答率 ランダム 3.48% GIST 13.18% CNN 26.43% • データ: 2876サンプル • 29カテゴリから100サンプルずつ。 • ニコニコ新検索で”人気順” • 学習方法: 2776で学習、100でテストを繰り返すクロスバリデーション
  31. 31. CNNの混同行列  歌ってみたは、元のVOCALOIDのサムネをそのまま使ってる場合が多いので無理か  技術部が作ってみた、科学と混同されるのは妥当だけど、どういう特徴だろう  (車載,旅行) や (アニメ, アイドルマスター)など、妥当な間違いが多い
  32. 32.
  33. 33. 音特徴量  音声(意味のある語を発声したもの)  MFCC  音程(基本周波数)を取り除いた後の、語による特性(声動 特性)を表している。音声認識できる  音楽(語に落としこむのが目的ではない)  スペクトログラム分析(周波数x時間の画像)  使われている楽器  盛り上がり  BPM  基本周波数の軌跡(メロディライン)
  34. 34. パワーの統計特徴量  音楽として統制の とれたジャンルと、 ホームビデオ的な ジャンルでは、音 量の分布に差があ る。  Max, min, avg, std の4次元の統計量 を特徴として用い てみた 初音ミクさんが歌う「あったかいんだからぁ♪」 熊に手を振ったらこうなった
  35. 35. 周波数領域の瞬時特徴量  やはり、音声といえば周波数分 解。  発話内容を認識したり、音楽 ジャンル(ロック <-> クラシッ ク)を認識したりするタスクで は、周波数分解が活躍する。  今回のタスクを解くのにうまい やり方が思いつかなかったので、 動画の中でパワーが最大となる ところの瞬時スペクトルをその 動画の特徴としてみた このウィンドウの瞬時周波数スペクトル
  36. 36. 実験結果 特徴量 正答率 ランダム 7.23% 音量統計量 18.81% 瞬時特徴 20.69% 両方 24.82% • データ: 1382サンプル • 動画の取得に結構失敗したため画像の例よりサンプルが少ない • さらに、カテゴリの割合がばらついている。 • 学習方法: 1282で学習、100でテストを繰り返すクロスバリデーション
  37. 37. 音声結合特徴の混同行列  演奏してみた、は認識できているけど、VOCALOIDと歌って みたは混同している。声質までは認識できていないか  動物の精度もよい。ホームビデオ感がとらえられている?
  38. 38. コメントテキスト
  39. 39. コメント特徴量の候補 • 正規化済み生コメントのままつかう • Ngramに分解 • 形態素解析 • tfidfフィルタリングの追加
  40. 40. “あずにゃんペロペロペロペロ” をアニメと認識させる 分解方法 分解結果 生コメント あずにゃんペロペロペロ ペロペロペロ 全く同じコメントが少な いから難しい 正規化 あずにゃんペロ テンプレが認識される。 けどあずにゃんじゃない 対象ではだめ 2gram [あず, ずに, にゃ…] “あず”や”ペロ”という特徴 語が現れるので認識しや すくなる 形態素解析 [あずにゃん, ペロ] 2gramより、意味を持っ た次元になる。ただし辞 書が整ってない場合はお かしな位置で切られてし まう
  41. 41. Tf-IDF  TF: コメントの出現回数じゃなくて、出現確率にす る。コメントが少ない動画でも認識されるように  IDF: どんな動画でも出現するコメントの重要度を減 らす。例えばwは重要じゃないとされる
  42. 42. 今回用いた特徴 1. ユニコード正規化(NFKC) 2. 4文字以内の繰り返しを正規化 3. 1-gramと2-gramのベクトルに分解 4. 教師データ内での出現頻度上位10000次元に制限(計 算資源の都合) 5. tfとidfのフィルタかける
  43. 43. 実験結果 特徴量 正答率 ランダム 3.45% 生コメント10000次元 42.30% 1gram+2gram10000次元 54.65% 1gram+2gram10000次元tf-idf 57.97% • データ: 2896サンプル • 29カテゴリから100サンプルずつ。 • すごい検索で”人気順” • 学習方法: 2796で学習、100でテストを繰り返すクロスバリデーション
  44. 44. 考察  tf-idfがたいして効かないのは、人気動画のみで、か つコメント数を最新1000件という制限をかけている のが擬似的にtfになっているのと、ランダムフォレ ストの次元削減により、idfと同様な重み低減が既に 行われているからかと思われる。
  45. 45. マルチモーダル
  46. 46. マルチモーダル特徴?  いままで画像、言語、音と個別に比較した特徴を結 合する  それぞれのベクトルを単純に結合  重みはランダムフォレストによって調整できるため
  47. 47. 実験結果 特徴量 次元数 正答率 サンプル数 ランダム 7.24% 2876 コメント 10000 57.97% コメント+CNN 10960 58.84% 特徴量 次元数 正答率 サンプル数 ランダム 3.48% 1382 コメント 10000 62.42% コメント+音 10068 63.14% コメント+音+CNN 11028 63.58%  個別実験と同じ、その日の人気TOP100動画
  48. 48. 大規模データで再実験  サンプルサイズを大きくし、超人気動画以外も取ってみ る。  新検索で人気順各カテゴリ1000 -> 約29000動画  一時的に結果公開します http://vps.hi- king.me/deeptag/category/categories_bigram_cnn 特徴量 次元数 正答率 サンプル数 ランダム 8.13 26053 コメント 10000 57.12% コメント+CNN 14096 58.26%
  49. 49. コメント+CNNの混同行列
  50. 50. 音楽, アニメ 音楽, 歌ってみた アニメ, エンターテイメント たしかに、視聴者も近く、サムネイルも似ているものが混同している コメント+CNNの混同行列
  51. 51. コメント数毎の正答率  だいたい300コメント集まれば精度が頭打ちになる  10コメント以下でも、壊滅的な精度ではない  画像特徴が精度向上に結びついてない原因か 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0-9 30-39 60-69 90-99 120-129 150-159 180-189 210-219 240-249 270-279 300-309 330-339 360-369 390-399 420-429 450-459 480-489 510-519 540-549 570-579 600-609 630-639 660-669 690-699 720-729 750-759 780-789 810-819 840-849 870-879 900-909 930-939 960-969 990-1000 正答率 コメント数 コメント数と各特徴量による正答率 画像 コメント 画像+コメント
  52. 52. 考察  動画+コメントという体験はマルチモーダルなものであ り、特徴量を結合することで解析精度が上がることもあ る。しかしコメントがほぼ上位互換  音声情報や画像情報だけでもそれなりの識別は可能であ り、タスク次第では有用性はある。  より細かいクラス分類。たとえばボカロカテゴリ内のジャ ンル判定とかで使えるかも。  “似た雰囲気のもの”を探す特徴は意外と研究されていな いと感じる。問題の定義自体が難しいかもしれない。
  53. 53. 本日のトピック ごちうさ難民はどこへ行ったか コメントによる動画要約 動画を表現するマルチモーダル 特徴の検討 @Hi_king

×