ニコニコ米解析
@Hi_king
@Hi_king
 レコメンドエンジン作ったりしてます
 もともとは画像処理が専門でした
今日の目標
 コメント解析面白いので、皆さん一度やってみま
しょう
 ニコニココメントデータセットを利用することで手
軽に始められます
 http://www.nii.ac.jp/cscenter/idr/nico/nico.html
 ただし、今日のトピックでは最新のコメントや動画
情報も利用するので、このデータで全く同じことを
できるわけではないです
米ってどんなデータ?
 動画とコメントが持つ情報
動画
米
• テキスト
• 時間
• タグ
• 画像
• 音声
• 視聴者、投稿者
本日のトピック
ごちうさ難民はどこへ行ったか
コメントによる動画要約
動画を表現するマルチモーダル
特徴の検討
この話で使う特徴
動画
米
• テキスト
• 時間
• タグ
• 画像
• 音声
• 視聴者、投稿者
なんで?なんで?(ごちうさ)
 そのコメントの異様(褒め言葉)さで衝撃を与えたア
ニメ、”ご注文はうさぎですか”
 アニメが終わった途端に絶望感を感じ、ごちうさを
みることをやめられなくなった人々の叫びだった
 適当なアニメをレコメンドすればいいんじゃね!
 http://pyon.hi-king.me/
 特徴量は、コメントの出現数
 候補は2014春アニメの第一話に
ついたコメントのうちの上位
 つまり、同じ定型文がどれくら
い出現しているか。
 繰り返し正規化
 一時期話題になった
coooooolllllllllの論文[1]
 とりあえず4文字以内の繰り返し
を一つにまとめてみた
 動画同士の距離はコサイン類似
度
wwwwwwwwwwwww
www
888888888888888888
8888888
ペロペロペロペロ
★≡=― ★≡=―
★≡=― ★≡=―
[1] "Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs" (Brody & Diakopoulos)
https://twitter.com/search?f=realtime&q=難民救済力%20lang:ja
ブヒリティ
“ニコニコ養豚場の特徴としては、コメントの大半が「ぶひ
いぃぃぃ」等の豚の鳴き声で占められており…”
(http://dic.nicovideo.jp/a/ニコニコ養豚場)
要するに、かわいい女の子がキャッキャしてるのを眺めている我々の
ことである。
ブヒリティ?
キルラキルはあざとい系アニメじゃないはず。。。
ブヒリティ?
強きものに屈服する
豚たち。。。
ぶひい、というコメントが必ずしも萌えを表すものではなかった
(“服をきた豚ども!”という台詞に呼応してる)
まとめ
 ニコニコには多数の定型文が存在し、正規化された
コメントの出現頻度でも、動画が似ている、あるい
は視聴者が似ている、という情報を得ることが出来
る。
 コメント単体で見ると字面が一緒でも、動画のコン
テクストに呼応して別の意味を持っている場合もあ
る
この話で使う特徴
動画
米
• テキスト
• 時間
• タグ
• 画像
• 音声
 動画は楽しい
 でもすべての面白い(可愛い,クレイジーな,etc…)
動画を観るには人生は短すぎる
 最速で動画を見るツールが欲しい
一枚絵とagifで動画の雰囲
気を観よう
 動画の中からコメントが盛り
上がってるシーンを抽出
 あつめてagifに
 シーンごとのコメントから
ワードクラウドを作る
 デモします
ヒストグラム?
 コメントのヒストグ
ラム取ればいいん
じゃね?
 コメ数が3σを超えて
いるフレームがキー
フレーム
 前のフレームに対し
て独立と仮定してい
るので、同じシーン
が連続して抽出され
るミスがある
カーネル密度推定
 ガウスカーネルで密度推
定する
 平均1枚/分になるように
盛り上がりTOPnの頂点
を取る
 +σを超える頂点も取って
る
 根拠はないです
次への課題
 コメントの投稿は、基本的に先行することはなくて、
遅れモデルになる。
 刺激(シーン)に対する反応(コメント)って考えるとポ
アソン分布なのかな
 形態素解析でワードクラウド作るのは読みにくい
 cooooolllllllll論文のように、正規形の抽出すればいい
かも
 シーンのクラスタリングには画像・音声を使うもの
がよく研究されてるので、比較してみたい
この話で使う特徴
動画
米
• テキスト
• 時間
• タグ
• 画像
• 音声
• 視聴者、投稿者
全部考えてみる!
最適な特徴量?
 ごちうさ難民探しでは、同じコメントがどれくらい
現れているかを特徴量にしてたけど、本当にそれで
いいのかしら?定量評価できてない。
 簡単なタスクを設定して、特徴量間の比較をしてみ
よう
動画 特徴量
• いろんなのを
結合
識別器
• ランダムフォ
レスト固定
カテゴリ
• アニメ、ゲー
ム等29カテゴ
リ
タスク
 マルチモーダル特徴を用いて、動画の属するカテゴ
リの推定を行う
動画 特徴量
• いろんなのを
結合
識別器
• ランダムフォ
レスト固定
カテゴリ
• アニメ、ゲー
ム等29カテゴ
リ
タスク
 マルチモーダル特徴を用いて、動画の属するカテゴ
リの推定を行う
目的は、このタスクを解くことではなく、
どのような特徴量がつくれて、どうはたらくかを確かめること
画像
画像特徴量
 局所特徴量(SIFT等)
 大域特徴量
 エッジベース(GIST)
 色あい(カラーヒストグラム)
 CNN(畳み込みニューラルネット)
局所特徴量
 画像中のあるパーツが存在することを認識する
 人間の目、猫の耳など
 一つの画像から不定個数の特徴量が出現
 たとえば、猫の出る動画一覧とか、そういう機能に向い
ているはず。タグ認識くらいの細かいタスクだと強力か
も
 ただし、動画の膨大な画像に対して10個程度のラベルしか
ついていない問題だときびしいかもしれない。教師データ
は別に用意する必要があるかも
大域特徴量
 画像全体に対して一つ定まる特徴
 色使い
 エッジの密度・構図(GIST)
http://people.csail.mit.edu/torralba/code/spatialenvelope/
CNN
 CNN(畳み込みニューラルネット)も比較に使う
 局所特徴をどんどん構造化してくモデル。物体認識で成功している
 トレーニング済みのモデルを利用して、中間層を特徴量にする
 ほんとはニコニコのサムネに対してファインチューニングしたほうがいい
 Caffeのcaffenetモデルを利用
 http://nbviewer.ipython.org/github/BVLC/caffe/blob/master/examples/filter_visualizati
on.ipynb
この層の値を特徴量に
実験結果
特徴量 正答率
ランダム 3.48%
GIST 13.18%
CNN 26.43%
• データ: 2876サンプル
• 29カテゴリから100サンプルずつ。
• ニコニコ新検索で”人気順”
• 学習方法: 2776で学習、100でテストを繰り返すクロスバリデーション
CNNの混同行列
 歌ってみたは、元のVOCALOIDのサムネをそのまま使ってる場合が多いので無理か
 技術部が作ってみた、科学と混同されるのは妥当だけど、どういう特徴だろう
 (車載,旅行) や (アニメ, アイドルマスター)など、妥当な間違いが多い
音
音特徴量
 音声(意味のある語を発声したもの)
 MFCC
 音程(基本周波数)を取り除いた後の、語による特性(声動
特性)を表している。音声認識できる
 音楽(語に落としこむのが目的ではない)
 スペクトログラム分析(周波数x時間の画像)
 使われている楽器
 盛り上がり
 BPM
 基本周波数の軌跡(メロディライン)
パワーの統計特徴量
 音楽として統制の
とれたジャンルと、
ホームビデオ的な
ジャンルでは、音
量の分布に差があ
る。
 Max, min, avg, std
の4次元の統計量
を特徴として用い
てみた
初音ミクさんが歌う「あったかいんだからぁ♪」
熊に手を振ったらこうなった
周波数領域の瞬時特徴量
 やはり、音声といえば周波数分
解。
 発話内容を認識したり、音楽
ジャンル(ロック <-> クラシッ
ク)を認識したりするタスクで
は、周波数分解が活躍する。
 今回のタスクを解くのにうまい
やり方が思いつかなかったので、
動画の中でパワーが最大となる
ところの瞬時スペクトルをその
動画の特徴としてみた
このウィンドウの瞬時周波数スペクトル
実験結果
特徴量 正答率
ランダム 7.23%
音量統計量 18.81%
瞬時特徴 20.69%
両方 24.82%
• データ: 1382サンプル
• 動画の取得に結構失敗したため画像の例よりサンプルが少ない
• さらに、カテゴリの割合がばらついている。
• 学習方法: 1282で学習、100でテストを繰り返すクロスバリデーション
音声結合特徴の混同行列
 演奏してみた、は認識できているけど、VOCALOIDと歌って
みたは混同している。声質までは認識できていないか
 動物の精度もよい。ホームビデオ感がとらえられている?
コメントテキスト
コメント特徴量の候補
• 正規化済み生コメントのままつかう
• Ngramに分解
• 形態素解析
• tfidfフィルタリングの追加
“あずにゃんペロペロペロペロ”
をアニメと認識させる
分解方法 分解結果
生コメント あずにゃんペロペロペロ
ペロペロペロ
全く同じコメントが少な
いから難しい
正規化 あずにゃんペロ テンプレが認識される。
けどあずにゃんじゃない
対象ではだめ
2gram [あず, ずに, にゃ…] “あず”や”ペロ”という特徴
語が現れるので認識しや
すくなる
形態素解析 [あずにゃん, ペロ] 2gramより、意味を持っ
た次元になる。ただし辞
書が整ってない場合はお
かしな位置で切られてし
まう
Tf-IDF
 TF: コメントの出現回数じゃなくて、出現確率にす
る。コメントが少ない動画でも認識されるように
 IDF: どんな動画でも出現するコメントの重要度を減
らす。例えばwは重要じゃないとされる
今回用いた特徴
1. ユニコード正規化(NFKC)
2. 4文字以内の繰り返しを正規化
3. 1-gramと2-gramのベクトルに分解
4. 教師データ内での出現頻度上位10000次元に制限(計
算資源の都合)
5. tfとidfのフィルタかける
実験結果
特徴量 正答率
ランダム 3.45%
生コメント10000次元 42.30%
1gram+2gram10000次元 54.65%
1gram+2gram10000次元tf-idf 57.97%
• データ: 2896サンプル
• 29カテゴリから100サンプルずつ。
• すごい検索で”人気順”
• 学習方法: 2796で学習、100でテストを繰り返すクロスバリデーション
考察
 tf-idfがたいして効かないのは、人気動画のみで、か
つコメント数を最新1000件という制限をかけている
のが擬似的にtfになっているのと、ランダムフォレ
ストの次元削減により、idfと同様な重み低減が既に
行われているからかと思われる。
マルチモーダル
マルチモーダル特徴?
 いままで画像、言語、音と個別に比較した特徴を結
合する
 それぞれのベクトルを単純に結合
 重みはランダムフォレストによって調整できるため
実験結果
特徴量 次元数 正答率 サンプル数
ランダム 7.24% 2876
コメント 10000 57.97%
コメント+CNN 10960 58.84%
特徴量 次元数 正答率 サンプル数
ランダム 3.48% 1382
コメント 10000 62.42%
コメント+音 10068 63.14%
コメント+音+CNN 11028 63.58%
 個別実験と同じ、その日の人気TOP100動画
大規模データで再実験
 サンプルサイズを大きくし、超人気動画以外も取ってみ
る。
 新検索で人気順各カテゴリ1000 -> 約29000動画
 一時的に結果公開します http://vps.hi-
king.me/deeptag/category/categories_bigram_cnn
特徴量 次元数 正答率 サンプル数
ランダム 8.13 26053
コメント 10000 57.12%
コメント+CNN 14096 58.26%
コメント+CNNの混同行列
音楽, アニメ
音楽, 歌ってみた
アニメ, エンターテイメント
たしかに、視聴者も近く、サムネイルも似ているものが混同している
コメント+CNNの混同行列
コメント数毎の正答率
 だいたい300コメント集まれば精度が頭打ちになる
 10コメント以下でも、壊滅的な精度ではない
 画像特徴が精度向上に結びついてない原因か
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0-9
30-39
60-69
90-99
120-129
150-159
180-189
210-219
240-249
270-279
300-309
330-339
360-369
390-399
420-429
450-459
480-489
510-519
540-549
570-579
600-609
630-639
660-669
690-699
720-729
750-759
780-789
810-819
840-849
870-879
900-909
930-939
960-969
990-1000
正答率
コメント数
コメント数と各特徴量による正答率
画像
コメント
画像+コメント
考察
 動画+コメントという体験はマルチモーダルなものであ
り、特徴量を結合することで解析精度が上がることもあ
る。しかしコメントがほぼ上位互換
 音声情報や画像情報だけでもそれなりの識別は可能であ
り、タスク次第では有用性はある。
 より細かいクラス分類。たとえばボカロカテゴリ内のジャ
ンル判定とかで使えるかも。
 “似た雰囲気のもの”を探す特徴は意外と研究されていな
いと感じる。問題の定義自体が難しいかもしれない。
本日のトピック
ごちうさ難民はどこへ行ったか
コメントによる動画要約
動画を表現するマルチモーダル
特徴の検討
@Hi_king

ニコニコ動画のコメント解析