SlideShare a Scribd company logo
発言小町
クロニクル
発言小町のデータは
面白い
• 2006から毎日追うことができる
• 様々なユーザーが赤裸々に書いてる
予想
• 発言小町にもトレンドが存在するのではないか?
レスをもらうために時流に乗ったトピックをたてるので
はないか
やったこと
• トピック内容を幾つかに分類する
o 概要をつかむ
• 分類ごとに時系列でトレンドがあるか調べる
o 予想の裏付け
• 突然の流行(外れ値)があるか調べる
o 小町ウォッチングができればいいなぁ
自動分類
自動分類
0 スカート, パンツ, 知人, 若い, 安く, 美味しい, 抵抗, なるべく, 思う, チェック,
1 漫画, 作品, 好き, 読ん, 読み, 教え, 下さい, さん, 先生, 雑誌,
2 主人, 子供, 夫婦, 結婚, 生活, 実家, こと, 主婦, 仕事, なり,
3 仕事, 会社, 時間, こと, よう, 上司, パート, 子供, なり, いる,
4 母乳, ミルク, 授乳, 赤ちゃん, 体重, 育て, ヶ月, 増え, 飲ま, 生後,
5 A子, さん, メール, 友人, 飲み, 疎遠, イベント, 結婚式, 愚痴, まし,
6 体重, キロ, ダイエット, kg, 痩せ, 身長, cm, 太っ, 運動, 食べ,
7 実家, 両親, 義理, 同居, 帰省, 結婚, 長男, 子供, 夫婦, 家族,
8 料理, 食べ, 野菜, 作っ, 上手, 美味しい, 作る, 毎日, 作り, 教え,
9 さん, ママ, 女性, 店員, まし, てる, 仕事, 美容, って, こと,
10 友人, 彼女, 結婚, たり, こと, 自分, 女性, って, 子供, 男性,
11 000, 保険, 貯金, 小遣い, 食費, 15, 家計, 25, 20, 10,
12 センチ, サイズ, 23, 12, 距離, 部分, 試し, 大きい, 身長, みたい,
13 ドラマ, 作品, さん, 映画, 好き, 海外, 教え, 以来, 久しぶり, テレビ,
14 息子, ママ, 先生, 幼稚園, 子供, 男の子, 友達, たり, 遊び, さん,
15 義母, 義父, 義妹, 義兄, 義姉, 同居, 子供, 実家, たち, 主人,
16 教え, ください, 食べ, お願い, よろしく, もの, 下さい, など, たい, たら,
17 弁当, ランチ, 食べ, 持参, 外食, 午前, 作っ, 作り, 朝食, お昼,
18 祖母, 祖父, 亡くなっ, 同居, 介護, 叔母, 義父, ありがとう, 土地, 相続,
19 日本, 英語, 海外, アメリカ, 帰国, 日本語, 現地, 旅行, 日本人, 留学,
生々しい。。。
• 家庭生活(2)、パートジョブ(3)、ダイエット(6)、親戚づ
きあい(15)、介護(18)
o 家庭まわりの話が多いんだなぁ
• 同じ数字が出てくるクラスタでも、お金(11)とその他
(12)に分かれる
o お金は大事
• 異色の留学クラスタ(19)
簡易webUI
手法について
1. テキストを分かち書き
2. Tf-idfフィルタリング
3. K-meansクラスタリング
4. セントロイドの上位10次元を文字に戻して可視化
• Jubaclusteringを用いていたが、クラスタが大きく偏っ
てしまう問題が起きてしまった
o おそらく原点周りのクラスタになってしまっている
o 特徴次元が文字数(数千次元)でかなり大きいためと思われる
• 出現頻度で足切りして、多少は改善する
o Sklearnのminibatchkmeansのほうが今回は解釈しやすい結果になった
• オンライン学習でないため、初期値をある程度適切に選べることが聞いて
いるのかと予想する
トレンド
トレンドを観よう
トレンドを観よう
• 2010年よりも現在のほうがXXXが流行っている、というような大
きなトレンドは見えない。
• 季節ごとのトレンドはありそうに見える
仕事, 会社, 時間, こと, よう,
上司, パート, 子供, なり, いる
春に悩みがち?
友人, 彼女, 結婚, たり, こと,
自分, 女性, って, 子供, 男性
12月と、夏ころにピークが来る
手法
1. 全トピックをクラスタに割り当てる
2. 28日間の全トピックが、どのクラスタに何個あるかの
ヒストグラムを作る
1. 28日間にしているのは曜日による偏りをなくすため
3. 足して1になるように正規化
外れ値発見
3点が特に大きな外れ値と
なった
たしかにグラフで見ても特
徴的ではあるが、
その月に何かがあった、と
いう発見までは至らなかっ
た
手法
1. トレンド表示で作った、28日クラスタヒストグラムを
入力に用いる
2. Jubaanomaly!
まとめ
• 季節トレンドの分析はまじめにやると面白そう
o 今回の話は、きちんと検証しないで思い込みで書いてある部分もあるので、
ちゃんと検証してみるといいと思う
o 違う年の同じ月を足しあわせてみるといいと思う
• 小町の生々しさがわかったので、もっとこれを活かした
解析をしたい。
o 賛同を得やすいワードとか、否定されやすいワードとか。陰口で盛り上がるみ
たいなツラミを検証してみたい

More Related Content

Viewers also liked

20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
Toru Tamaki
 
20110606PRMU 2D-3Dマッチングを用いた3次元点群の時間的な剛体変化検出
20110606PRMU 2D-3Dマッチングを用いた3次元点群の時間的な剛体変化検出20110606PRMU 2D-3Dマッチングを用いた3次元点群の時間的な剛体変化検出
20110606PRMU 2D-3Dマッチングを用いた3次元点群の時間的な剛体変化検出
Toru Tamaki
 
Sparse Isotropic Hashing
Sparse Isotropic HashingSparse Isotropic Hashing
Sparse Isotropic Hashing
Ikuro Sato
 
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
Toru Tamaki
 
CNNチュートリアル
CNNチュートリアルCNNチュートリアル
CNNチュートリアル
Ikuro Sato
 
ディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けてディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けて
Ikuro Sato
 
ニコニコ動画のコメント解析
ニコニコ動画のコメント解析ニコニコ動画のコメント解析
ニコニコ動画のコメント解析
Keisuke Ogaki
 
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
Hiroki Ouchi
 

Viewers also liked (8)

20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
 
20110606PRMU 2D-3Dマッチングを用いた3次元点群の時間的な剛体変化検出
20110606PRMU 2D-3Dマッチングを用いた3次元点群の時間的な剛体変化検出20110606PRMU 2D-3Dマッチングを用いた3次元点群の時間的な剛体変化検出
20110606PRMU 2D-3Dマッチングを用いた3次元点群の時間的な剛体変化検出
 
Sparse Isotropic Hashing
Sparse Isotropic HashingSparse Isotropic Hashing
Sparse Isotropic Hashing
 
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
 
CNNチュートリアル
CNNチュートリアルCNNチュートリアル
CNNチュートリアル
 
ディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けてディープラーニングの車載応用に向けて
ディープラーニングの車載応用に向けて
 
ニコニコ動画のコメント解析
ニコニコ動画のコメント解析ニコニコ動画のコメント解析
ニコニコ動画のコメント解析
 
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
 

発言小町クロニクル