More Related Content
More from 長岡技術科学大学 自然言語処理研究室 (20)
Web上の誹謗中傷を表す文の自動抽出
- 17. 17
基本単語選定の結果
単語 MI合計
共起した
悪口単語数
死ね 13.61 63
消えろ 3.492 41
蛆虫 2.430 21
カス 0.7394 43
死ねよ 0.6666 31
童貞 0.6294 50
厨 0.3285 51
池沼 0.2948 23
孤独 0.2552 27
ホモ 0.2386 33
単語
出現頻度
(× 10 )
引換 49
買い上げ 43
絞り込み 29
降順 25
振替 23
昇順 22
引き継ぎ 20
停留所 20
負い 18
策定 17
6
悪口極性の基本単語候補 非悪口極性の基本単語候補
- 19. 19
評価実験結果
上位5語のみを用いて実験を行った
死ね 消えろ 蛆虫 カス 童貞
引換 42 41 38 38 44
買い上げ 41 46 44 44 44
絞り込み 39 40 40 40 45
降順 35 40 38 38 43
振替 50 50 33 49 50
意味的な逆を考慮した時の実験結果
賞賛単語の平均認識数:20.1
人が悪口と無関係であると連想する語:30.9
平均認識数:41.0
- 26. 26
実験結果
F値の最大値 90.0 (閾値=-0.2)
適合率 92.5
再現率 87.0
適合率 86.6
再現率 82.0
ベースラインF値 84.2
-0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4
40
50
60
70
80
90
100
適合率
再現率
F 値
悪口度閾値
適合率,再現率,F値
(全単語を素性に使用)
- 32. 32
関連研究(2/2)
単語の評価極性の判別手法
1.Turney and Littman, 2002
極性を示す代表的な語(基本単語) を用意
単語 w が “excellent” と “poor” のどちらと共起しているか
“excellent”ならば w は肯定極性, 逆なら w 否定極性
Web検索エンジンを使用して共起情報を獲得
2. Wang and Araki, 2008
Turney らの手法を日本語用に改良
“すばらしい” と “不良” ではヒット件数の差が大きい
ヒット件数の差を考慮する要素を追加
- 36. 36
他の分類手法の比較
規則による分類手法
1つでも悪口単語を含むなら悪口文
最大 F値 82.4(適合率 74.7, 再現率 91.8) 閾値=0.2
悪口度の総和が閾値を超えるなら悪口文
最大 F値 75.3 (適合率 68.0, 再現率 86.2) 閾値=-0.7
悪口単語の数が非悪口単語の数を超えるなら悪口文
最大 F値 74.8 (適合率 63.7, 再現率 90.6) 閾値=-4
機械学習による分類手法
文内の全ての単語が素性
F値 84.2 (適合率 86.6, 再現率 82.0)
閾値を超える悪口度を持つ単語のみを素性
最大 F値 90.0 (適合率 92.5, 再現率 87.0) 閾値=-0.2
- 43. 43
評価結果 - 含有数上位下位5件 -
基本単語 (悪/非悪) 提案手法 藤村手法
ブス/机 48
ブサイク/四角い 48
ブサイク/机 47
ブサイク/酸っぱい 46
ブサイク/赤い 46
: :
無能/イケメン 6
嫌い/可愛い 4
嫌い/素晴らしい 2
嫌い/カッコいい 0
嫌い/イケメン 0
16
- 44. 44
評価結果 - 全組み合わせの含有数 -
0 20 40 60 80 100 120
0
10
20
30
40
50
60
各種基本単語
藤村手法
各基本単語の組み合わせ
悪口単語含有数
- 48. 48
学習データ & 実験方法 & 評価方法
学習データ
悪口文/非悪口文 各1403文
2ちゃんねるより収集
実験方法
5分割交差検定
評価方法
適合率, 再現率, F値による評価
適合率=
出力と正解の一致数
出力の数
再現率=
出力と正解の一致数
正解の数
F値=
2×適合率×再現率
適合率再現率
- 51. 51
悪口度算出手法
SO-PMI [Wang and Araki, 2008] を使用
Cw=log
hitw ,wp∗hit wn
hitw ,wn∗hitwp
f =∗log
hit wp
hit wn
SO‐ PMI w=C w f
SO-PMI (w) = 悪口度(w)
- 52. 52
悪口度算出手法
SO-PMI [Wang and Araki, 2008] を使用
Cw=log
hitw ,wp∗hit wn
hitw ,wn∗hitwp
f =∗log
hit wp
hit wn
SO‐ PMI w=C w f
wp :悪口極性の基本単語
wn :非悪口極性の基本単語
hit 関数 :Web検索ヒット件数
f 関数:検索ヒット件数の差を考慮した重み(α=0.9)