Web上の誹謗中傷を表す文の自動抽出

Web上の誹謗中傷を表す文の自動検出
０７３１１３８７　山本研究室
石坂達也

2
発表の流れ
1. 研究の背景と目的
2. 各種定義
3. 提案手法
　　3.1 システム概要図
　　3.2 単語悪口度の算出
　　3.3 基本単語の選定
　　3.4 誹謗中傷文の検出
４. まとめ

3
発表の流れ
2. 各種定義
3. 提案手法
４. まとめ

4
研究背景(1/2)
Web上には他者を誹謗中傷する書き込みが存在
➔ 登校拒否
➔ うつ病
➔ ノイローゼ
最悪の場合、自殺を引き起こしている
被害者
小中学生による書き込みが増加

5
研究背景(2/2)
企業や自治体による人手の監視
現状
日々増加する大量の文
時間的、作業量的に負担が大きい
問題点
半自動化により作業の効率化、負担軽減
解決案

6
目的
誹謗中傷を表す文を
自動で検出するシステムの構築

7
発表の流れ
2. 各種定義
3. 提案手法
４. まとめ

8
各種定義
誹謗中傷
以後「悪口」と呼ぶ
批判や中傷により他者を不快にさせる表現
製品や組織などへ対する批判は対象外
悪口単語
単語単独でも他者への批判・中傷できる単語
（例）死ね、ウザい
悪口文
悪口表現を含む文（皮肉は対象外）
（例）お前みたいな認識の馬鹿は死ねば良い

9
発表の流れ
2. 各種定義
3. 提案手法
４. まとめ

10
システム図概要
単語に
悪口度付与
2ちゃんねる入力文
Web検索ヒット
件数
文分類：
悪口文
悪口文非悪口文
YES
NO

11
単語悪口度の定義
悪口文の特徴
悪口単語を含む文が多い (例) お前は馬鹿
文や句の悪口表現を含む文 (例) サル以下の脳みそ
皮肉を表現している文 (例) あいつは頭いいからなｗｗ
悪口度
● 悪口単語であるかどうかの可能性を示す
● 悪意が強い/弱いを意味しない
悪口の対象者の情報を必要になり、問題が大きすぎる。
本研究では皮肉は対象外
悪口単語の認識は多くの悪口文検出につながる
悪口単語か否かを判別に悪口度を活用

12
悪口度算出手法
SO-PMI [Wang and Araki, 2008] を使用
2つの基本単語を用意
ある単語がどちらの基本単語と多く共起するか
Web検索ヒット数を共起数としている
SO-PMI (w) = 悪口度(w)

13
発表の流れ
2. 各種定義
3. 提案手法
４. まとめ

14
基本単語の選定
事前の実験の結果では基本単語により精度が大きく変化
より多くの悪口単語を認識できる基本単語が欲しい
多くの実験で悪口認識数が多い単語
悪口度平均の高い単語
SO-PMIを高くする単語
3つの方法
基本単語にすべき単語の選定手法の提案

15
事前の実験の結果では基本単語により精度が大きく変化
より多くの悪口単語を認識できる基本単語が欲しい
多くの実験で悪口認識数が多い単語
悪口度平均の高い単語
SO-PMIを高くする単語
3つの方法
基本単語にすべき単語の選定手法の提案

16
基本単語の条件
悪口単語との相互情報量(MI)が高い
多くの悪口単語(20以上)と共起
悪口極性の基本単語候補
悪口単語と共起しない
単独の出現頻度が多い
非悪口極性の基本単語候補

17
基本単語選定の結果
単語 MI合計
共起した
悪口単語数
死ね 13.61 63
消えろ 3.492 41
蛆虫 2.430 21
カス 0.7394 43
死ねよ 0.6666 31
童貞 0.6294 50
厨 0.3285 51
池沼 0.2948 23
孤独 0.2552 27
ホモ 0.2386 33
単語
出現頻度
(× 10 )
引換 49
買い上げ 43
絞り込み 29
降順 25
振替 23
昇順 22
引き継ぎ 20
停留所 20
負い 18
策定 17
6
悪口極性の基本単語候補非悪口極性の基本単語候補

18
評価実験
評価用データ
異なり数2735単語
悪口単語 80語
非悪口単語 2655 語
３人の評価者が単語を悪口単語か否かを判断
３人一致で悪口単語なら悪口単語
それ以外を非悪口単語
評価方法
順位をもとした評価
悪口度が高い上位200単語の中にいくつ悪口単語があるか
単語に悪口度を与え、適切かどうかを検証

19
評価実験結果
上位5語のみを用いて実験を行った
死ね消えろ蛆虫カス童貞
引換 42 41 38 38 44
買い上げ 41 46 44 44 44
絞り込み 39 40 40 40 45
降順 35 40 38 38 43
振替 50 50 33 49 50
意味的な逆を考慮した時の実験結果
賞賛単語の平均認識数：20.1
人が悪口と無関係であると連想する語：30.9
平均認識数：41.0

20
発表の流れ
2. 各種定義
3. 提案手法
４. まとめ

21
文分類手法
規則による分類手法
1つでも悪口単語を含むなら悪口文
悪口度の総和が閾値を超えるなら悪口文
悪口単語の数が非悪口単語の数を超えるなら悪口文
機械学習を用いた分類手法
SVM(Support Vector Machine)を用いて分類
悪口単語を含む文が悪口文
基本的な考え方

22
文分類手法
SVM(Support Vector Machine)を用いて分類
悪口単語を含む文が悪口文
基本的な考え方

23
素性
悪口度が高い単語
ベースラインは全ての単語を素性とする
素性の重み(特徴量)
全て一律(=1)
基本単語
悪口極性：消えろ
非悪口極性:振替
閾値を超える単語
単語の存在の有無を材料に分類する

24
悪口度を用いた素性の足切り
学習データへの変換例(閾値=0)
入力文: お前みたいな認識の馬鹿は死ねば良い
● お前 (0.28)
● みたい (-0.02)
● 認識 (-0.22)
● 馬鹿 (0.18)
● 死ね (0.37)
● 良い (-0.34)
● お前 (0.28)
● 馬鹿 (0.18)
● 死ね (0.37)
閾値による足切り後の素性悪口度算出
※括弧内の数値は悪口度。重みではない

25
評価用データ & 評価方法
評価用データ
悪口文/非悪口文各1403文
評価方法
適合率, 再現率, F値による評価
5分割交差検定
適合率=
出力と正解の一致数
出力の数
再現率=
正解の数
F値=
2×適合率×再現率
適合率再現率

26
実験結果
F値の最大値 90.0 (閾値=-0.2)
適合率 92.5
再現率 87.0
適合率 86.6
再現率 82.0
ベースラインF値 84.2
-0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4
40
50
60
70
80
90
100
適合率
再現率
F 値
悪口度閾値
適合率,再現率,F値
(全単語を素性に使用)

27
発表の流れ
2. 各種定義
3. 提案手法
４. まとめ

28
まとめ
単語に悪口度を付与
Web検索ヒット数をもとにしたSO-PMIの利用
SVMを使った文の分類
悪口度をもとに素性の足切り
ベースラインと比較してF値が5ポイント向上
悪口文を検出するための手法を提案

29
ありがとうございました

31
悪口単語の特徴を活かせる
悪口単語同士は文書内共起しやすい
悪口/非悪口に分類された集合の準備が不要
利点
単語wがwpとwnのどちらと
文書内共起しているかの比率
何が求まるのか

32
関連研究(2/2)
単語の評価極性の判別手法
１．Turney and Littman, 2002
極性を示す代表的な語(基本単語) を用意
単語 w が “excellent” と “poor” のどちらと共起しているか
“excellent”ならば w は肯定極性, 逆なら w 否定極性
Web検索エンジンを使用して共起情報を獲得
2. Wang and Araki, 2008
Turney らの手法を日本語用に改良
“すばらしい” と “不良” ではヒット件数の差が大きい
ヒット件数の差を考慮する要素を追加

33
関連研究(1/2)
単語が悪口単語か否かを判別する手法はない
しかし、特定の単語を抽出する研究は盛んに行われている

特定の分野の専門用語を抽出する手法

ある単語の関連用語を抽出する手法
評価表現を抽出する手法
悪口は人への不評表現悪口は人への不評表現

34
基本単語の選択
wp：悪口単語
死ね、ウザい、キモいなど
悪口の逆とは何か？
賞賛
悪口を他者への不評表現と考えた場合、逆は好評表現
悪口と無関係
「好きの反対は無関心」と同じ理屈

35
評価実験
単語に悪口度を与え、正確かどうかを検証
死ね、ウザい、キモい、キチガイ、チョン、クズ、無能、ブサイク、ブス、嫌い
賞賛単語 : 可愛い、素敵、イケメン、素晴らしい、美しい
連想的無関係語：机、チューリップ、太陽、夏、酸っぱい、四角い、赤い
非悪口極性の基本単語(12語)
悪口極性の基本単語(10語)

36
他の分類手法の比較
最大 F値 82.4(適合率 74.7, 再現率 91.8)　閾値=0.2
最大 F値 75.3 (適合率 68.0, 再現率 86.2) 閾値=-0.7
最大 F値 74.8 (適合率 63.7, 再現率 90.6) 閾値=-4
機械学習による分類手法
文内の全ての単語が素性
F値 84.2 (適合率 86.6, 再現率 82.0)
閾値を超える悪口度を持つ単語のみを素性
最大 F値 90.0 (適合率 92.5, 再現率 87.0) 閾値=-0.2

37
否定語の考慮
悪口単語が否定されている場合、悪口単語を含ん
でいても悪口文とならない
悪口単語と否定語が文節内共起した場合は悪口単
語として扱わない
否定語は「ない」のみを取り扱う
文節の切り出しには係り受け解析器CaboChaを使用
 否定語がつくことで悪口極性が打ち消される例
　悪口単語：バカ、死ね、キモい
　否定語と共起：バカじゃない、死ねない、キモくない

38
2ちゃんねるの言語表現に対応できれば、
Web上の多くの悪口文に対応できると予想
使用する言語資源
使用するデータは全て”2ちゃんねる”より収集
２ちゃんねる
巨大で書き込み数も多い
多くの悪口文を含むことで社会的に認知
言語表現が豊富

39
基本単語について
wp: 「素晴らしい」,「素敵」 ← 好評表現
wn：「不良」,「悪い」 ← 不評表現
Wang and Araki
評価極性が逆の単語を使用

40
基本単語選定における言語資源
使用するデータ
単語7-gram
Googleが配布(Webページより作成)
異なり数約６億
品詞は以下に限定する
動詞-自立, 名詞-一般, 形容詞
悪口単語(110語)
得られた単語を基本単語として悪口度を算出し、評価実験を行う

41
基本単語の選択
wp：悪口単語
死ね、ウザい、キモい、キチガイ、チョン、クズ、無能、
ブサイク、ブス、嫌い
wn：賞賛単語
可愛い、素敵、イケメン、素晴らしい、美しい
wn:連想的無関係語 (人が悪口と関係ないと連想した単語）
机、チューリップ、太陽、夏、酸っぱい、四角い、赤い

42
比較手法
藤村らの手法を比較手法とする [藤村ら 2005]
評価表現の極性(肯定/否定)の分類するための手法
悪口文集合と非悪口文集合のどちらに多く出現しているかを算出
悪口文/非悪口文それぞれ1400文を人手により収集
F w=
PP w−PN w
PP wPN w
−1 ≤ Fw ≤ 1
 w : 対象となる単語
 PP(w) : 悪口文集合内でのwの出現確率
 PN(w) : 非悪口文集合内でのwの出現確率

43
評価結果 - 含有数上位下位５件 -
基本単語 (悪/非悪) 提案手法藤村手法
ブス/机 48
ブサイク/四角い 48
ブサイク/机 47
ブサイク/酸っぱい 46
ブサイク/赤い 46
：：
無能/イケメン 6
嫌い/可愛い 4
嫌い/素晴らしい 2
嫌い/カッコいい 0
嫌い/イケメン 0
16

44
評価結果 - 全組み合わせの含有数 -
0 20 40 60 80 100 120
0
10
20
30
40
50
60
各種基本単語
藤村手法
各基本単語の組み合わせ
悪口単語含有数

45
評価結果より
比較手法よりも正確に悪口単語認識できている
130組のうち103組は比較手法より含有数が多い
最も多い時で48語
「ブサイク/四角い」「ブス/机」
賞賛単語(平均:20) < 連想的無関係語(平均：31)
形容詞(平均:24) < 名詞 (平均:28)
基本単語により精度が大きく変化

46
原因：
一部の非悪口単語に高い悪口度が付与されている
政治家の名前など (悪口の対象となることが多い)
考察
悪口単語が下位に位置づけられる
悪口単語でなくても悪口単語に偏って共起すれば悪口度は高くなる

47
原因：
一部の非悪口単語に高い悪口度が付与されている
政治家の名前など (悪口の対象となることが多い)
考察
悪口単語が下位に位置づけられる
対処しない
悪口単語を持たない悪口文の検出に活用する
悪口単語でなくても悪口単語に偏って共起すれば悪口度は高くなる

48
学習データ & 実験方法 & 評価方法
学習データ
悪口文/非悪口文各1403文
2ちゃんねるより収集
実験方法
5分割交差検定
評価方法
適合率, 再現率, F値による評価
適合率=
出力の数
再現率=
正解の数
F値=
2×適合率×再現率
適合率再現率

49
SO-PMIを高くする単語とは
C w=log
hitw ,wp∗hit wn
hitw ,wn∗hit wp

SO-PMIの主要部分
= log
hit w ,wp
hitwp
hit w ,wn
hitwn

相互情報量相互情報量(MI)
赤枠MI:大
青枠MI:小
SO-PMI：大
wを悪口単語とした時、
MIが高い単語
MIが小さい単語を探す

50
まとめ
単語に悪口度を付与
文書内共起をもとにしたSO-PMIの利用
比較手法よりも多く悪口単語を認識できた
SO-PMIが高くなるような基本単語を探索
悪口極性：悪口単語とのMIが高く、多くの悪口単語と共起する語
非悪口極性：悪口単語と共起せず、単独の出現頻度が高い語
SVMを使った文の分類
悪口度をもとに素性の足切り
ベースラインと比較してF値が5ポイント向上
悪口文を検出するための手法を提案

51

Cw=log
hitw ,wn∗hitwp

f =∗log
hit wp
hit wn

SO‐ PMI w=C w f 
SO-PMI (w) = 悪口度(w)

52

Cw=log
hitw ,wn∗hitwp

f =∗log
hit wp
hit wn

SO‐ PMI w=C w f 
wp :悪口極性の基本単語
wn :非悪口極性の基本単語
hit 関数 :Web検索ヒット件数
f 関数:検索ヒット件数の差を考慮した重み(α=0.9)

53
誤り解析
悪口単語の認識誤り
造語のより正確な単語分割が出来ず、悪口単語を認識
できなかった。
(例) 意味がわからんスレたてるな競馬鹿
意味がわからんスレたてるな競馬鹿
悪口度高
悪口度高悪口度低

Web上の誹謗中傷を表す文の自動抽出

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from 長岡技術科学大学　自然言語処理研究室

More from 長岡技術科学大学　自然言語処理研究室 (20)

Recently uploaded

Recently uploaded (9)