Submit Search
Upload
2ちゃんねるを対象とした悪口表現の抽出
•
2 likes
•
2,084 views
長岡技術科学大学 自然言語処理研究室
Follow
石坂 達也, 山本 和英. 2ちゃんねるを対象とした悪口表現の抽出. 言語処理学会第16回年次大会, pp.178-181 (2010.3)
Read less
Read more
Technology
Report
Share
Report
Share
1 of 29
Download now
Download to read offline
Recommended
第76回TokyoR
第76回TokyoR
ShoKato2
Suffix Array@Solr勉強会
Suffix Array@Solr勉強会
nobu_k
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
長岡技術科学大学 自然言語処理研究室
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
長岡技術科学大学 自然言語処理研究室
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
長岡技術科学大学 自然言語処理研究室
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
長岡技術科学大学 自然言語処理研究室
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
長岡技術科学大学 自然言語処理研究室
用言等換言辞書の構築
用言等換言辞書の構築
長岡技術科学大学 自然言語処理研究室
Recommended
第76回TokyoR
第76回TokyoR
ShoKato2
Suffix Array@Solr勉強会
Suffix Array@Solr勉強会
nobu_k
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
長岡技術科学大学 自然言語処理研究室
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
長岡技術科学大学 自然言語処理研究室
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
長岡技術科学大学 自然言語処理研究室
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
長岡技術科学大学 自然言語処理研究室
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
長岡技術科学大学 自然言語処理研究室
用言等換言辞書の構築
用言等換言辞書の構築
長岡技術科学大学 自然言語処理研究室
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
長岡技術科学大学 自然言語処理研究室
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
長岡技術科学大学 自然言語処理研究室
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
長岡技術科学大学 自然言語処理研究室
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
長岡技術科学大学 自然言語処理研究室
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
長岡技術科学大学 自然言語処理研究室
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
長岡技術科学大学 自然言語処理研究室
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
長岡技術科学大学 自然言語処理研究室
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
長岡技術科学大学 自然言語処理研究室
二格深層格の定量的分析
二格深層格の定量的分析
長岡技術科学大学 自然言語処理研究室
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
長岡技術科学大学 自然言語処理研究室
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
長岡技術科学大学 自然言語処理研究室
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
長岡技術科学大学 自然言語処理研究室
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
長岡技術科学大学 自然言語処理研究室
普通名詞換言辞書の構築
普通名詞換言辞書の構築
長岡技術科学大学 自然言語処理研究室
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
長岡技術科学大学 自然言語処理研究室
普通名詞換言辞書の構築
普通名詞換言辞書の構築
長岡技術科学大学 自然言語処理研究室
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討
長岡技術科学大学 自然言語処理研究室
A Comparison of Unsuperviesed Bilingual Term Extraction Methods Using Phrase ...
A Comparison of Unsuperviesed Bilingual Term Extraction Methods Using Phrase ...
長岡技術科学大学 自然言語処理研究室
説明文と記述要素の関係要因の調査~そこにクエリの「何」が書かれているのか~
説明文と記述要素の関係要因の調査~そこにクエリの「何」が書かれているのか~
長岡技術科学大学 自然言語処理研究室
QAサイトにおける専門用語を用いた最適な回答者提示
QAサイトにおける専門用語を用いた最適な回答者提示
長岡技術科学大学 自然言語処理研究室
More Related Content
More from 長岡技術科学大学 自然言語処理研究室
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
長岡技術科学大学 自然言語処理研究室
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
長岡技術科学大学 自然言語処理研究室
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
長岡技術科学大学 自然言語処理研究室
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
長岡技術科学大学 自然言語処理研究室
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
長岡技術科学大学 自然言語処理研究室
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
長岡技術科学大学 自然言語処理研究室
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
長岡技術科学大学 自然言語処理研究室
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
長岡技術科学大学 自然言語処理研究室
二格深層格の定量的分析
二格深層格の定量的分析
長岡技術科学大学 自然言語処理研究室
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
長岡技術科学大学 自然言語処理研究室
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
長岡技術科学大学 自然言語処理研究室
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
長岡技術科学大学 自然言語処理研究室
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
長岡技術科学大学 自然言語処理研究室
普通名詞換言辞書の構築
普通名詞換言辞書の構築
長岡技術科学大学 自然言語処理研究室
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
長岡技術科学大学 自然言語処理研究室
普通名詞換言辞書の構築
普通名詞換言辞書の構築
長岡技術科学大学 自然言語処理研究室
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討
長岡技術科学大学 自然言語処理研究室
A Comparison of Unsuperviesed Bilingual Term Extraction Methods Using Phrase ...
A Comparison of Unsuperviesed Bilingual Term Extraction Methods Using Phrase ...
長岡技術科学大学 自然言語処理研究室
説明文と記述要素の関係要因の調査~そこにクエリの「何」が書かれているのか~
説明文と記述要素の関係要因の調査~そこにクエリの「何」が書かれているのか~
長岡技術科学大学 自然言語処理研究室
QAサイトにおける専門用語を用いた最適な回答者提示
QAサイトにおける専門用語を用いた最適な回答者提示
長岡技術科学大学 自然言語処理研究室
More from 長岡技術科学大学 自然言語処理研究室
(20)
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
二格深層格の定量的分析
二格深層格の定量的分析
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
普通名詞換言辞書の構築
普通名詞換言辞書の構築
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
普通名詞換言辞書の構築
普通名詞換言辞書の構築
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討
A Comparison of Unsuperviesed Bilingual Term Extraction Methods Using Phrase ...
A Comparison of Unsuperviesed Bilingual Term Extraction Methods Using Phrase ...
説明文と記述要素の関係要因の調査~そこにクエリの「何」が書かれているのか~
説明文と記述要素の関係要因の調査~そこにクエリの「何」が書かれているのか~
QAサイトにおける専門用語を用いた最適な回答者提示
QAサイトにおける専門用語を用いた最適な回答者提示
2ちゃんねるを対象とした悪口表現の抽出
1.
2ちゃんねるを対象とした 悪口表現の抽出
長岡技術科学大学 石坂達也 山本和英 1
2.
背景 Web上には他者を誹謗中傷する書き込みが存在 最悪の場合, 自殺のきっかけとなる 悪口書き込みはより厳重に管理されるべき
堅実な方法として… 辞書を使用したフィルタリング 2
3.
目的 悪口表現辞書の構築
悪口表現の抽出が必須 今回 悪口表現抽出の手法を検討 3
4.
悪口表現の定義 他の情報を必要としない侮辱や誹謗中傷し ている単語,句 (例) ・あの政治家死ね ・奴らはバカな暇人野郎
4
5.
悪口表現の定義 他の情報を必要としない侮辱や誹謗中傷し ている単語,句
皮肉は対象外 (例) ・あの政治家死ね ・奴らはバカな暇人野郎 5
6.
悪口表現の定義 他の情報を必要としない侮辱や誹謗中傷し ている単語,句 (例)
「バカ」は悪口ではない場合がある (例)バカうまい ・あの政治家死ね ・奴らはバカな暇人野郎 6
7.
なぜ 「2ちゃんねる」なのか 2ちゃんねるは多くの人が利用している さらに, 悪口書き込みが多い 仮説
Web全体と2ちゃんねるでは 悪口表現の種類数 に大きな差はない 7
8.
問題点 と 基本方針 2ちゃんねるを対象にすることで生じる問題点
形態素解析器の解析ミス(単語の区切り、品詞情報) 文の区切りが句点とは限らない 造語, 隠語が多い 基本方針 品詞情報を無視 単語の過分割にも対応可能 8
9.
手法の流れ 1.
悪口表現種辞書の構築 2. 悪口文の収集 3. 悪口n-gram モデルの作成 4. 悪口表現抽出 9
10.
悪口表現種辞書の構築 人手で2ちゃんねるから悪口表現を抽出 103件 (例)
みんなまとめて逝け うざい キモイ ヲタは地獄に落ちろ 10
11.
悪口文の収集 種辞書の登録表現を含む文(悪口文)を収集
毎日 約2000スレッドを解析 約20万文を収集できた (例) つか,官僚死ねや 泥棒ゴミクズ団体はさっさと吊ってこい! こんなんでイチイチ騒ぐなボケカス。 11
12.
悪口n-gram モデルの作成 1/2 悪口文と非悪口文からモデルを作成
悪口文を約20万文, 非悪口文を約50万文 単語n-gram 1~5-gram 前向きと後ろ向きn-gramの2パターン SRILMを使用 悪口表現を持つn-gramを抽出 12
13.
悪口n-gram モデルの作成 2/2 -
前処理 - 悪口表現は1語に合成、汎化 (例) 男 って バカ な 暇人 野郎 ばっか 男 って <悪口> ばっか 単語は原形にして扱う 13
14.
悪口n-gram モデルの例
0.743 は 底抜け に <悪口> n-gram 確率 悪口表現の直前に連接する単語列 この場合n=4 (左連接属性) 0.67 <悪口> は さっさと 日本 から n-gram 確率 悪口表現の直後に連接する単語列 この場合n=5 (右連接属性) 14
15.
悪口n-gram モデルの例
0.743 は 底抜け に <悪口> n-gram 確率 悪口表現の直前に連接する単語列 この単語列があった時に この場合n=4 (左連接属性) 右側を抽出 0.67 <悪口> は さっさと 日本 から n-gram 確率 悪口表現の直後に連接する単語列 この単語列があった時に 左側を抽出 この場合n=5 (右連接属性) 15
16.
悪口表現獲得までの例 入力文 マスゴミのクズどもって,何でこうなる事が… 形態素解析後 マス
ゴミ の クズ どもる て ,何 で こう なる 事が… 適用されるn-gram <悪口> どもる て , 抽出される悪口表現 マスゴミのクズ 16
17.
評価実験 評価セット 悪口文378文, 非悪口文382文 評価方法
抽出された文字列を人手で悪口表現か評価 実験条件 n-gram確率を閾値 17
18.
実験結果(適合率)
18
19.
実験結果(適合率) 閾値が高い場合は高確率で
悪口表現抽出が可能 19
20.
実験結果(適合率) 閾値が高い場合は高確率で
悪口表現抽出が可能 しかし、3件 閾値を下げても再現率は最高で0.3 20
21.
考察:適合率と再現率 悪口表現のみに連接しやすい単語列は少ない (定型的に存在するわけではない) より悪口表現の特徴に適した指標も必要
21
22.
予備実験 新しい悪口表現の獲得数 辞書の拡張のためには新しい悪口表現の 獲得が必要 今回の手法でいくつ獲得できているか
22
23.
実験結果 (獲得数)
23
24.
実験結果 (獲得数)
閾値が低い時に 新しい悪口表現の獲得可能 24
25.
獲得した悪口表現 キモオタロリコン 消えてしまえ,馬鹿 デブ婆ァ スタイル悪い カス芸人 馬鹿男女
25
26.
考察:新しい悪口表現の獲得 閾値が低い場合に, 新しい悪口表現の獲得 閾値が低い場合は非悪口表現も多く獲得
同じ単語を使用する悪口表現を多く獲得 (例) 糞○○ 糞ガキ, 糞ゲー 同じ単語を使用する造語の獲得には有効 26
27.
まとめ n-gram確率で悪口表現を抽出する手法を検討 閾値が高い場合に高確率で抽出可能 種辞書にない表現も獲得可能
27
28.
ご清聴有難うございました
28
29.
実験結果(再現率)
Download now