8. フェイクニュース判定のためのスタンス分析
From Stancesʼ Imbalance to Their HierarchicalRepresentation and Detection
n フェイクニュースはヘッドライン(主張)と内容に乖離しがち
• ヘッドラインは過剰にセンセーショナルだが内容はぐだぐだ。のような
• ヘッドラインと内容の乖離はコストを掛けないと埋まらない(ちゃんと記事を書かないといけない)ので
フェイクニュース判別の強⼒な特徴
n やったこと
• ヘッドライン(主張)に対して内容は「同意/反対/議論/無関係」のどのスタンスであるか? を推定
• 主張と内容の乖離は
• タスク⾃体は以前からあるもの
• データセット(教師ラベル付き)は以下にある
• http://www.fakenewschallenge.org/
n モデル
• 問題の特性をモデルに取り⼊れる
• 2段階のアプローチをする
• 関係/無関係の確率を先に計算したあとに
同意/反対/議論の確率を計算する
• 2段階のレイヤーをうまく学習させる
n 結果
• うまくいった!
8
9. 科学・医療・健康ニュースの⾃動品質評価
SciLens: Evaluating the Quality of Scientific News Articles Using Social Media and
Scientific Literature Indicators
n 科学ニュースの問題点
• 政治系フェイクニュース研究の正誤は伝統的メディア(テレビ/新聞)を正解とすることが多い
• 科学・医療・健康ニュースに関しては伝統的メディアもあてにならない 😇
→ 科学ニュースの品質指標を⾃動で作成する⼿法を提案する
※ すごいヒューリスティックにがんばっていて泥臭い(けど有⽤)
n 指標の基本的な考え⽅(いずれも直感的に理解しやすいもの)
• 「まともな引⽤」をしているか?
• ニュース記事と論⽂の意味的な類似性
• SNSでの⼈気度、反応のスタンス(⽀持/コメント/⽭盾/質問)
n 指標の評価
• 信頼性のわかっているサイトの「信頼性の⾼さ/低さ」と指標の相関を⾒る
• 専⾨家の評価と指標の相関を⾒る
→ ともにいくつかの指標で有意な相関
n 指標の効果
• 指標を⾮専⾨家に提⽰する/しない テスト → 指標によって専⾨家の評価に近づく
• 指標を使って機械学習モデルを構築 → そこそこの精度で分類できた 9
10. ニュースとヘイトスピーチ
n ヘイトスピーチで溢れるインターネット
• 政治的主張と絡み合っているのでニュースとの関連が強い
• センセーショナルで俗っぽいニュースは視聴者の移⺠に対する偏⾒を強める @ ベルギー
• Jacobs et al., “News coverage and attitudes on immigration: Public and commercial television news compared”, European Journal of Communication, Vol. 31, No. 6, pp.
642̶60, 2016.
• ヘイトスピーチが投稿されるニュースのトピックは宗教・政治・ヘルスケア @ ⽶国
• Harlow, “Story-Chatterers Stirring up Hate: Racist Discourse in Reader Comments on U.S. Newspaper Websites”, Howard Journal of Communications, Vol. 26, No. 1, pp.
21-42, 2015.
• ちなみにAbemaTVに投稿される差別的なコメントも多くはニュースチャンネル
• cf. ⾼野雅典, ⾼史明, 森下壮⼀郎, ⻄朋⾥, ⼩川祐樹, "現代的/古典的レイシズムの表出におけるニュース番組の影響: インターネットテレビに投稿される差別的コメントの分析",
第33回⼈⼯知能学会全国⼤会, 2D5-OS-1b-05, 2019.
n もちろんヘイトスピーチも放置すると国家や広告主から怒られる
• グーグルからの広告引き上げ騒動、広がり続けるその背景
• Huffington Post Japan 2017/3/31 https://www.huffingtonpost.jp/kazuhiro-taira/google-
advertisement_b_15617502.html
• 「保守速報」への広告停⽌ エプソン販売「社内規定に反する」と即⽇対応
• J-Cast ニュース 2019/8/21 https://www.j-cast.com/2018/06/08330931.html
n 機械学習などによるヘイトスピーチ検出が研究されてきた
• Google はテキストの有害度を評価するPerspective APIを提供
• ⼀⽅で検閲によるバイアスも⽣まれてしまうという指摘も
• 「ヘイトスピーチ検出AI」が逆に⼈種差別を助⻑する可能性がある
• 2019/8/15 https://gigazine.net/news/20190815-google-hate-speech-detection/
• これはACLの論⽂紹介 10
11. ヘイトスピーチ検出におけるバイアスの除去
Stereotypical Bias Removal for Hate Speech Detection Task using Knowledge-based
Generalizations
n 機械学習でヘイトスピーチ分類タスクについてモデルを特定のバイアスが掛かってしまう
• 差別対象を⽰唆する単語(⿊⼈/イスラム教徒っぽい名前、LGBTを指す単語など)
• 特定の⾔葉遣い(dirty, gottaなど)
→ 機械学習モデルに⼊れる前にバイアスの掛かった単語を置き換える
• e.g. Muhammad → [Name]
n やったこと
1. バイアスが掛かった単語を検出
• ⼿動
• ヘイトスピーチデータセットに特徴的な単語(教師データが必要)
• 単語1つだけでヘイトスピーチ分類器に掛けたときにスコアが⾼い単語(モデルがあればできる)
2. バイアスがある単語を置き換える
• 品詞/エンティティ名で置換
• 埋め込みベクトルの近傍K個からランダムに単語を選択して置換
• WordNetの上位レベルのタグに置換(e.g. latino → person)
• 埋め込みベクトルの近傍K個のセントロイドに置換
n 結果
• 全体的な性能はWordNet置換が強い。
• ただし、スラングを多く含むTwitterデータではセントロイド置換が⾼い性能を⽰した。
• バイアスの除去(単語の置換)は分類精度AUCにはほとんど影響がない
11
12. ご紹介した論⽂(紹介順)
n Ceren Budak, "What happened? The Spread of Fake News Publisher Content
During the 2016 U.S. Presidential Election"
• https://dl.acm.org/authorize?N672027
n Hongyu Lu, Min Zhang, Weizhi Ma, Yunqiu Shao, Yiqun Liu, Shaoping Ma,
"Quality Effects on User Preferences and Behaviorsin Mobile News Streaming"
• https://dl.acm.org/authorize?N672215
n Qiang Zhang, Shangsong Liang, Aldo Lipani, Zhaochun Ren, Emine Yilmaz,
"From Stancesʼ Imbalance to Their HierarchicalRepresentation and Detection"
• https://dl.acm.org/authorize?N672404
n Panayiotis Smeros, Carlos Castillo, Karl Aberer, "SciLens: Evaluating the Quality
of Scientific News Articles Using Social Media and Scientific Literature
Indicators"
• https://dl.acm.org/authorize?N672303
n Pinkesh Badjatiya, Manish Gupta, Vasudeva Varma, "Stereotypical Bias
Removal for Hate Speech Detection Task using Knowledge-based
Generalizations"
• https://dl.acm.org/authorize?N672001
12