WWW2019論文読み会: 「Webとニュース」発表資料

Webと
ニュース
2019/9/2 ‒WWW2019論⽂読み会 @ CyberAgent
CyberAgent, Inc. All Rights Reserved
⾼野雅典
株式会社サイバーエージェント秋葉原ラボ
takano_masanori@cyberagent.co.jp
1

2
⾼野雅典（データマイニングエンジニア/@mtknnktm）
●仕事: サイバーエージェントの⾃社メディア・ゲームの
データ分析関連もろもろ + 計算社会科学研究
学⽣時代の専⾨は複雑系・⼈⼯⽣命。博⼠（情報科学）
→ システムエンジニア@前職SIer
→ JavaScriptエンジニア@CyberAgent
→ 現在に⾄る
●研究の興味: 計算社会科学・複雑系科学
- 社会現象の定量的理解
- 社会のダイナミクスに関する理論的理解
- 社会性の進化的理解
●所属秋葉原ラボ: メディアのデータ関連諸々をするR&D組織
https://www.cyberagent.co.jp/techinfo/labo/research_list/

ソーシャルメディア時代のニュース接触の変化
n出回るニュースの品質の⽟⽯混交化
nニュース接触の全体像が複雑化
nニュースに対する⼀般⼈の反応が可視化
3
マスメディア中⼼の時代ソーシャルメディア時代
マスメディアネットメディア
ソーシャルメディア

出回るニュースの品質: フェイクニュース問題
nマスメディアだけでなく誰でもインターネットでニュースを
それらしいサイトを作って出版できるようになった
• フェイクニュースを簡単に作れる/流布できる
• センセーショナルな内容はソーシャルメディアで拡散しやすい
→広告収⼊⽬的や政治的意図によって作られた
「事実に基づかない/歪曲した内容の記事」
が⼤量に出回ることに
n様々な場⾯で⼤きな問題になっている
• 政治イベント（2016年⽶⼤統領選、Brexit）での捏造記事の流⾏
• キュレーションサイトによる低品質記事の乱造
• 反ワクチン・代替医療（癌とか）などの医療/科学デマ
政治イベントでフェイクニュースは何を起こすのか？
⼈は低品質記事に対してどう反応するのか？ 4
https://www.amazon.co.jp/dp/B07P6NRBCR

2016年の⽶⼤統領選では何が起きていたのか？
What happened? The Spread of Fake News Publisher Content During the 2016 U.S. Presidential Election
n やったこと
1. フェイクコーパスの作成
• Twitterでシェアされたニュースを収集し、収集したニュースを通常/フェイクに分類
• 通常/フェイクの分類はPublisherが伝統的メディアか否かで分類
• クリントン/トランプごとに単語のフェイク度を指標化
2. 電話インタビューでクリントンとトランプについて⾒聞きしたニュースについて質問。オープ
ンに深堀りしていく。
3. インタビューイが発した単語のフェイク度と⽀持政党を分析。
n 結果
5
トランプ候補に⾔及したときは共和
党/⺠主党⽀持者どちらも単語の
フェイク度の平均は0
クリントン候補に⾔及したときは共和党
⽀持者の単語のフェイク度が特に⾼い
共和党⽀持者
⺠主党⽀持者
全体
その他
n フェイク度が⾼い属性
• 若い/男性/共和党⽀持者・無党派層
n Twitterデータを使って
• フェイクニュースの多いカテゴリ
• シェア数とPublisherや政治的イベ
ントとの関連
も分析している
n 電話インタビューという超伝統的
な⼿法のオープンさとビッグデー
タ解析をうまく組み合わせていて
⾯⽩い

フェイクニュースは⼈にどのような影響を与えるのか？
Quality Effects on User Preferences and Behaviorsin Mobile News Streaming
n ニュースの品質がユーザの選好や⾏動に与える影響を調査
• サービスのグロース（）のためのセンセーショナルで低品質ニュースを乱造することは合理的な
のか？
n やったこと
1. 実験⽤ニュースフィードアプリを作成
2. 被験者に記事を読む直前/直後（と全⼯程完了後）の
記事に対する選好、質、タイトルと中⾝の⼀貫性を
評価してもらう
3. 被験者の⾏動（CTRや滞在時間）と彼らの評価を
⽐較する
n 結果
• ⾏動と評価
• CTRは質の低い記事のほうが⾼い（タイトルが誇張気味なので）
• ただし、質が低いと読了後 & 完了後の読者の評価は読む前よりも下がる
• 読んでる間の⾏動も質によって異なる
• 質が⾼いほうが、読んでる時間（滞在時間）・読了率などが⾼い
• 読者の滞在時間 1変数のみでニュース記事の品質の予測モデルを作ることができる（AUC 0.8）
6

フェイクニュース対策
n フェイクニュースの⼤流⾏から各メディアは国家や広告主から対策を迫られ
ている
• FacebookとTwitter、⽶上院公聴会で証⾔--データの扱いや選挙⼲渉について質問が噴出
• CNET Japan 2018/9/6 https://japan.cnet.com/article/35125153/
• フェイスブックやグーグルなど、偽ニュース対策に合意＝欧州委
• 2018/9/26 Reuters https://jp.reuters.com/article/eu-tech-fakenews-idJPKCN1M61ZG
• ⽶でもはしか⼤流⾏、YouTubeは予防接種反対ビデオの広告収⼊をゼロに
• TechCrunch Japan 2019/2/3 https://jp.techcrunch.com/2019/02/23/2019-02-22-youtube-
demonetizes-anti-vaccination-videos/
• Facebookが反ワクチン・デマ対策強化、広告禁⽌、表⽰ランクを引き下げへ
• TechCrunch Japan 2019/3/8 https://jp.techcrunch.com/2019/03/08/2019-03-07-facebook-
anti-vax-vaccine-instagram/amp/
• Amazonが疑似科学のデマ医療本の販売を中⽌。漂⽩剤を摂取すると⾃閉症が治るなどあ
りえない治療法を掲載
• 2019/3/15 Finders https://finders.me/articles.php?id=807
フェイクニュースをどう判別するか？
ニュースの品質をどう評価するか？
7

フェイクニュース判定のためのスタンス分析
From Stancesʼ Imbalance to Their HierarchicalRepresentation and Detection
n フェイクニュースはヘッドライン（主張）と内容に乖離しがち
• ヘッドラインは過剰にセンセーショナルだが内容はぐだぐだ。のような
• ヘッドラインと内容の乖離はコストを掛けないと埋まらない（ちゃんと記事を書かないといけない）ので
フェイクニュース判別の強⼒な特徴
n やったこと
• ヘッドライン（主張）に対して内容は「同意/反対/議論/無関係」のどのスタンスであるか？を推定
• 主張と内容の乖離は
• タスク⾃体は以前からあるもの
• データセット（教師ラベル付き）は以下にある
• http://www.fakenewschallenge.org/
n モデル
• 問題の特性をモデルに取り⼊れる
• 2段階のアプローチをする
• 関係/無関係の確率を先に計算したあとに
同意/反対/議論の確率を計算する
• 2段階のレイヤーをうまく学習させる
n 結果
• うまくいった！
8

科学・医療・健康ニュースの⾃動品質評価
SciLens: Evaluating the Quality of Scientific News Articles Using Social Media and
Scientific Literature Indicators
n 科学ニュースの問題点
• 政治系フェイクニュース研究の正誤は伝統的メディア（テレビ/新聞）を正解とすることが多い
• 科学・医療・健康ニュースに関しては伝統的メディアもあてにならない 😇
→ 科学ニュースの品質指標を⾃動で作成する⼿法を提案する
※ すごいヒューリスティックにがんばっていて泥臭い（けど有⽤）
n 指標の基本的な考え⽅（いずれも直感的に理解しやすいもの）
• 「まともな引⽤」をしているか？
• ニュース記事と論⽂の意味的な類似性
• SNSでの⼈気度、反応のスタンス（⽀持/コメント/⽭盾/質問）
n 指標の評価
• 信頼性のわかっているサイトの「信頼性の⾼さ/低さ」と指標の相関を⾒る
• 専⾨家の評価と指標の相関を⾒る
→ ともにいくつかの指標で有意な相関
n 指標の効果
• 指標を⾮専⾨家に提⽰する/しないテスト → 指標によって専⾨家の評価に近づく
• 指標を使って機械学習モデルを構築 → そこそこの精度で分類できた 9

ニュースとヘイトスピーチ
n ヘイトスピーチで溢れるインターネット
• 政治的主張と絡み合っているのでニュースとの関連が強い
• センセーショナルで俗っぽいニュースは視聴者の移⺠に対する偏⾒を強める @ ベルギー
• Jacobs et al., “News coverage and attitudes on immigration: Public and commercial television news compared”, European Journal of Communication, Vol. 31, No. 6, pp.
642̶60, 2016.
• ヘイトスピーチが投稿されるニュースのトピックは宗教・政治・ヘルスケア @ ⽶国
• Harlow, “Story-Chatterers Stirring up Hate: Racist Discourse in Reader Comments on U.S. Newspaper Websites”, Howard Journal of Communications, Vol. 26, No. 1, pp.
21-42, 2015.
• ちなみにAbemaTVに投稿される差別的なコメントも多くはニュースチャンネル
• cf. ⾼野雅典, ⾼史明, 森下壮⼀郎, ⻄朋⾥, ⼩川祐樹, "現代的/古典的レイシズムの表出におけるニュース番組の影響: インターネットテレビに投稿される差別的コメントの分析",
第33回⼈⼯知能学会全国⼤会, 2D5-OS-1b-05, 2019.
n もちろんヘイトスピーチも放置すると国家や広告主から怒られる
• グーグルからの広告引き上げ騒動、広がり続けるその背景
• Huffington Post Japan 2017/3/31 https://www.huffingtonpost.jp/kazuhiro-taira/google-
advertisement_b_15617502.html
• 「保守速報」への広告停⽌エプソン販売「社内規定に反する」と即⽇対応
• J-Cast ニュース 2019/8/21 https://www.j-cast.com/2018/06/08330931.html
n 機械学習などによるヘイトスピーチ検出が研究されてきた
• Google はテキストの有害度を評価するPerspective APIを提供
• ⼀⽅で検閲によるバイアスも⽣まれてしまうという指摘も
• 「ヘイトスピーチ検出AI」が逆に⼈種差別を助⻑する可能性がある
• 2019/8/15 https://gigazine.net/news/20190815-google-hate-speech-detection/
• これはACLの論⽂紹介 10

ヘイトスピーチ検出におけるバイアスの除去
Stereotypical Bias Removal for Hate Speech Detection Task using Knowledge-based
Generalizations
n 機械学習でヘイトスピーチ分類タスクについてモデルを特定のバイアスが掛かってしまう
• 差別対象を⽰唆する単語（⿊⼈/イスラム教徒っぽい名前、LGBTを指す単語など）
• 特定の⾔葉遣い（dirty, gottaなど）
→ 機械学習モデルに⼊れる前にバイアスの掛かった単語を置き換える
• e.g. Muhammad → [Name]
n やったこと
1. バイアスが掛かった単語を検出
• ⼿動
• ヘイトスピーチデータセットに特徴的な単語（教師データが必要）
• 単語1つだけでヘイトスピーチ分類器に掛けたときにスコアが⾼い単語（モデルがあればできる）
2. バイアスがある単語を置き換える
• 品詞/エンティティ名で置換
• 埋め込みベクトルの近傍K個からランダムに単語を選択して置換
• WordNetの上位レベルのタグに置換（e.g. latino → person）
• 埋め込みベクトルの近傍K個のセントロイドに置換
n 結果
• 全体的な性能はWordNet置換が強い。
• ただし、スラングを多く含むTwitterデータではセントロイド置換が⾼い性能を⽰した。
• バイアスの除去（単語の置換）は分類精度AUCにはほとんど影響がない
11

ご紹介した論⽂（紹介順）
n Ceren Budak, "What happened? The Spread of Fake News Publisher Content
During the 2016 U.S. Presidential Election"
• https://dl.acm.org/authorize?N672027
n Hongyu Lu, Min Zhang, Weizhi Ma, Yunqiu Shao, Yiqun Liu, Shaoping Ma,
"Quality Effects on User Preferences and Behaviorsin Mobile News Streaming"
n Qiang Zhang, Shangsong Liang, Aldo Lipani, Zhaochun Ren, Emine Yilmaz,
"From Stancesʼ Imbalance to Their HierarchicalRepresentation and Detection"
n Panayiotis Smeros, Carlos Castillo, Karl Aberer, "SciLens: Evaluating the Quality
of Scientific News Articles Using Social Media and Scientific Literature
Indicators"
n Pinkesh Badjatiya, Manish Gupta, Vasudeva Varma, "Stereotypical Bias
Removal for Hate Speech Detection Task using Knowledge-based
Generalizations"
12

WWW2019論文読み会: 「Webとニュース」発表資料

Recommended

Recommended

More Related Content

More from Masanori Takano

More from Masanori Takano (20)

WWW2019論文読み会: 「Webとニュース」発表資料