SlideShare a Scribd company logo
1 of 95
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
1 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
主張と根拠のクラスタを用いた
多様な主張を提示する
ニュース推薦手法の提案
AL18036 片岡凪
指導教員 木村昌臣
データ工学研究室
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
2 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
1. 研究背景
2. 関連研究
3. 研究目的
4. 提案手法
5. 実験
6. まとめと今後の課題
目次
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
3 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
1. 研究背景
 記者が出来事を解釈し,主張したい要素を切り取るため
► 出来事の切り取り方は地域の文化・政治によって異なる
 Web上の全ての主張の文を読むことが困難なため
► 特に国外の記事は翻訳のコストが大きい
ニュース読者が記事の出来事の一部しか把握できない
図1 地域ごとに異なる出来事の解釈・切り取り方
図2 時間がかかる出来事の把握
出来事 青 ≔ 記者の解釈に依存しない事象
主張 (赤) ≔ 記者が伝えるべきだと判断した「出来事の解釈」
定義
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
4 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
2. 関連研究
 Yangらの手法 [1]
► 記事に対するSNSの主張に対して
意味の類似度をもとに階層的クラスタリングを行い
意味の階層ごとにグループ化された主張を提示
○ 異なる出来事に対する類似した主張がグループ化されてしまう
e.g. ワクチンと飲み薬に対する安全性の主張がグループ化
 類似した出来事に限定した異なる主張の提示が必要
図3 意味の階層ごとにグループ化された主張
記事に対する主張を意味の階層ごとにグループ化
[1] Yang, Didier Vega-Oliveros, Tais Seibt, and Anderson Rocha. Scalable Fact-checking with Human-in-the-Loop.
In 2021 IEEE International Work-shop on Information Forensics and Security (WIFS), pp. 1-6, Montpellier, France, December 2021. IEEE.
…
…
主張の意味の類似度
別物
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
5 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
3. 研究目的
 読者が出来事の全容を把握できるように
1. 出来事ごとに記事をグループ化
2. 出来事のグループごとに主張の文をグループ化
3. 読者が関心をもつ記事と同じ出来事を扱う
複数の主張の文のグループを提示
4. それぞれの主張の文に紐づく記事を推薦
類似した出来事の異なる主張を把握できるニュース推薦手法の提案
図4 研究目的
…
…
…
3.
4.
同様
1.
主張の意味の類似度
2.
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
6 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
使用した既存手法
 RoBERTa
► 記事などの160GBの英語表現を50万回学習した機械学習モデル
► モデルの改変と追加の学習を行うことで文の分類に応用できる
 Sentence-BERT
► 文章の埋め込みベクトルを生成する機械学習モデル
► 文脈を加味した「文章の意味の比較」ができる
 k-NN分類法
► クラスタリング済みの記事が存在するときに
新規の記事が属するクラスタを推定
図5 Sentence-BERTによる文章の意味の比較 [3]
[2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike
Lewis, Luke Zettlemoyer, and Veselin Stoyanov. RoBERTa: A Robustly Optimized BERT
Pretraining Approach. arXiv:1907.11692 [cs], July 2019. arXiv: 1907.11692.
[3] Nils Reimers and Iryna Gurevych. Sentence-BERT: Sentence Embeddings using Siamese
BERT-Networks https://arxiv.org/abs/1908.10084v1 (2021年7月19日参照).
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
7 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
4. 提案手法 – 分類 1 / 2
1. RoBERTaに2層のニューラルネットワークとシグモイド関数を接続
► RoBERTaの出力を「入力文が主張の文である確率」に変換
2. 主張の文と出来事の文のデータセットで転移学習
► RoBERTaが事前に学習した豊富な英語表現を
文の分類に活用するための追加の学習
RoBERTaを応用して記事の文を出来事の文と主張の文に分類
図6 RoBERTaを分類器にする学習
RoBERTa 分類器
NN × 2
主張 or 出来事
this is safe
sigmoid
主張の文
出来事の文
事前学習 転移学習 分類
1.
2.
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
8 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
4. 提案手法 – 分類 2 / 2
 IBM Debater – Claims and Evidence
► Wikipediaの英文をラベル付けしたデータセット
► 2169個のClaimの文
○ トピックを補足する一般的で簡潔な文
e.g. 炭素排出量のトピックについて
e.g. 記者が伝えるべきだと解釈した森林伐採の説明
► 4209個のEvidenceの文
○ トピックの文脈の中でClaimを補足する文
e.g. 具体的な数字や森林の所在地名を用いた
e.g. 記者の解釈に依存しない事象(5割の伐採)の説明
転移学習にはClaimの文とEvidenceの文のデータセットを使用
表1 前処理したIBM Debaterのデータの例
ラベル 文
Claim
global carbon emissions are
caused by deforestation.
Evidence
from 1990 to 2010 nigeria nearly
halved their amount of forest cover
moving from 17234 to 9041 hectares.
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
9 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
4. 提案手法 – 階層的クラスタリング
1. Sentence-BERTで
「出来事と分類した文を記事ごとに結合した文章」と
「主張と分類した文」の埋め込みベクトルを生成
2. 出来事と主張の2回に分けて階層的クラスタリング
► 出来事と主張の意味が階層構造をもつと考えられるため
► コサイン値で埋め込みベクトル間の距離を比較
► Ward法でクラスタ間の距離を比較
 類似した出来事の異なる主張を主張の文のクラスタで提示
Sentence-BERTを用いて記事の出来事と主張の文をクラスタリング
図7 提案手法の階層的クラスタリング
𝒖1 𝒗𝟏 𝒗𝟐
𝒖2𝒗𝟑
𝒖3 𝒗𝟒
1.
2.
2.
𝒖1
𝒖2
𝒖3
𝒗𝟏 𝒗𝟑
𝒗𝟐
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
10 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
4. 提案手法 – 記事の推薦
1. 読者が関心をもつ記事 𝐴 の文を出来事か主張かで分類
2. 出来事の文章の埋め込みベクトル 𝒂 を生成
3. クラスタリング済みの記事の群から
ベクトル 𝒂 と距離が近い 𝒌 個の埋め込みベクトルを取得
4. 取得数が最も多かったクラスタの記事を読者に推薦
※ 研究範囲を多様な主張の提示に限定し,クラスタリングまでの実験を行った
k-NN分類法を用いて
読者が関心をもつ出来事を扱う記事のクラスタを推定
図8 記事のクラスタの同定と推薦
1, 2.
4.
𝐴
3.
𝒖1
𝒖2
𝒖3
𝒂
( 𝑘 = 3 )
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
11 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
5. 実験 – 階層的クラスタリングの評価方法
 COVID-19 News Articlesの5000件の記事を入力
 クラスタを分けるクラスタ間距離を0.85に設定
 文字数が多い1つの記事のクラスタを抽出
► 主張の文のうち類似した出来事を扱う文の割合を確認
► 同一の主張のクラスタに類似した主張が属すか確認
► 異なる主張のクラスタに類似しない主張が属すか確認
類似した出来事の異なる主張が提示できるクラスタか確認
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
12 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
5. 実験 – 階層的クラスタリングの評価結果
 主張の文の13件中10件が感染対策を対象(約77%)
► 類似した出来事の主張の文のクラスタが得られた
 飲食時や運動時の感染対策の主張がそれぞれグループ化した
► 同一の主張のクラスタに類似した主張が属す
 異なるクラスタに類似した場面の感染対策の主張は無かった
► 異なる主張のクラスタに類似しない主張が属す
類似した出来事の異なる主張のクラスタが得られた
表2 同じクラスタIDと異なるクラスタIDでの主張の文の比較
ID 主張の文(抜粋)
𝑐1 try not to eat in restaurants as much as possible.
𝑐1
franchise cafes and dessert shops were
obligated to offer only takeout around the clock.
𝑐2
outdoor exercise will be banned and wearing
masks will be mandatory.
𝑐2
sports event are also obligated to keep the
ceiling of 30 percent at stadiums.
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
13 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
5. 実験 – 階層的クラスタリングの考察
 主張の文の13件中3件は感染対策に対する主張ではなく
「感染が蔓延」「仕事が大変」という主張
► 同一のクラスタに類似した主張としてまとまっている
○ 2種類の主張を読者に提示しないこともできる
 読者の目的に合った主張の提示ができるように
クラスタの分け方の工夫やクラスタの選別が必要
 クラスタ間距離の設定の工夫や
クラスタリング後の品詞ごとの類似度の比較が必要
クラスタの分け方の工夫やクラスタの選別が必要
表3 感染対策以外の出来事に対する主張の文が属するクラスタ
ID 主張の概略 主張の文
𝑐3
感染が蔓延
(旅行)
travelrelated cases continue to out
number local cases.
𝑐3
感染が蔓延
(病院)
the citys hospitals are facing an
overcrowding crisis.
𝑐3
要感染対策
(病院等)
health authorities remain vigilant
(中略)and riskprone facilities.
𝑐4 仕事が大変 it was a laborious job.
𝑐4
感染対策
が大変
uncertainly remained over how best
to stem the spread of the illness.
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
14 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
6. まとめと今後の課題
 背景
► ニュース読者が記事の出来事の一部しか把握できない
 目的
► 類似した出来事の異なる主張を把握できるニュース推薦手法の提案
 結果
► 記事のクラスタ内の主張の文の約77%が類似した出来事となった
► 異なる主張のクラスタで異なる主張が提示できた
 今後の課題
► 読者の目的に合った主張のクラスタの提示
○ クラスタ間距離の設定の工夫が必要
○ クラスタリング後の品詞ごとの類似度の比較が必要
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
15 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
参考文献
[1] Yang, Didier Vega-Oliveros, Tais Seibt, and Anderson Rocha. Scalable Fact-checking with Human-in-
the-Loop.In 2021 IEEE International Work-shop on Information Forensics and Security (WIFS), pp. 1-
6, Montpellier, France, December 2021. IEEE.
[2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis,
Luke Zettlemoyer, and Veselin Stoyanov. RoBERTa: A Robustly Optimized BERT Pretraining Approach.
arXiv:1907.11692 [cs], July 2019. arXiv: 1907.11692.
[3] Nils Reimers and Iryna Gurevych. Sentence-BERT: Sentence Embeddings using Siamese BERT-
Networks https://arxiv.org/abs/1908.10084v1 (2021年7月19日参照).
[4] Ruty Rinott, Lena Dankin, Carlos Alzate Perez, Mitesh M. Khapra, Ehud Aharoni, and Noam Slonim.
Show Me Your Evidence - an Automatic Method for Context Dependent Evidence Detection. In
Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pp. 440-
450, Lisbon, Portugal, 2015. Association for Computational Linguistics.
[5] Piyush Ghasiya and Koji Okamura. Investigating COVID-19 News Across Four Nations: A Topic
Modeling and Sentiment Analysis Approach. IEEE Access, Vol. 9, pp. 36645-36656, 2021. Conference
Name: IEEE Access.
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
16 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
ご清聴ありがとうございました
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
17 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
18 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
19 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
20 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
以降、予備スライド
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
21 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
関連研究
 Nagulendraらの手法 [1]
► あるSNSユーザが関心をもつ出来事について
SNSのアルゴリズムに推薦されていない主張を提示
○ 普段「いいね」しない内容の主張を提示
 どの主張がどれほど異なるかを提示しないため
出来事の全容の把握が難しい
図3 SNSに推薦されていない主張を
円の外側に表示するシステム [1]
[1] Sayooran Nagulendra and Julita Vassileva. Understanding and controlling the filter bubble through interactive visualization: a user study.
In Proceedings of the 25th ACM conference on Hypertext and social media, HT '14, pp. 107-115, New York, NY, USA, September 2014. Association for Computing Machinery.
SNSに推薦されていない主張を提示
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
22 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
提案手法 – 概要
i. 記事の文章を出来事の文と主張の文に分類
ii. 出来事の文章の類似度をもとに記事に階層的クラスタリング
iii. 主張の文の類似度をもとに主張の文に階層的クラスタリング
iv. 読者が関心をもつ記事と同じ出来事を扱う記事のクラスタを推定
読者が関心をもつ出来事の主張の文のクラスタと記事を推薦
※ 研究範囲を多様な主張の提示に限定し、(ⅰ) ~ (ⅲ) の実験を行う
前提
記事の文章が出来事を述べる文か主張を述べる文かで二分できる
図7 提案手法の概要
(ⅰ)
(ⅱ)
(ⅲ)
(ⅳ)
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
23 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
実験 – 分類器の評価方法
 IBM Debater を高い適合率(0.86)と
再現率(0.92)で分類した分類器を評価
► 適合率:主張と分類した文のうち
実際に主張の文であった割合
► 再現率:全ての主張の文のうち
正しく分類できた主張の文の割合
 COVID-19 News Articlesの記事を分類
► インド,韓国,日本の約8万件の英記事
► 163文を手動でラベル付けし
記事での適合率と再現率を算出
表2 COVIDS-19 News Articles のラベル付けの基準(抜粋)
IBM Debaterを学習した分類器の記事での分類性能を確認
ラベル 基準 参考にした IBM - Debaterの文(抜粋)
出来事
記者の解釈に
依存しない事象
michael martin was the first
eu foreign minister to enter gaza
in over a year.
指示語を含み
別の文を補助
in his book maybe one bill mckibben
argues in favor of a one child policy
based on this research.
主張 事象に対する
解釈
this is the most technologically
advanced and safest pipeline ever
proposed.
主語や述語の
一般性が高い
gamblers persist in gambling even
after repeated losses.
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
24 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
実験 – 分類器の評価結果と考察
 適合率 = 1
► 2019年の最先端のモデルであるRoBERTaの転移学習が有効
 再現率 = 0.4 であり,小さい
► どのような出来事の文を主張の文と誤分類するか分析
○ IBM Debater では出来事の文に指示語が多く含まれる
○ 誤分類した文では”there is”のような
指示語でない”there”の構文
 構文を加味した分類器が必要
 分類用データセットに適した学習用データセットが必要
表3 主張の文 (C) と出来事の文 (E) の分類例
構文解析やデータセットの再検討が必要
分類 COVIDS-19 News Articlesの文
C(正)
the goal was to bolster international
competitiveness.
E(正)
the government is reportedly aiming to
announce guidance early next month.
E(誤)
for now there is little that families and
educators can do but wait to see what
the abe administration has in mind.
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
25 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
クラスタ間距離を変えて確認
 クラスタ間距離が平坦になった2.0で確認
► 5000件の記事を入力
► 記事のクラスタリング◎
○ クラスタ数97
− 記事を1/5000にしている
○ 1クラスタあたりの平均記事数は51.55件
► 主張のクラスタリング△
○ クラスタ数2
− 異なる主張が1つしか推薦できない
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
26 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
他のクラスタでの評価
 957件の記事で確認
► Yangらの実験との比較のために記事数を合わせた
► 記事のクラスタの記事数が1~2であった
○ 異なる記事の主張が提示できない
 5000件の記事を入力し、別の記事のクラスタで確認
► 別スライド
 シルエット係数を確認
► 別スライド
► 全クラスタについてデータの凝集度と乖離度を確認
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
27 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
別の主張のクラスタ 1 / 4
 同じ記事のクラスタ内の別の主張のクラスタ
► クラスタ数6
► 1クラスタあたりの主張
► インドの記事しかなかった
○ 文化などによって主張が類似する可能性
○ 日本の記事が多いクラスタも
► 閉鎖、政府の要請、検査、感染、菌に対する主張で分かれた
► の文の平均は2.66文
► 次ページにデータを記載
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
28 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
別の主張のクラスタ 2 / 4
 cluster id 0
► IN;2398;7;complete lockdown will be maintained in these hotspots.
○ これらのホットスポットでは、完全なロックダウンが維持されます。
► IN;5852;66;the threeweek lockdown has resulted in the shutdown of industries services and other sectors.
○ 3 週間にわたる封鎖により、産業界やその他の部門が閉鎖されました。
 cluster id 1
► IN;3013;20;stopping flights again is a call that only the central government can take.
○ また飛行を止めるというのは、中央政府だけができる呼びかけです。
► IN;2634;36;the government may ask local administrations to shut down large markets and restrict the selling of vegetables at standalone shops.
○ 政府は、地方行政に対して、大規模な市場の閉鎖や、独立した店舗での野菜の販売を制限するよう要請する可能性があります。
► IN;1093;15;most of the states have limited borrowing capacity.
○ ほとんどの州で借入能力に限界があります。
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
29 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
別の主張のクラスタ 3 / 4
 cluster id 2
► IN;3013;35;a freely accessible testing policy through both private and publicsector clinics which is available on
demand and with assured privacy of results should be the first national priority to identify and quarantine
asymptomatic patients.
○ 無症状患者を特定し隔離するためには、民間および公的機関のクリニックで自由に検査ができ、必要に応じて検査結果のプラ
イバシーが保証されていることが、国家的な最優先事項であるべきです。
► IN;2634;27;we keep people in quarantine facilities but dont test them.
○ 検疫施設に人を閉じ込めても、検査はしない。
► IN;4736;17;testing has process and guidelines.
○ テストにはプロセスやガイドラインがあります。
► IN;4736;18;unnecessary testing for the sake of confidence building especially when kits are limited is not the right
strategy.
○ 特にキットに限りがある場合、信頼性を高めるために不必要なテストをするのは正しい戦略ではありません。
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
30 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
適合率と再現率の重要性
 適合率
► 主張と分類した文のうち、実際に主張の文であった割合
► 大きいほど、主張の文のみでクラスタリングを行える
○ 主張の文のみを読者に提示することができる
 再現率
► 全ての主張の文のうち、正しく分類できた主張の文の割合
► 大きいほど、主張の文の見逃しがない
○ 多くの異なる主張、多様な主張を提示することができる
► 小さいほど、ある特徴をもつ主張を分類器が分類できていない可能性あり
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
31 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
主張の文ではなく、出来事の文を提示するべきか
 主張の文は、素人(読者)が出来事を理解できるように
記者がわかりやすく噛み砕いた文ともいえる
► データを示すだけの出来事の文などは読者にとって理解が難しい
 素人(読者)が「記者によって主張が異なる」ことを自覚して読んでいるとは限らない
► 読者の補助のために主張のクラスタを提示
 出来事のクラスタを閲覧したい目的をもつ読者であれば
記事の出来事のクラスタを提示すべき
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
32 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
データセットの選定基準
 共通
► 前処理しにくい記号文字が少ない
 主張の文と出来事の文のデータセット
► 主張の文と出来事の文の定義に準じる
 記事のデータセット
► 3ヶ国以上の多様な政治・文化の主張を含む
► 英語の記事である
► 短期間内で収集されており、時事の記事を推薦する多くのサービスと同じ条件で分析できる
○ 長期間の記事をもとに提示する研究も有効
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
33 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
応用先
 多様な主張を閲覧したい読者に合わせた専用サービスとして提供する
 一般的な記事サイトに副次的なコラムとして掲載する
 一般的な記事サイトの推薦アルゴリズムに組み込み
主張が偏りにくい記事の推薦を行う
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
34 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
K-NN分類法(k近傍法)に関連する手法
 K-means法
► 無作為に指定したk個のデータの付近の重心からクラスを推定する手法
 X-means法
► K-meansを繰り返し実行し、最適なkの値を推定する手法
► 実行回数を初期値として与える必要あり
 考慮しない不要なデータを前もって削除する手法
► 誤り削除型kNN法(Edited kNN)
► 圧縮型kNN(Condensed kNN)
 主要な研究範囲に含めないため、最もシンプルなk-NN分類法を紹介した
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
35 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
他に必要な実験
 主張のみでクラスタリングを行い
出来事と主張の2回でクラスタリングした結果と比較
 多様な主張であるかを評価するベンチマークで比較
► ただし、一度類似した出来事のみでグループ化しているため
主張のクラスタのスコアは低めに評価される可能性あり
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
36 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 40 – 省略のピリオドを考慮した文章の分割
 記事の文を分類するために文章を文ごとに分割した
► しかし、英語の句点に用いられるピリオドは
表4.3 のように句点以外にも様々な用法が存在
○ 人間が決めたアルゴリズムによる分割が難しい
○ テキスト解析のための機械学習ライブラリStanzaを使用
 Stanza
► 英語の句点の同定におけるベンチマークスコアが
UDPipeやspaCyより優れている
 文の分割性能は分類やクラスタリングの性能に直結
► 稀に2語程度の誤った分割も観測された
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
37 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 8 - 転移学習の損失関数
 𝐿(θ)
► バイナリクロスエントロピー
► 2クラスの分類によく用いられる損失関数
 𝑦𝑖
► 入力する特徴 𝒙 の個々の要素のラベル
 𝒚
► 特徴 𝒙 に対するモデルの予測
 𝜎(𝑡)
► 入力 𝑡 を区間 0, 1 で出力するシグモイド関数
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
38 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 9 – シグモイド関数
 入力 𝑡 を区間 0, 1 で出力
 区間 0, 1 で出力しないモデルの出力を
区間 0, 1 の確率の範囲に変換できる
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
39 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 11 – Attention
 BERTやRoBERTaに含まれる機構
 出力データと関りが強い入力データを
重視した学習が可能になる
► 無駄なデータの学習が減る
► 過去に学習した内容を忘却しにくくなる
► 30語以上の長い文の
自然言語処理の性能が大幅に向上
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
40 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 13 – Transformer 1 / 2
 並列演算が可能な自然言語処理のための機械学習モデル
► 少ない計算時間で2017年の最先端のモデルより
性能の高い自然言語処理を行うことができる
► 図の左のエンコーダ部分のみを用いることで
文章の意味を定量的なベクトルに変換できる
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
41 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 14 – Transformer 2 / 2
 Multi-Head Attention
► Transformerで用いられた
特殊な Attention
 同じ文章を3つの見方で学習
► 文章の処理する部分の変更
► 注目の仕方の変更
► 基底の変更
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
42 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 15 – BERT (詳細は別スライド)
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
43 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 17 – RoBERTaを転移学習した二項分類器
 RoBERTaのモデルアーキテクチャはBERTと同じ
 分類用の文字列 [CLS] を入力
 文字列 [CLS] に対応する位置の出力Cを利用
 モデルの改変によりラベルの確率を出力
► ニューラルネットワークの接続
► シグモイド関数の接続
► バイナリクロスエントロピーの接続
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
44 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 19 – RoBERTaの各タスクの性能
 本研究の分類で重要な性能はSTS(Semantic Textual Similarity Benchmark)
► ニュースの2 つの見出し文の類似度を5 段階で評価
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
45 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 23 – マシューズ相関係数
 分類器の性能を総合的に評価
 データのラベルの数が不均衡なときにも
頑健に評価できる
► 本研究では記事の163文のうち
8文が主張の文と分類した(不均衡)
► 記事の分類では0.61と小さかった
予測はEvidence 予測はClaim
実際はEvidence
TN
正しくEvidence分類
FP
誤ってClaim分類
実際はClaim
FN
誤ってEvidence分類
TP
正しくClaim分類
表2 混同行列の一覧表
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
46 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 25 – Sentence-BERTの性能
 本研究のクラスタリングではどの指標も重要
► 特に、意見の極性を分類するMPQAが重要)
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
47 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 26 – Ward法(最小分散法)
 外れ値の影響を受けにくいクラスタ間距離 𝑑𝑘𝑐 の算出方法
► 併合後のクラスタ𝐶𝑘 ∪ 𝐶𝑐 の分散と
併合前のクラスタ𝐶𝑘 , 𝐶𝑐 のそれぞれの分散の和との
差 𝑑𝑘𝑐 をクラスタ間距離とする
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
48 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 27 – 階層的クラスタリング
 クラスタ間距離が最も近い2つのクラスタを順次1つのクラスタに結合していく手法
► クラスタの結合を止めるクラスタ間距離によって様々な粒度のクラスタが得られる
► 階層構造を持つデータの傾向の分析ができる
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
49 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 28 – シルエット係数
 クラスタリングの評価指標のひとつ
 シルエット係数の平均 𝑆𝑖𝑙 𝑖 が1に近いほど
► 同一クラスタ内のデータがより類似する傾向
► 異なるクラスタ間のデータがより類似しない傾向
 本研究
► 記事の出来事のクラスタリングでは 𝑆𝑖𝑙 𝑖 ~ 0.17
► 記事の出来事のクラスタリングでは 𝑆𝑖𝑙 𝑖 ~ 0.16
► どちらも小さく、埋め込みベクトルの次元の高さ(384)に起因すると考えた
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
50 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 30 - UNBERT
 ZhangらのUNBERT [2]
► 読者の関心度が高い記事を推薦する機械学習モデル
► 豊富な英語表現を学習したBERTを記事のタスクに応用
○ モデルが学習していない新規の記事に対する予測を
2020年までの多くの機械学習モデルより性能よく行った
○ 新規の記事の主張を提示するためにBERTが適している
豊富に学習された英語表現を用いて新規の記事のクリック率を予測
[2] Qi Zhang, Jingjie Li, Qinglin Jia, Chuyuan Wang, Jieming Zhu, Zhaowei Wang, and Xiuqiang He. UNBERT: User-News Matching BERT for News Recommendation.
In Proceedings of the Thirtieth International Joint Conference on Articial Intelligence, pp. 3356-3362, Montreal, Canada, August 2021.
International Joint Conferences on Articial Intelligence Organization.
BERT
図4 英語表現を学習したBERTを記事推薦に応用
BERT UNBERT
softmax
NEW
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
51 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 38 – COVID-19 News Articles
 イギリス、インド、日本、韓国の主要な新聞8紙の英版ウェブサイトの記事
► 文字列COVID-19またはCoronavirusを含む記事を抽出
► 政治や文化の違いに由来する多くの異なる主張が分析できると期待
► 11カ月間という短い期間で収集されたため、より類似した出来事に関する記事が得られる
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
52 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 40 – 省略のピリオドを考慮した文章の分割
 記事の文を分類するために文章を文ごとに分割した
► しかし、英語の句点に用いられるピリオドは
表4.3 のように句点以外にも様々な用法が存在
○ 人間が決めたアルゴリズムによる分割が難しい
○ テキスト解析のための機械学習ライブラリStanzaを使用
 Stanza
► 英語の句点の同定におけるベンチマークスコアが
UDPipeやspaCyより優れている
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
53 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 44 – 実行環境
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
54 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 45 - テキストの前処理
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
55 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 50 - IBM Debater を用いた分類器の評価
 1回の学習で最もよい適合率0.90とマシューズ相関係数0.84
 損失関数(BCE)が単調増加しているため、過学習の可能性あり
 学習回数1~4のモデルで次の「記事の分類評価」を行った
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
56 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 53 – 記事を用いた分類器の評価 1 / 2
 手動で「出来事の文か主張の文か」の
ラベル付けを行い、分類評価を行った
► COVID-19 News Articlesの163文を抽出
► 基準は表6.2の通り
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
57 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 54 - 記事を用いた分類器の評価 2 / 2
 There を含む出来事の文などを誤分類
 適合率1,再現率0.40,
マシューズ相関係数0.61となった
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
58 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 58 – 記事のクラスタリングの実験 1 / 4
 シルエット係数が0.2付近と小さい
► 正であるため凝集と乖離の傾向
► クラスタ数を増やすと
1クラスタあたりの記事数が少なくなり
推薦に適さない
○ 入力記事数が多い場合は適する可能性あり
► 埋め込みベクトルが考慮する
特徴(単語)の多さが原因か
○ 少しでもクラスタの特徴から離れる
単語が存在すると凝集しなくなってしまう
► 係数が0.2となるクラスタ数で分割を検討
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
59 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 59 – 記事のクラスタリングの実験 2 / 4
 クラスタ数の減少が緩やかになるような
クラスタ間距離0.85で分割した
► 変曲点を選択するとクラスタ数が多くなり
1クラスタあたりの記事数が少なくなる
► グラフが直線的でなくなる
クラスタ間距離0.85で分割した
○ クラスタ数は666
○ 1クラスタあたりの平均記事数は7.51件
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
60 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 60 – 記事のクラスタリングの実験 3 / 4
 図6.3の色付けされたクラスタで記事を分割した
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
61 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 62 – 記事のクラスタリングの実験 4 / 4
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
62 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 65 – 主張のクラスタリングの実験 1 / 4
 シルエット係数が0.16付近と小さい
 正であるため凝集と乖離の傾向
 クラスタ数を増やすと
1クラスタあたりの記事数が少なくなり
推薦に適さない
 入力記事数が多い場合は適する可能性あり
 埋め込みベクトルが考慮する
特徴(単語)の多さが原因か
 少しでもクラスタの特徴から離れる
単語が存在すると凝集しなくなってしまう
 係数が0.2となるクラスタ数で分割を検討
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
63 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 66 – 主張のクラスタリングの実験 2 / 4
 クラスタ数の減少が緩やかになるような
クラスタ間距離0.85で分割した
► クラスタ数 5
► 1クラスタあたりの文の数の平均は2.6文
► 距離が大きすぎると1クラスタあたりの
主張の数が多くなってしまい、
異なる主張を推薦することができない
► Yangらの研究との比較のため、0.85で合わせた
○ Yangらは959件の記事から705個の主張のクラスタ
○ 本研究は5000件の記事から5個の主張のクラスタ
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
64 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 66 – 主張のクラスタリングの実験 3 / 4
 クラスタごとに色を付与
 距離が近いクラスタに
異なる国の主張がまとまった
► 多様な主張の提示が期待できる
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
65 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
卒論 p. 66 – 主張のクラスタリングの実験 4 / 4
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
66 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
以降、卒研1の予備スライド
(卒研2用に一部編集)
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
67 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p. 3 - 出来事と主張に着目したきっかけ
 ひとつの記事に対して多様なコメントがなされてる
► 多様さが読者の解釈からきている
○ 記者の解釈も存在するのでは
► 誤った主張やそれを過信する読者が少なくない
► 中には記事より有用な主張を補足するものも
○ 多角的な視点でニュースから知識を得てほしい
 デモ活動の聴取をした際に
活動者が相手側の主張を理解できていなかった経験
図12 量子コンピュータが実用段階であるかで分かれる主張 [6]
[6] 共同通信.量子コンピューター初設置 東大とIBM、汎用型.
https://news.yahoo.co.jp/articles/74d5d745cc7c942b4a972ecac3979d701ce2855b/comments (2021年7月28日参照).
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
68 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p. 3 – 出来事の切り取り方の具体例
 「野球の大会Aで優勝した選手B」という出来事の記事
► 「選手の大会での活躍」を切り取る記者
► 「選手の1年前の膝の故障」を切り取る記者
 領土問題の記事
► 所有権を主張する地域Aで生まれ育った記者の切り取り方
► 所有権を主張する地域Bで生まれ育った記者の切り取り方
► 中立な立場にある地域Cで生まれ育った記者の切り取り方
図13 出来事とその主張がより把握できる推薦手法
図13 領土問題で切り取り方が異なる記者
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
69 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p. 3 - 文化と政治で主張が異なる具体例
 NSF (Reporters Sans Fronti`eres ; 国境なき記者団)
► 「政治や文化などの要因によって記者の主張が制限されている」[7]
► 文化で主張が異なる例
○ 宗教文化の違いから食文化の主張が異なる
○ 先進国と発展途上国の飢餓問題の当事者意識、支援できる可能性を踏まえて主張が異なる
► 政治で主張が異なる例
○ 「Covid-19が存在しない」と代表が述べる地域とその他の地域との主張の違い
○ 「記者クラブという組織が記事内容に介入する日本」[8] と「海外」との主張の違い
[7] RSF. 2021 World Press Freedom Index: Journalism, the vaccine against disinformation, blocked in more than 130 countries. https://rsf.org/en/2021-world-press-freedom-index-journalism-
vaccine-against-disinformation-blocked-more-130-countries (2021 年7 月19 日参照).
[8] RSF. Tradition and business interests. https://rsf.org/en/japan (2021 年7 月19 日参照).
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
70 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p. 3 – 出来事も記者によって書き方が異なるのでは
 出来事の書き方が異なる可能性はある
► 例
○ 同じ金属バットに対し「アルミ製のバット」「アルミ、銅、マグネシウムの合金バット」とする記事
○ 量子コンピュータに詳しくない記者「(精度に触れずに)実用化された」
○ 他の地域の報道を確認できない記者「最近流行している感染症はただの風邪」
► 同じ事象は捉えている
○ Sentence-BERTによる文章表現で類似した出来事として捉えられる可能性がある
○ 出来事が同一日時である可能性が大きく、日時情報をモデルに組み込むことで改善が期待できる
○ 出来事のクラスタの階層レベルを調節することで出来事の大きな差異だけに着目してグループ化できる
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
71 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p. 3 – 他の地域のみで書かれる出来事は推薦されないのでは
 関心を持つ出来事の記事のクラスタに対し、隣接するクラスタとして推薦できる
 出来事の階層レベルを大きく設定することで推薦できる
 読者の目的に合った推薦方法が必要
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
72 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.5 – 話題とは
 本研究
► 出来事の要約
 辞書(Weblio)
► 話題、主題、題目
► 陳述される中心的対象
► 話の抽象度を最もあげた時の概念的なもの
 トピックモデルの分野
► トピックの判断材料
► 文章、画像、音楽などに利用
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
73 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.5 – LDAの詳細
 トピック毎の単語の分布、文章毎のトピックの分布は、ディレクリ分布に従うと仮定
► ϕ ∼ 𝑝 ϕ β
 上記は、各トピック毎に単語分布を生成
► θ ∼ 𝑝 θ α
 上記は、各文章毎にトピックの分布を生成
► 𝑧 ∼ 𝑝 𝑧 θ
 以上より、単語のトピックに該当する単語分布を選び、単語を生成
► 𝑤 ∼ 𝑝 𝑤 ϕ𝑧
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
74 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.5, 8 – Sentence-BERTの詳細
 埋め込み表現を事前学習したBERTを用いて2文の類似度を出力
 全記事を同時学習するBERTのクラスタリングより遥かに軽量
► 10000文のクラスタリングに65時間 → 5秒
► 精度は維持
 Pooling
► ベクトルの平均、最大値、CLSに対応する要素のいずれかを設定
► この順で精度が高いと確認されている
 タスクによって精度が異なるSentence-RoBERTaも存在
図14 Sentence-BERTとコサイン類似度 [2]
Nils Reimers and Iryna Gurevych. Sentence-BERT:
Sen-tence Embeddings using Siamese BERT-Networks.
https://arxiv.org/abs/1908.10084v1(2021年7月19日参照).
[2]
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
75 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.6 – 前提の是非
 前提 – 記事の文章が出来事を述べる文か主張を述べる文に二分できる
► 主張の言語表現があれば主張、なければ出来事
○ どちらでもない、は存在しない
○ 言語表現の頻度や記事中の重要度による比重は存在
− どちらの比重も同程度の場合、クラスタリング
で考慮しないことで精度が向上する可能性あり
− つまり、中立な文を含めて3つに分類する
表1 Evidenceの文とClaimの文の分類結果
分類 翻訳前の入力文
Evidence 決勝のヒットを打った23日の試合も1球
だけで終わった
Claim 日本シリーズ進出を決めてうれしい
Evidence 一方、敗れた中日・落合博満監督は「今年
(誤) 1年は思いがけない風が吹きっぱなしだった
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
76 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.6 – 出来事のクラスタリングの例
図15 出来事の類似度による記事のクラスタリングの例
選手Aの
大会Bの
ホームラン
選手Aの
大会Bの
インタビュー
選手Aの
大会B
選手A
選手Aの
普段の練習
・・・
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
77 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.6 – 主張のクラスタリングの例
「選手Aは今日も絶好調。」
「選手Aは余裕の表情。」
「選手Aの膝の故障が噓のよう。」
図11 主張の文の類似度を基にしたクラスタリングの例
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
78 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.7 – RoBERTa (Robustly optimized BERT approach) の詳細
 BERTを改良した汎用モデル
 学習量が多い
► English WikipediaとBooksCorpus(16GB)
CC-News(76GB),OpenWebText(38GB) , Stories(31GB)
 学習自体の改良
► バッチサイズの拡大
► より長い文章を入力
► Next Sentence Prediction(NSP)の不使用
► 同じマスクを何度も使用せず、ランダムに指定
[10] Y. Liuほか, 「RoBERTa: A Robustly Optimized
BERT Pretraining Approach」, arXiv:1907.11692 [cs],
7月 2019, 参照: 7月 26, 2021. [Online]. Available at:
http://arxiv.org/abs/1907.11692
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
79 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.7 – 単語埋め込みの具体例
 RoBERTaでは
► 3万単語の語彙をもつWordPiece embeddingを使用
► 文字列[CLS],[SEP]は新規の単語として埋め込み
 'requisitions’
► ['re', '##qui', '##sit', '##ions’]
○ 意味のまとまりで区分
○ 意味内容によって記号を付与
[9] Vicek (MIcrosoft). Deep Learning with BERT on Azure ML for Text Classification. https://techcommunity.microsoft.com/t5/ai-customer-
engineering-team/deep-learning-with-bert-on-azure-ml-for-text-classification/ba-p/1149262 (2021年7月28日参照).
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
80 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.7 – Transformerの詳細
[11]A. Vaswani et al. Attention is All you Need.
http://papers.nips.cc/paper/7181-attention-is-all-you-%0Aneed.pdf
(2021年7月28日参照).
 複数のAttentionを組み込んだ機械翻訳などに利用されるモデル
► Attention
○ 特定の単語に注目して学習するモデル
○ 文字列の学習の忘却が少ない、30語以上の文章に対応可能
 同じ文章を3つの見方で学習
► 文章の処理する部分、注目の仕方、基底 を変えて比較
 並列可能な行列演算を主に利用するため高速
 図左のエンコーダ部分で文章表現を512次元のベクトルに変換
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
81 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.7 – BERTの詳細
図11 BERTモデルとその転移学習・ファインチューニング
[12] J. Devlin, M.-W. Chang, K. LeeとK. Toutanova, 「BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding」, arXiv:1810.04805 [cs], 5月 2019, 参照: 7月 24, 2021. [Online]. Available at: http://arxiv.org/abs/1810.04805
 文の双方向の文章表現を
学習する汎用モデル
 文章のマスク部分を予測
 入力文の次の単語を予測
 [CLS]トークン
► Classifyに利用する記号
► 入力文の先頭に配置
► 文全体の言語表現に相当
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
82 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.7 – IBM の Debater Dataset の詳細
 議論のEvidenceとClaimを検出するための種々のデータセット
 実験ではIBM Debater® - Claims and Evidenceを使用
► ラベル付けしたWikipediaの記事58件
► Claim:2294文、Evidence:4690文
[4] IBM Corporation. Project debater datasets.
https://www.research.ibm.com/haifa/dept/vst/deb
ating_data.shtml (2021年7月19日参照).
Claimの文
暴力的なビデオゲームへの曝露は、少なくとも一時的な攻撃性の増大を引き起こし、この
曝露は現実世界における攻撃性と相関している。
Evidenceの文
2001年の研究では、暴力的なビデオゲームへの曝露は、少なくとも一時的な攻撃性の増大
を引き起こし、この曝露は現実世界における攻撃性と相関することが明らかになっている。
表2 IBM Debater® - Claims and Evidenceの例(日本訳)
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
83 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.8 - 階層的クラスタリングのその他の手法
 凝集型 (agglomerative)
► 類似度の高いものからまとめる手法
○ 単リンク法 (single linkage method) 別名:最短距離法
○ 完全リンク法 (complete linkage method) 別名:最長距離法
○ 群平均法 (group average method)
○ セントロイド法 (centroid method) 別名:重心法
○ 重み付き平均法 (weighted average method)
○ メジアン法 (median method)
 分割型 (divisible)
► データ集合全体が一つのクラスタの状態から,順次クラスタを分割して,クラスタの階層を生成する.
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
84 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.8 – 「主張の文のクラスタを読者が望む粒度で推薦」とは
 提案手法では、階層的なクラスタを提供
► 利用するニュースサイトの目的に沿った応用
= そのニュースサイトを好む読者の目的に沿った応用
○ 多忙な読者が多いので3つだけ推薦
○ 読者に技術者が多いので10個推薦
○ 自ら調節したい読者が多いので、
読者が個数を調整できるようなシステムで推薦
・・・
?
?
図12 読者が望む粒度のクラスタ数の選択
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
85 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.9 – 適合率と再現率の詳細
 適合率 =
正しく と分類した文の数
と分類した文の数
=
𝑇𝑃
𝑇𝑃+𝐹𝑃
=
どれだけ正解が含まれるか
検索の中に
 再現率 =
正しく と分類した文の数
全ての の文
=
𝑇𝑃
𝑇𝑃+𝐹N
表1 Evidenceの文とClaimの文の分類結果
分類 翻訳前の入力文
Evidence 決勝のヒットを打った23日の試合も1球
だけで終わった
Claim 日本シリーズ進出を決めてうれしい
Evidence 一方、敗れた中日・落合博満監督は「今年
(誤) 1年は思いがけない風が吹きっぱなしだった
Claim
Claim
予測はEvidence 予測はClaim
実際はEvidence
TN
正しくEvidence分類
FP
誤ってClaim分類
実際はClaim
FN
誤ってEvidence分類
TP
正しくClaim分類
表2 混同行列の一覧表
Claim
Claim
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
86 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.9 – 日本の記事に何を用いたか
 Japanese FakeNews Dataset
► オープンデータコモンズパブリックドメイン専用およびライセンス(PDDL)
○ 商業的に利用したり、技術的な保護手段を用いたり、本データやデータベースを他のデータベースや
データと組み合わせたり、変更や追加を共有したり、秘密にしたりすることができます
► FakeでないCC-BYのウィキニュースを使用
○ 元の作品・データの出典を明記すればどのように公開してもよい
○ 10記事の文章において、主張と出来事を正しく分類できたかを確認
[5] 坂本俊之. Japanese FakeNews Dataset.
https://www.kaggle.com/tanreinama/japanese-fakenews-dataset (2021年7月19日参照).
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
87 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p. 9 – その他の分類結果
 すぐに正解が
判断できないが
逆に言えば
不正解とも
判断できないレベル
 その規則として
► 感情の単語
► 曖昧な表現
○ 推定
○ 観測
○ みられている
表3 Evidenceの文とClaimの文の分類結果2
分類 翻訳前の入力文
Evidence
12月12日16時19分頃、岩手県沖の深さ48kmを震源とするマグニチュード5.6
(暫定値)の地震が発生し、青森県階上町で最大震度5弱を観測した
Claim 津波の心配はない
Claim メカニズムは、東西に圧力軸をもつ逆断層型と推定されている
Evidence 気象庁は、今後約1週間は震度5弱程度の余震に注意するよう、呼びかけている
Evidence
(誤?)
また、今後約2、3日は同程度の地震に注意すべきだという
Evidence
青森県で震度5弱を観測したのは2019年12月以来であり、この時も階上町で震
度5弱を観測した
Claim
なおこの地震は、2011年3月の東北地方太平洋沖地震(東日本大震災)の余震
だとみられている
Claim
(誤?)
震度3以上を観測した地域は以下の通り
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
88 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.9 – 分類結果の成功した点、失敗した点
 成功した点
► 多くの分類は、人間が即断できないレベルで正解 or 不正解している
○ ラベルを連続値にすることでこの細かい違いを捉えることができる可能性あり
○ 逆に即断できないような文はクラスタリングの前に除外することでより良い推薦ができる可能性あり
 失敗した点
► 1文中の出来事と主張の混合
○ 出来事の部分が主張の類似度算出に悪影響となる可能性
► 出来事らしい主張の表現(ex. 風が吹く)
○ 1文中に出来事の表現が多いため、出来事のクラスタリングには影響は少ないと考えられる
○ 本来主張として推薦したかった文が推薦されない可能性がある
○ 主張らしい出来事の表現も存在する可能性がある
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
89 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
p.9 - 分類器のその他の改善案
 出来事と主張の比重が同程度の文はクラスタリングに考慮しない
 翻訳前の教師ありデータ(主張 or 出来事)の作成
► 世界の全ての言語への対応にコストがかかる
 記事特有の書き方の考慮
► 言語学的なアプローチ
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
90 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
新規性
 主張と出来事で分類し、分割してクラスタリングを行う点
 目的の達成のために最先端の既存手法を組み合わせている点
 目的がより良く達成されるように分析・工夫を行った点
類似した出来事の異なる主張を把握できるニュース推薦手法の提案
主張と根拠のクラスタを用いた
多様な主張を提示する
ニュース推薦手法の提案
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
91 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
多言語である必要性
 今の手法は単一言語でも適用できる可能性が高い
 容易な機械翻訳を使い、翻訳後の文章を使うだけで多言語に対応できる手法
 社会への貢献度がより大きい
 翻訳機のその時代の性能が異なるため、再現性がないことに注意
► R言語で再現性を確保する研究が存在
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
92 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
評価方法
 出来事の記事が類似しているかを確認
► LibRecライブラリ、IDOMAAR、STREAMINGRECなど
 出来事とその主張が多角的に見れているかを分析
► Desarkarら(2014)のニュースの多様性の評価手法
○ ニュースオブジェクト間の関連性と非類似性の両方を高くすべきであるという二基準の最適化問題
► 自身で理由をつけて説明
► アンケートと統計
 推薦にかかる時間の測定
► 一部手法を変更して比較 [13] M. Karimi, D. JannachとM. Jugovac, 「News recommender systems –
Survey and roads ahead」, Information Processing & Management, vol. 54,
no. 6, pp. 1203–1227, 11月 2018, doi: 10.1016/j.ipm.2018.04.008.
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
93 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
記事データでないIBM Debaterを使うのはなぜか
 IBM Debater – Claims and Evidence
► Wikipediaの英文をラベル付けしたデータセット
► 自動討論システムや論証の構成の検出システムへの応用が想定されている
 記事を出来事と主張で分類するデータが見つからなかった
► 学習に必要な量のデータを自作することは難しい
 記事以外のデータセットで高い性能の分類ができれば
記事のデータセットを作成して使用した場合に
より高い性能で分類可能だと期待できる
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
94 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
ニュース記事に特有な書き方の考慮
 ニュース記事は出来事に対して主張を述べる構造をもつ
 IBM Debaterは主張に対して出来事を補足する構造をもつ
○ 構造は逆であるが、主張と出来事を個々に見れば記事の構造をもつタスクにも応用できると考えた
 記事は5W1Hで書かれる [14]
► 重要度の低いものから書かれなくなる
[14] I. Fang, Writing Style Differences in Newspaper, Radio, and Television News. Monograph Series No. 1.
Center for Interdisciplinary Studies in Writing, University of Minnesota, 227 Lind Hall, 207 Church St, 1991.
参照: 7月 13, 2021. [Online]. Available at: https://eric.ed.gov/?id=ED377481
卒業研究2 C会場 No.15
片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022
95 / 16
主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
目的はエコーチェンバー現象とフィルターバブルから派生
 エコーチェンバー現象
► 価値観の似た者同士で交流し、共感し合うことにより発生
► 特定の意見や思想が増幅されて影響力をもつ現象
► 攻撃的な意見や誤情報などが広まる一因ともみられる
► 特定地域の記事ばかりを読む状況では、世界規模でこの現象が発生しているといえる
 フィルターバブル
► 読者に最適化されたコンテンツばかりが提示される推薦システムの罠
► 情報の泡に包まれてその他の情報が見えにくくなってしまっているSNSユーザーの状態

More Related Content

What's hot

2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針 (Flop/Byte,計算律速,メモリ律速)
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針(Flop/Byte,計算律速,メモリ律速)2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針(Flop/Byte,計算律速,メモリ律速)
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針 (Flop/Byte,計算律速,メモリ律速)
智啓 出川
 
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
智啓 出川
 

What's hot (20)

MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
 
第2回Matlantis User Conference_20230421_畠山歓先生
第2回Matlantis User Conference_20230421_畠山歓先生第2回Matlantis User Conference_20230421_畠山歓先生
第2回Matlantis User Conference_20230421_畠山歓先生
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
 
第2回 配信講義 計算科学技術特論B(2022)
第2回 配信講義 計算科学技術特論B(2022)第2回 配信講義 計算科学技術特論B(2022)
第2回 配信講義 計算科学技術特論B(2022)
 
第8回 配信講義 計算科学技術特論B(2022)
第8回 配信講義 計算科学技術特論B(2022)第8回 配信講義 計算科学技術特論B(2022)
第8回 配信講義 計算科学技術特論B(2022)
 
機械学習によるハイスループット 第一原理計算の代替の可能性_日本化学会_20230323
機械学習によるハイスループット 第一原理計算の代替の可能性_日本化学会_20230323機械学習によるハイスループット 第一原理計算の代替の可能性_日本化学会_20230323
機械学習によるハイスループット 第一原理計算の代替の可能性_日本化学会_20230323
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)
対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)
対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)
 
Deep Learningを用いたロボット制御
Deep Learningを用いたロボット制御Deep Learningを用いたロボット制御
Deep Learningを用いたロボット制御
 
博士課程進学というキャリアについて -博士課程への進学を検討している方へ向けて-
博士課程進学というキャリアについて -博士課程への進学を検討している方へ向けて-博士課程進学というキャリアについて -博士課程への進学を検討している方へ向けて-
博士課程進学というキャリアについて -博士課程への進学を検討している方へ向けて-
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
20180424 orb slam
20180424 orb slam20180424 orb slam
20180424 orb slam
 
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針 (Flop/Byte,計算律速,メモリ律速)
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針(Flop/Byte,計算律速,メモリ律速)2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針(Flop/Byte,計算律速,メモリ律速)
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針 (Flop/Byte,計算律速,メモリ律速)
 
文献調査をどのように行うべきか?
文献調査をどのように行うべきか?文献調査をどのように行うべきか?
文献調査をどのように行うべきか?
 
独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測独立成分分析に基づく信号源分離精度の予測
独立成分分析に基づく信号源分離精度の予測
 
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
第9回 配信講義 計算科学技術特論B(2022)
 第9回 配信講義 計算科学技術特論B(2022) 第9回 配信講義 計算科学技術特論B(2022)
第9回 配信講義 計算科学技術特論B(2022)
 
関数型プログラミング入門 for Matlab ユーザー
関数型プログラミング入門 for Matlab ユーザー関数型プログラミング入門 for Matlab ユーザー
関数型プログラミング入門 for Matlab ユーザー
 

卒業研究 発表スライド「主張と根拠のクラスタを用いた 多様な主張を提示するニュース推薦手法の提案」

  • 1. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 1 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 主張と根拠のクラスタを用いた 多様な主張を提示する ニュース推薦手法の提案 AL18036 片岡凪 指導教員 木村昌臣 データ工学研究室
  • 2. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 2 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 1. 研究背景 2. 関連研究 3. 研究目的 4. 提案手法 5. 実験 6. まとめと今後の課題 目次
  • 3. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 3 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 1. 研究背景  記者が出来事を解釈し,主張したい要素を切り取るため ► 出来事の切り取り方は地域の文化・政治によって異なる  Web上の全ての主張の文を読むことが困難なため ► 特に国外の記事は翻訳のコストが大きい ニュース読者が記事の出来事の一部しか把握できない 図1 地域ごとに異なる出来事の解釈・切り取り方 図2 時間がかかる出来事の把握 出来事 青 ≔ 記者の解釈に依存しない事象 主張 (赤) ≔ 記者が伝えるべきだと判断した「出来事の解釈」 定義
  • 4. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 4 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 2. 関連研究  Yangらの手法 [1] ► 記事に対するSNSの主張に対して 意味の類似度をもとに階層的クラスタリングを行い 意味の階層ごとにグループ化された主張を提示 ○ 異なる出来事に対する類似した主張がグループ化されてしまう e.g. ワクチンと飲み薬に対する安全性の主張がグループ化  類似した出来事に限定した異なる主張の提示が必要 図3 意味の階層ごとにグループ化された主張 記事に対する主張を意味の階層ごとにグループ化 [1] Yang, Didier Vega-Oliveros, Tais Seibt, and Anderson Rocha. Scalable Fact-checking with Human-in-the-Loop. In 2021 IEEE International Work-shop on Information Forensics and Security (WIFS), pp. 1-6, Montpellier, France, December 2021. IEEE. … … 主張の意味の類似度 別物
  • 5. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 5 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 3. 研究目的  読者が出来事の全容を把握できるように 1. 出来事ごとに記事をグループ化 2. 出来事のグループごとに主張の文をグループ化 3. 読者が関心をもつ記事と同じ出来事を扱う 複数の主張の文のグループを提示 4. それぞれの主張の文に紐づく記事を推薦 類似した出来事の異なる主張を把握できるニュース推薦手法の提案 図4 研究目的 … … … 3. 4. 同様 1. 主張の意味の類似度 2.
  • 6. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 6 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 使用した既存手法  RoBERTa ► 記事などの160GBの英語表現を50万回学習した機械学習モデル ► モデルの改変と追加の学習を行うことで文の分類に応用できる  Sentence-BERT ► 文章の埋め込みベクトルを生成する機械学習モデル ► 文脈を加味した「文章の意味の比較」ができる  k-NN分類法 ► クラスタリング済みの記事が存在するときに 新規の記事が属するクラスタを推定 図5 Sentence-BERTによる文章の意味の比較 [3] [2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692 [cs], July 2019. arXiv: 1907.11692. [3] Nils Reimers and Iryna Gurevych. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks https://arxiv.org/abs/1908.10084v1 (2021年7月19日参照).
  • 7. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 7 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 4. 提案手法 – 分類 1 / 2 1. RoBERTaに2層のニューラルネットワークとシグモイド関数を接続 ► RoBERTaの出力を「入力文が主張の文である確率」に変換 2. 主張の文と出来事の文のデータセットで転移学習 ► RoBERTaが事前に学習した豊富な英語表現を 文の分類に活用するための追加の学習 RoBERTaを応用して記事の文を出来事の文と主張の文に分類 図6 RoBERTaを分類器にする学習 RoBERTa 分類器 NN × 2 主張 or 出来事 this is safe sigmoid 主張の文 出来事の文 事前学習 転移学習 分類 1. 2.
  • 8. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 8 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 4. 提案手法 – 分類 2 / 2  IBM Debater – Claims and Evidence ► Wikipediaの英文をラベル付けしたデータセット ► 2169個のClaimの文 ○ トピックを補足する一般的で簡潔な文 e.g. 炭素排出量のトピックについて e.g. 記者が伝えるべきだと解釈した森林伐採の説明 ► 4209個のEvidenceの文 ○ トピックの文脈の中でClaimを補足する文 e.g. 具体的な数字や森林の所在地名を用いた e.g. 記者の解釈に依存しない事象(5割の伐採)の説明 転移学習にはClaimの文とEvidenceの文のデータセットを使用 表1 前処理したIBM Debaterのデータの例 ラベル 文 Claim global carbon emissions are caused by deforestation. Evidence from 1990 to 2010 nigeria nearly halved their amount of forest cover moving from 17234 to 9041 hectares.
  • 9. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 9 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 4. 提案手法 – 階層的クラスタリング 1. Sentence-BERTで 「出来事と分類した文を記事ごとに結合した文章」と 「主張と分類した文」の埋め込みベクトルを生成 2. 出来事と主張の2回に分けて階層的クラスタリング ► 出来事と主張の意味が階層構造をもつと考えられるため ► コサイン値で埋め込みベクトル間の距離を比較 ► Ward法でクラスタ間の距離を比較  類似した出来事の異なる主張を主張の文のクラスタで提示 Sentence-BERTを用いて記事の出来事と主張の文をクラスタリング 図7 提案手法の階層的クラスタリング 𝒖1 𝒗𝟏 𝒗𝟐 𝒖2𝒗𝟑 𝒖3 𝒗𝟒 1. 2. 2. 𝒖1 𝒖2 𝒖3 𝒗𝟏 𝒗𝟑 𝒗𝟐
  • 10. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 10 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 4. 提案手法 – 記事の推薦 1. 読者が関心をもつ記事 𝐴 の文を出来事か主張かで分類 2. 出来事の文章の埋め込みベクトル 𝒂 を生成 3. クラスタリング済みの記事の群から ベクトル 𝒂 と距離が近い 𝒌 個の埋め込みベクトルを取得 4. 取得数が最も多かったクラスタの記事を読者に推薦 ※ 研究範囲を多様な主張の提示に限定し,クラスタリングまでの実験を行った k-NN分類法を用いて 読者が関心をもつ出来事を扱う記事のクラスタを推定 図8 記事のクラスタの同定と推薦 1, 2. 4. 𝐴 3. 𝒖1 𝒖2 𝒖3 𝒂 ( 𝑘 = 3 )
  • 11. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 11 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 5. 実験 – 階層的クラスタリングの評価方法  COVID-19 News Articlesの5000件の記事を入力  クラスタを分けるクラスタ間距離を0.85に設定  文字数が多い1つの記事のクラスタを抽出 ► 主張の文のうち類似した出来事を扱う文の割合を確認 ► 同一の主張のクラスタに類似した主張が属すか確認 ► 異なる主張のクラスタに類似しない主張が属すか確認 類似した出来事の異なる主張が提示できるクラスタか確認
  • 12. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 12 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 5. 実験 – 階層的クラスタリングの評価結果  主張の文の13件中10件が感染対策を対象(約77%) ► 類似した出来事の主張の文のクラスタが得られた  飲食時や運動時の感染対策の主張がそれぞれグループ化した ► 同一の主張のクラスタに類似した主張が属す  異なるクラスタに類似した場面の感染対策の主張は無かった ► 異なる主張のクラスタに類似しない主張が属す 類似した出来事の異なる主張のクラスタが得られた 表2 同じクラスタIDと異なるクラスタIDでの主張の文の比較 ID 主張の文(抜粋) 𝑐1 try not to eat in restaurants as much as possible. 𝑐1 franchise cafes and dessert shops were obligated to offer only takeout around the clock. 𝑐2 outdoor exercise will be banned and wearing masks will be mandatory. 𝑐2 sports event are also obligated to keep the ceiling of 30 percent at stadiums.
  • 13. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 13 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 5. 実験 – 階層的クラスタリングの考察  主張の文の13件中3件は感染対策に対する主張ではなく 「感染が蔓延」「仕事が大変」という主張 ► 同一のクラスタに類似した主張としてまとまっている ○ 2種類の主張を読者に提示しないこともできる  読者の目的に合った主張の提示ができるように クラスタの分け方の工夫やクラスタの選別が必要  クラスタ間距離の設定の工夫や クラスタリング後の品詞ごとの類似度の比較が必要 クラスタの分け方の工夫やクラスタの選別が必要 表3 感染対策以外の出来事に対する主張の文が属するクラスタ ID 主張の概略 主張の文 𝑐3 感染が蔓延 (旅行) travelrelated cases continue to out number local cases. 𝑐3 感染が蔓延 (病院) the citys hospitals are facing an overcrowding crisis. 𝑐3 要感染対策 (病院等) health authorities remain vigilant (中略)and riskprone facilities. 𝑐4 仕事が大変 it was a laborious job. 𝑐4 感染対策 が大変 uncertainly remained over how best to stem the spread of the illness.
  • 14. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 14 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 6. まとめと今後の課題  背景 ► ニュース読者が記事の出来事の一部しか把握できない  目的 ► 類似した出来事の異なる主張を把握できるニュース推薦手法の提案  結果 ► 記事のクラスタ内の主張の文の約77%が類似した出来事となった ► 異なる主張のクラスタで異なる主張が提示できた  今後の課題 ► 読者の目的に合った主張のクラスタの提示 ○ クラスタ間距離の設定の工夫が必要 ○ クラスタリング後の品詞ごとの類似度の比較が必要
  • 15. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 15 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 参考文献 [1] Yang, Didier Vega-Oliveros, Tais Seibt, and Anderson Rocha. Scalable Fact-checking with Human-in- the-Loop.In 2021 IEEE International Work-shop on Information Forensics and Security (WIFS), pp. 1- 6, Montpellier, France, December 2021. IEEE. [2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692 [cs], July 2019. arXiv: 1907.11692. [3] Nils Reimers and Iryna Gurevych. Sentence-BERT: Sentence Embeddings using Siamese BERT- Networks https://arxiv.org/abs/1908.10084v1 (2021年7月19日参照). [4] Ruty Rinott, Lena Dankin, Carlos Alzate Perez, Mitesh M. Khapra, Ehud Aharoni, and Noam Slonim. Show Me Your Evidence - an Automatic Method for Context Dependent Evidence Detection. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pp. 440- 450, Lisbon, Portugal, 2015. Association for Computational Linguistics. [5] Piyush Ghasiya and Koji Okamura. Investigating COVID-19 News Across Four Nations: A Topic Modeling and Sentiment Analysis Approach. IEEE Access, Vol. 9, pp. 36645-36656, 2021. Conference Name: IEEE Access.
  • 16. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 16 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 ご清聴ありがとうございました
  • 17. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 17 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
  • 18. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 18 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
  • 19. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 19 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案
  • 20. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 20 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 以降、予備スライド
  • 21. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 21 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 関連研究  Nagulendraらの手法 [1] ► あるSNSユーザが関心をもつ出来事について SNSのアルゴリズムに推薦されていない主張を提示 ○ 普段「いいね」しない内容の主張を提示  どの主張がどれほど異なるかを提示しないため 出来事の全容の把握が難しい 図3 SNSに推薦されていない主張を 円の外側に表示するシステム [1] [1] Sayooran Nagulendra and Julita Vassileva. Understanding and controlling the filter bubble through interactive visualization: a user study. In Proceedings of the 25th ACM conference on Hypertext and social media, HT '14, pp. 107-115, New York, NY, USA, September 2014. Association for Computing Machinery. SNSに推薦されていない主張を提示
  • 22. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 22 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 提案手法 – 概要 i. 記事の文章を出来事の文と主張の文に分類 ii. 出来事の文章の類似度をもとに記事に階層的クラスタリング iii. 主張の文の類似度をもとに主張の文に階層的クラスタリング iv. 読者が関心をもつ記事と同じ出来事を扱う記事のクラスタを推定 読者が関心をもつ出来事の主張の文のクラスタと記事を推薦 ※ 研究範囲を多様な主張の提示に限定し、(ⅰ) ~ (ⅲ) の実験を行う 前提 記事の文章が出来事を述べる文か主張を述べる文かで二分できる 図7 提案手法の概要 (ⅰ) (ⅱ) (ⅲ) (ⅳ)
  • 23. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 23 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 実験 – 分類器の評価方法  IBM Debater を高い適合率(0.86)と 再現率(0.92)で分類した分類器を評価 ► 適合率:主張と分類した文のうち 実際に主張の文であった割合 ► 再現率:全ての主張の文のうち 正しく分類できた主張の文の割合  COVID-19 News Articlesの記事を分類 ► インド,韓国,日本の約8万件の英記事 ► 163文を手動でラベル付けし 記事での適合率と再現率を算出 表2 COVIDS-19 News Articles のラベル付けの基準(抜粋) IBM Debaterを学習した分類器の記事での分類性能を確認 ラベル 基準 参考にした IBM - Debaterの文(抜粋) 出来事 記者の解釈に 依存しない事象 michael martin was the first eu foreign minister to enter gaza in over a year. 指示語を含み 別の文を補助 in his book maybe one bill mckibben argues in favor of a one child policy based on this research. 主張 事象に対する 解釈 this is the most technologically advanced and safest pipeline ever proposed. 主語や述語の 一般性が高い gamblers persist in gambling even after repeated losses.
  • 24. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 24 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 実験 – 分類器の評価結果と考察  適合率 = 1 ► 2019年の最先端のモデルであるRoBERTaの転移学習が有効  再現率 = 0.4 であり,小さい ► どのような出来事の文を主張の文と誤分類するか分析 ○ IBM Debater では出来事の文に指示語が多く含まれる ○ 誤分類した文では”there is”のような 指示語でない”there”の構文  構文を加味した分類器が必要  分類用データセットに適した学習用データセットが必要 表3 主張の文 (C) と出来事の文 (E) の分類例 構文解析やデータセットの再検討が必要 分類 COVIDS-19 News Articlesの文 C(正) the goal was to bolster international competitiveness. E(正) the government is reportedly aiming to announce guidance early next month. E(誤) for now there is little that families and educators can do but wait to see what the abe administration has in mind.
  • 25. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 25 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 クラスタ間距離を変えて確認  クラスタ間距離が平坦になった2.0で確認 ► 5000件の記事を入力 ► 記事のクラスタリング◎ ○ クラスタ数97 − 記事を1/5000にしている ○ 1クラスタあたりの平均記事数は51.55件 ► 主張のクラスタリング△ ○ クラスタ数2 − 異なる主張が1つしか推薦できない
  • 26. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 26 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 他のクラスタでの評価  957件の記事で確認 ► Yangらの実験との比較のために記事数を合わせた ► 記事のクラスタの記事数が1~2であった ○ 異なる記事の主張が提示できない  5000件の記事を入力し、別の記事のクラスタで確認 ► 別スライド  シルエット係数を確認 ► 別スライド ► 全クラスタについてデータの凝集度と乖離度を確認
  • 27. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 27 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 別の主張のクラスタ 1 / 4  同じ記事のクラスタ内の別の主張のクラスタ ► クラスタ数6 ► 1クラスタあたりの主張 ► インドの記事しかなかった ○ 文化などによって主張が類似する可能性 ○ 日本の記事が多いクラスタも ► 閉鎖、政府の要請、検査、感染、菌に対する主張で分かれた ► の文の平均は2.66文 ► 次ページにデータを記載
  • 28. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 28 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 別の主張のクラスタ 2 / 4  cluster id 0 ► IN;2398;7;complete lockdown will be maintained in these hotspots. ○ これらのホットスポットでは、完全なロックダウンが維持されます。 ► IN;5852;66;the threeweek lockdown has resulted in the shutdown of industries services and other sectors. ○ 3 週間にわたる封鎖により、産業界やその他の部門が閉鎖されました。  cluster id 1 ► IN;3013;20;stopping flights again is a call that only the central government can take. ○ また飛行を止めるというのは、中央政府だけができる呼びかけです。 ► IN;2634;36;the government may ask local administrations to shut down large markets and restrict the selling of vegetables at standalone shops. ○ 政府は、地方行政に対して、大規模な市場の閉鎖や、独立した店舗での野菜の販売を制限するよう要請する可能性があります。 ► IN;1093;15;most of the states have limited borrowing capacity. ○ ほとんどの州で借入能力に限界があります。
  • 29. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 29 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 別の主張のクラスタ 3 / 4  cluster id 2 ► IN;3013;35;a freely accessible testing policy through both private and publicsector clinics which is available on demand and with assured privacy of results should be the first national priority to identify and quarantine asymptomatic patients. ○ 無症状患者を特定し隔離するためには、民間および公的機関のクリニックで自由に検査ができ、必要に応じて検査結果のプラ イバシーが保証されていることが、国家的な最優先事項であるべきです。 ► IN;2634;27;we keep people in quarantine facilities but dont test them. ○ 検疫施設に人を閉じ込めても、検査はしない。 ► IN;4736;17;testing has process and guidelines. ○ テストにはプロセスやガイドラインがあります。 ► IN;4736;18;unnecessary testing for the sake of confidence building especially when kits are limited is not the right strategy. ○ 特にキットに限りがある場合、信頼性を高めるために不必要なテストをするのは正しい戦略ではありません。
  • 30. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 30 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 適合率と再現率の重要性  適合率 ► 主張と分類した文のうち、実際に主張の文であった割合 ► 大きいほど、主張の文のみでクラスタリングを行える ○ 主張の文のみを読者に提示することができる  再現率 ► 全ての主張の文のうち、正しく分類できた主張の文の割合 ► 大きいほど、主張の文の見逃しがない ○ 多くの異なる主張、多様な主張を提示することができる ► 小さいほど、ある特徴をもつ主張を分類器が分類できていない可能性あり
  • 31. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 31 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 主張の文ではなく、出来事の文を提示するべきか  主張の文は、素人(読者)が出来事を理解できるように 記者がわかりやすく噛み砕いた文ともいえる ► データを示すだけの出来事の文などは読者にとって理解が難しい  素人(読者)が「記者によって主張が異なる」ことを自覚して読んでいるとは限らない ► 読者の補助のために主張のクラスタを提示  出来事のクラスタを閲覧したい目的をもつ読者であれば 記事の出来事のクラスタを提示すべき
  • 32. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 32 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 データセットの選定基準  共通 ► 前処理しにくい記号文字が少ない  主張の文と出来事の文のデータセット ► 主張の文と出来事の文の定義に準じる  記事のデータセット ► 3ヶ国以上の多様な政治・文化の主張を含む ► 英語の記事である ► 短期間内で収集されており、時事の記事を推薦する多くのサービスと同じ条件で分析できる ○ 長期間の記事をもとに提示する研究も有効
  • 33. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 33 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 応用先  多様な主張を閲覧したい読者に合わせた専用サービスとして提供する  一般的な記事サイトに副次的なコラムとして掲載する  一般的な記事サイトの推薦アルゴリズムに組み込み 主張が偏りにくい記事の推薦を行う
  • 34. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 34 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 K-NN分類法(k近傍法)に関連する手法  K-means法 ► 無作為に指定したk個のデータの付近の重心からクラスを推定する手法  X-means法 ► K-meansを繰り返し実行し、最適なkの値を推定する手法 ► 実行回数を初期値として与える必要あり  考慮しない不要なデータを前もって削除する手法 ► 誤り削除型kNN法(Edited kNN) ► 圧縮型kNN(Condensed kNN)  主要な研究範囲に含めないため、最もシンプルなk-NN分類法を紹介した
  • 35. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 35 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 他に必要な実験  主張のみでクラスタリングを行い 出来事と主張の2回でクラスタリングした結果と比較  多様な主張であるかを評価するベンチマークで比較 ► ただし、一度類似した出来事のみでグループ化しているため 主張のクラスタのスコアは低めに評価される可能性あり
  • 36. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 36 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 40 – 省略のピリオドを考慮した文章の分割  記事の文を分類するために文章を文ごとに分割した ► しかし、英語の句点に用いられるピリオドは 表4.3 のように句点以外にも様々な用法が存在 ○ 人間が決めたアルゴリズムによる分割が難しい ○ テキスト解析のための機械学習ライブラリStanzaを使用  Stanza ► 英語の句点の同定におけるベンチマークスコアが UDPipeやspaCyより優れている  文の分割性能は分類やクラスタリングの性能に直結 ► 稀に2語程度の誤った分割も観測された
  • 37. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 37 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 8 - 転移学習の損失関数  𝐿(θ) ► バイナリクロスエントロピー ► 2クラスの分類によく用いられる損失関数  𝑦𝑖 ► 入力する特徴 𝒙 の個々の要素のラベル  𝒚 ► 特徴 𝒙 に対するモデルの予測  𝜎(𝑡) ► 入力 𝑡 を区間 0, 1 で出力するシグモイド関数
  • 38. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 38 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 9 – シグモイド関数  入力 𝑡 を区間 0, 1 で出力  区間 0, 1 で出力しないモデルの出力を 区間 0, 1 の確率の範囲に変換できる
  • 39. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 39 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 11 – Attention  BERTやRoBERTaに含まれる機構  出力データと関りが強い入力データを 重視した学習が可能になる ► 無駄なデータの学習が減る ► 過去に学習した内容を忘却しにくくなる ► 30語以上の長い文の 自然言語処理の性能が大幅に向上
  • 40. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 40 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 13 – Transformer 1 / 2  並列演算が可能な自然言語処理のための機械学習モデル ► 少ない計算時間で2017年の最先端のモデルより 性能の高い自然言語処理を行うことができる ► 図の左のエンコーダ部分のみを用いることで 文章の意味を定量的なベクトルに変換できる
  • 41. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 41 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 14 – Transformer 2 / 2  Multi-Head Attention ► Transformerで用いられた 特殊な Attention  同じ文章を3つの見方で学習 ► 文章の処理する部分の変更 ► 注目の仕方の変更 ► 基底の変更
  • 42. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 42 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 15 – BERT (詳細は別スライド)
  • 43. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 43 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 17 – RoBERTaを転移学習した二項分類器  RoBERTaのモデルアーキテクチャはBERTと同じ  分類用の文字列 [CLS] を入力  文字列 [CLS] に対応する位置の出力Cを利用  モデルの改変によりラベルの確率を出力 ► ニューラルネットワークの接続 ► シグモイド関数の接続 ► バイナリクロスエントロピーの接続
  • 44. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 44 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 19 – RoBERTaの各タスクの性能  本研究の分類で重要な性能はSTS(Semantic Textual Similarity Benchmark) ► ニュースの2 つの見出し文の類似度を5 段階で評価
  • 45. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 45 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 23 – マシューズ相関係数  分類器の性能を総合的に評価  データのラベルの数が不均衡なときにも 頑健に評価できる ► 本研究では記事の163文のうち 8文が主張の文と分類した(不均衡) ► 記事の分類では0.61と小さかった 予測はEvidence 予測はClaim 実際はEvidence TN 正しくEvidence分類 FP 誤ってClaim分類 実際はClaim FN 誤ってEvidence分類 TP 正しくClaim分類 表2 混同行列の一覧表
  • 46. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 46 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 25 – Sentence-BERTの性能  本研究のクラスタリングではどの指標も重要 ► 特に、意見の極性を分類するMPQAが重要)
  • 47. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 47 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 26 – Ward法(最小分散法)  外れ値の影響を受けにくいクラスタ間距離 𝑑𝑘𝑐 の算出方法 ► 併合後のクラスタ𝐶𝑘 ∪ 𝐶𝑐 の分散と 併合前のクラスタ𝐶𝑘 , 𝐶𝑐 のそれぞれの分散の和との 差 𝑑𝑘𝑐 をクラスタ間距離とする
  • 48. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 48 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 27 – 階層的クラスタリング  クラスタ間距離が最も近い2つのクラスタを順次1つのクラスタに結合していく手法 ► クラスタの結合を止めるクラスタ間距離によって様々な粒度のクラスタが得られる ► 階層構造を持つデータの傾向の分析ができる
  • 49. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 49 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 28 – シルエット係数  クラスタリングの評価指標のひとつ  シルエット係数の平均 𝑆𝑖𝑙 𝑖 が1に近いほど ► 同一クラスタ内のデータがより類似する傾向 ► 異なるクラスタ間のデータがより類似しない傾向  本研究 ► 記事の出来事のクラスタリングでは 𝑆𝑖𝑙 𝑖 ~ 0.17 ► 記事の出来事のクラスタリングでは 𝑆𝑖𝑙 𝑖 ~ 0.16 ► どちらも小さく、埋め込みベクトルの次元の高さ(384)に起因すると考えた
  • 50. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 50 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 30 - UNBERT  ZhangらのUNBERT [2] ► 読者の関心度が高い記事を推薦する機械学習モデル ► 豊富な英語表現を学習したBERTを記事のタスクに応用 ○ モデルが学習していない新規の記事に対する予測を 2020年までの多くの機械学習モデルより性能よく行った ○ 新規の記事の主張を提示するためにBERTが適している 豊富に学習された英語表現を用いて新規の記事のクリック率を予測 [2] Qi Zhang, Jingjie Li, Qinglin Jia, Chuyuan Wang, Jieming Zhu, Zhaowei Wang, and Xiuqiang He. UNBERT: User-News Matching BERT for News Recommendation. In Proceedings of the Thirtieth International Joint Conference on Articial Intelligence, pp. 3356-3362, Montreal, Canada, August 2021. International Joint Conferences on Articial Intelligence Organization. BERT 図4 英語表現を学習したBERTを記事推薦に応用 BERT UNBERT softmax NEW
  • 51. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 51 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 38 – COVID-19 News Articles  イギリス、インド、日本、韓国の主要な新聞8紙の英版ウェブサイトの記事 ► 文字列COVID-19またはCoronavirusを含む記事を抽出 ► 政治や文化の違いに由来する多くの異なる主張が分析できると期待 ► 11カ月間という短い期間で収集されたため、より類似した出来事に関する記事が得られる
  • 52. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 52 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 40 – 省略のピリオドを考慮した文章の分割  記事の文を分類するために文章を文ごとに分割した ► しかし、英語の句点に用いられるピリオドは 表4.3 のように句点以外にも様々な用法が存在 ○ 人間が決めたアルゴリズムによる分割が難しい ○ テキスト解析のための機械学習ライブラリStanzaを使用  Stanza ► 英語の句点の同定におけるベンチマークスコアが UDPipeやspaCyより優れている
  • 53. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 53 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 44 – 実行環境
  • 54. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 54 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 45 - テキストの前処理
  • 55. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 55 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 50 - IBM Debater を用いた分類器の評価  1回の学習で最もよい適合率0.90とマシューズ相関係数0.84  損失関数(BCE)が単調増加しているため、過学習の可能性あり  学習回数1~4のモデルで次の「記事の分類評価」を行った
  • 56. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 56 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 53 – 記事を用いた分類器の評価 1 / 2  手動で「出来事の文か主張の文か」の ラベル付けを行い、分類評価を行った ► COVID-19 News Articlesの163文を抽出 ► 基準は表6.2の通り
  • 57. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 57 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 54 - 記事を用いた分類器の評価 2 / 2  There を含む出来事の文などを誤分類  適合率1,再現率0.40, マシューズ相関係数0.61となった
  • 58. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 58 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 58 – 記事のクラスタリングの実験 1 / 4  シルエット係数が0.2付近と小さい ► 正であるため凝集と乖離の傾向 ► クラスタ数を増やすと 1クラスタあたりの記事数が少なくなり 推薦に適さない ○ 入力記事数が多い場合は適する可能性あり ► 埋め込みベクトルが考慮する 特徴(単語)の多さが原因か ○ 少しでもクラスタの特徴から離れる 単語が存在すると凝集しなくなってしまう ► 係数が0.2となるクラスタ数で分割を検討
  • 59. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 59 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 59 – 記事のクラスタリングの実験 2 / 4  クラスタ数の減少が緩やかになるような クラスタ間距離0.85で分割した ► 変曲点を選択するとクラスタ数が多くなり 1クラスタあたりの記事数が少なくなる ► グラフが直線的でなくなる クラスタ間距離0.85で分割した ○ クラスタ数は666 ○ 1クラスタあたりの平均記事数は7.51件
  • 60. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 60 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 60 – 記事のクラスタリングの実験 3 / 4  図6.3の色付けされたクラスタで記事を分割した
  • 61. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 61 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 62 – 記事のクラスタリングの実験 4 / 4
  • 62. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 62 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 65 – 主張のクラスタリングの実験 1 / 4  シルエット係数が0.16付近と小さい  正であるため凝集と乖離の傾向  クラスタ数を増やすと 1クラスタあたりの記事数が少なくなり 推薦に適さない  入力記事数が多い場合は適する可能性あり  埋め込みベクトルが考慮する 特徴(単語)の多さが原因か  少しでもクラスタの特徴から離れる 単語が存在すると凝集しなくなってしまう  係数が0.2となるクラスタ数で分割を検討
  • 63. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 63 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 66 – 主張のクラスタリングの実験 2 / 4  クラスタ数の減少が緩やかになるような クラスタ間距離0.85で分割した ► クラスタ数 5 ► 1クラスタあたりの文の数の平均は2.6文 ► 距離が大きすぎると1クラスタあたりの 主張の数が多くなってしまい、 異なる主張を推薦することができない ► Yangらの研究との比較のため、0.85で合わせた ○ Yangらは959件の記事から705個の主張のクラスタ ○ 本研究は5000件の記事から5個の主張のクラスタ
  • 64. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 64 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 66 – 主張のクラスタリングの実験 3 / 4  クラスタごとに色を付与  距離が近いクラスタに 異なる国の主張がまとまった ► 多様な主張の提示が期待できる
  • 65. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 65 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 卒論 p. 66 – 主張のクラスタリングの実験 4 / 4
  • 66. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 66 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 以降、卒研1の予備スライド (卒研2用に一部編集)
  • 67. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 67 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p. 3 - 出来事と主張に着目したきっかけ  ひとつの記事に対して多様なコメントがなされてる ► 多様さが読者の解釈からきている ○ 記者の解釈も存在するのでは ► 誤った主張やそれを過信する読者が少なくない ► 中には記事より有用な主張を補足するものも ○ 多角的な視点でニュースから知識を得てほしい  デモ活動の聴取をした際に 活動者が相手側の主張を理解できていなかった経験 図12 量子コンピュータが実用段階であるかで分かれる主張 [6] [6] 共同通信.量子コンピューター初設置 東大とIBM、汎用型. https://news.yahoo.co.jp/articles/74d5d745cc7c942b4a972ecac3979d701ce2855b/comments (2021年7月28日参照).
  • 68. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 68 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p. 3 – 出来事の切り取り方の具体例  「野球の大会Aで優勝した選手B」という出来事の記事 ► 「選手の大会での活躍」を切り取る記者 ► 「選手の1年前の膝の故障」を切り取る記者  領土問題の記事 ► 所有権を主張する地域Aで生まれ育った記者の切り取り方 ► 所有権を主張する地域Bで生まれ育った記者の切り取り方 ► 中立な立場にある地域Cで生まれ育った記者の切り取り方 図13 出来事とその主張がより把握できる推薦手法 図13 領土問題で切り取り方が異なる記者
  • 69. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 69 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p. 3 - 文化と政治で主張が異なる具体例  NSF (Reporters Sans Fronti`eres ; 国境なき記者団) ► 「政治や文化などの要因によって記者の主張が制限されている」[7] ► 文化で主張が異なる例 ○ 宗教文化の違いから食文化の主張が異なる ○ 先進国と発展途上国の飢餓問題の当事者意識、支援できる可能性を踏まえて主張が異なる ► 政治で主張が異なる例 ○ 「Covid-19が存在しない」と代表が述べる地域とその他の地域との主張の違い ○ 「記者クラブという組織が記事内容に介入する日本」[8] と「海外」との主張の違い [7] RSF. 2021 World Press Freedom Index: Journalism, the vaccine against disinformation, blocked in more than 130 countries. https://rsf.org/en/2021-world-press-freedom-index-journalism- vaccine-against-disinformation-blocked-more-130-countries (2021 年7 月19 日参照). [8] RSF. Tradition and business interests. https://rsf.org/en/japan (2021 年7 月19 日参照).
  • 70. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 70 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p. 3 – 出来事も記者によって書き方が異なるのでは  出来事の書き方が異なる可能性はある ► 例 ○ 同じ金属バットに対し「アルミ製のバット」「アルミ、銅、マグネシウムの合金バット」とする記事 ○ 量子コンピュータに詳しくない記者「(精度に触れずに)実用化された」 ○ 他の地域の報道を確認できない記者「最近流行している感染症はただの風邪」 ► 同じ事象は捉えている ○ Sentence-BERTによる文章表現で類似した出来事として捉えられる可能性がある ○ 出来事が同一日時である可能性が大きく、日時情報をモデルに組み込むことで改善が期待できる ○ 出来事のクラスタの階層レベルを調節することで出来事の大きな差異だけに着目してグループ化できる
  • 71. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 71 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p. 3 – 他の地域のみで書かれる出来事は推薦されないのでは  関心を持つ出来事の記事のクラスタに対し、隣接するクラスタとして推薦できる  出来事の階層レベルを大きく設定することで推薦できる  読者の目的に合った推薦方法が必要
  • 72. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 72 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.5 – 話題とは  本研究 ► 出来事の要約  辞書(Weblio) ► 話題、主題、題目 ► 陳述される中心的対象 ► 話の抽象度を最もあげた時の概念的なもの  トピックモデルの分野 ► トピックの判断材料 ► 文章、画像、音楽などに利用
  • 73. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 73 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.5 – LDAの詳細  トピック毎の単語の分布、文章毎のトピックの分布は、ディレクリ分布に従うと仮定 ► ϕ ∼ 𝑝 ϕ β  上記は、各トピック毎に単語分布を生成 ► θ ∼ 𝑝 θ α  上記は、各文章毎にトピックの分布を生成 ► 𝑧 ∼ 𝑝 𝑧 θ  以上より、単語のトピックに該当する単語分布を選び、単語を生成 ► 𝑤 ∼ 𝑝 𝑤 ϕ𝑧
  • 74. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 74 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.5, 8 – Sentence-BERTの詳細  埋め込み表現を事前学習したBERTを用いて2文の類似度を出力  全記事を同時学習するBERTのクラスタリングより遥かに軽量 ► 10000文のクラスタリングに65時間 → 5秒 ► 精度は維持  Pooling ► ベクトルの平均、最大値、CLSに対応する要素のいずれかを設定 ► この順で精度が高いと確認されている  タスクによって精度が異なるSentence-RoBERTaも存在 図14 Sentence-BERTとコサイン類似度 [2] Nils Reimers and Iryna Gurevych. Sentence-BERT: Sen-tence Embeddings using Siamese BERT-Networks. https://arxiv.org/abs/1908.10084v1(2021年7月19日参照). [2]
  • 75. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 75 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.6 – 前提の是非  前提 – 記事の文章が出来事を述べる文か主張を述べる文に二分できる ► 主張の言語表現があれば主張、なければ出来事 ○ どちらでもない、は存在しない ○ 言語表現の頻度や記事中の重要度による比重は存在 − どちらの比重も同程度の場合、クラスタリング で考慮しないことで精度が向上する可能性あり − つまり、中立な文を含めて3つに分類する 表1 Evidenceの文とClaimの文の分類結果 分類 翻訳前の入力文 Evidence 決勝のヒットを打った23日の試合も1球 だけで終わった Claim 日本シリーズ進出を決めてうれしい Evidence 一方、敗れた中日・落合博満監督は「今年 (誤) 1年は思いがけない風が吹きっぱなしだった
  • 76. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 76 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.6 – 出来事のクラスタリングの例 図15 出来事の類似度による記事のクラスタリングの例 選手Aの 大会Bの ホームラン 選手Aの 大会Bの インタビュー 選手Aの 大会B 選手A 選手Aの 普段の練習 ・・・
  • 77. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 77 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.6 – 主張のクラスタリングの例 「選手Aは今日も絶好調。」 「選手Aは余裕の表情。」 「選手Aの膝の故障が噓のよう。」 図11 主張の文の類似度を基にしたクラスタリングの例
  • 78. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 78 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.7 – RoBERTa (Robustly optimized BERT approach) の詳細  BERTを改良した汎用モデル  学習量が多い ► English WikipediaとBooksCorpus(16GB) CC-News(76GB),OpenWebText(38GB) , Stories(31GB)  学習自体の改良 ► バッチサイズの拡大 ► より長い文章を入力 ► Next Sentence Prediction(NSP)の不使用 ► 同じマスクを何度も使用せず、ランダムに指定 [10] Y. Liuほか, 「RoBERTa: A Robustly Optimized BERT Pretraining Approach」, arXiv:1907.11692 [cs], 7月 2019, 参照: 7月 26, 2021. [Online]. Available at: http://arxiv.org/abs/1907.11692
  • 79. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 79 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.7 – 単語埋め込みの具体例  RoBERTaでは ► 3万単語の語彙をもつWordPiece embeddingを使用 ► 文字列[CLS],[SEP]は新規の単語として埋め込み  'requisitions’ ► ['re', '##qui', '##sit', '##ions’] ○ 意味のまとまりで区分 ○ 意味内容によって記号を付与 [9] Vicek (MIcrosoft). Deep Learning with BERT on Azure ML for Text Classification. https://techcommunity.microsoft.com/t5/ai-customer- engineering-team/deep-learning-with-bert-on-azure-ml-for-text-classification/ba-p/1149262 (2021年7月28日参照).
  • 80. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 80 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.7 – Transformerの詳細 [11]A. Vaswani et al. Attention is All you Need. http://papers.nips.cc/paper/7181-attention-is-all-you-%0Aneed.pdf (2021年7月28日参照).  複数のAttentionを組み込んだ機械翻訳などに利用されるモデル ► Attention ○ 特定の単語に注目して学習するモデル ○ 文字列の学習の忘却が少ない、30語以上の文章に対応可能  同じ文章を3つの見方で学習 ► 文章の処理する部分、注目の仕方、基底 を変えて比較  並列可能な行列演算を主に利用するため高速  図左のエンコーダ部分で文章表現を512次元のベクトルに変換
  • 81. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 81 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.7 – BERTの詳細 図11 BERTモデルとその転移学習・ファインチューニング [12] J. Devlin, M.-W. Chang, K. LeeとK. Toutanova, 「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」, arXiv:1810.04805 [cs], 5月 2019, 参照: 7月 24, 2021. [Online]. Available at: http://arxiv.org/abs/1810.04805  文の双方向の文章表現を 学習する汎用モデル  文章のマスク部分を予測  入力文の次の単語を予測  [CLS]トークン ► Classifyに利用する記号 ► 入力文の先頭に配置 ► 文全体の言語表現に相当
  • 82. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 82 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.7 – IBM の Debater Dataset の詳細  議論のEvidenceとClaimを検出するための種々のデータセット  実験ではIBM Debater® - Claims and Evidenceを使用 ► ラベル付けしたWikipediaの記事58件 ► Claim:2294文、Evidence:4690文 [4] IBM Corporation. Project debater datasets. https://www.research.ibm.com/haifa/dept/vst/deb ating_data.shtml (2021年7月19日参照). Claimの文 暴力的なビデオゲームへの曝露は、少なくとも一時的な攻撃性の増大を引き起こし、この 曝露は現実世界における攻撃性と相関している。 Evidenceの文 2001年の研究では、暴力的なビデオゲームへの曝露は、少なくとも一時的な攻撃性の増大 を引き起こし、この曝露は現実世界における攻撃性と相関することが明らかになっている。 表2 IBM Debater® - Claims and Evidenceの例(日本訳)
  • 83. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 83 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.8 - 階層的クラスタリングのその他の手法  凝集型 (agglomerative) ► 類似度の高いものからまとめる手法 ○ 単リンク法 (single linkage method) 別名:最短距離法 ○ 完全リンク法 (complete linkage method) 別名:最長距離法 ○ 群平均法 (group average method) ○ セントロイド法 (centroid method) 別名:重心法 ○ 重み付き平均法 (weighted average method) ○ メジアン法 (median method)  分割型 (divisible) ► データ集合全体が一つのクラスタの状態から,順次クラスタを分割して,クラスタの階層を生成する.
  • 84. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 84 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.8 – 「主張の文のクラスタを読者が望む粒度で推薦」とは  提案手法では、階層的なクラスタを提供 ► 利用するニュースサイトの目的に沿った応用 = そのニュースサイトを好む読者の目的に沿った応用 ○ 多忙な読者が多いので3つだけ推薦 ○ 読者に技術者が多いので10個推薦 ○ 自ら調節したい読者が多いので、 読者が個数を調整できるようなシステムで推薦 ・・・ ? ? 図12 読者が望む粒度のクラスタ数の選択
  • 85. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 85 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.9 – 適合率と再現率の詳細  適合率 = 正しく と分類した文の数 と分類した文の数 = 𝑇𝑃 𝑇𝑃+𝐹𝑃 = どれだけ正解が含まれるか 検索の中に  再現率 = 正しく と分類した文の数 全ての の文 = 𝑇𝑃 𝑇𝑃+𝐹N 表1 Evidenceの文とClaimの文の分類結果 分類 翻訳前の入力文 Evidence 決勝のヒットを打った23日の試合も1球 だけで終わった Claim 日本シリーズ進出を決めてうれしい Evidence 一方、敗れた中日・落合博満監督は「今年 (誤) 1年は思いがけない風が吹きっぱなしだった Claim Claim 予測はEvidence 予測はClaim 実際はEvidence TN 正しくEvidence分類 FP 誤ってClaim分類 実際はClaim FN 誤ってEvidence分類 TP 正しくClaim分類 表2 混同行列の一覧表 Claim Claim
  • 86. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 86 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.9 – 日本の記事に何を用いたか  Japanese FakeNews Dataset ► オープンデータコモンズパブリックドメイン専用およびライセンス(PDDL) ○ 商業的に利用したり、技術的な保護手段を用いたり、本データやデータベースを他のデータベースや データと組み合わせたり、変更や追加を共有したり、秘密にしたりすることができます ► FakeでないCC-BYのウィキニュースを使用 ○ 元の作品・データの出典を明記すればどのように公開してもよい ○ 10記事の文章において、主張と出来事を正しく分類できたかを確認 [5] 坂本俊之. Japanese FakeNews Dataset. https://www.kaggle.com/tanreinama/japanese-fakenews-dataset (2021年7月19日参照).
  • 87. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 87 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p. 9 – その他の分類結果  すぐに正解が 判断できないが 逆に言えば 不正解とも 判断できないレベル  その規則として ► 感情の単語 ► 曖昧な表現 ○ 推定 ○ 観測 ○ みられている 表3 Evidenceの文とClaimの文の分類結果2 分類 翻訳前の入力文 Evidence 12月12日16時19分頃、岩手県沖の深さ48kmを震源とするマグニチュード5.6 (暫定値)の地震が発生し、青森県階上町で最大震度5弱を観測した Claim 津波の心配はない Claim メカニズムは、東西に圧力軸をもつ逆断層型と推定されている Evidence 気象庁は、今後約1週間は震度5弱程度の余震に注意するよう、呼びかけている Evidence (誤?) また、今後約2、3日は同程度の地震に注意すべきだという Evidence 青森県で震度5弱を観測したのは2019年12月以来であり、この時も階上町で震 度5弱を観測した Claim なおこの地震は、2011年3月の東北地方太平洋沖地震(東日本大震災)の余震 だとみられている Claim (誤?) 震度3以上を観測した地域は以下の通り
  • 88. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 88 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.9 – 分類結果の成功した点、失敗した点  成功した点 ► 多くの分類は、人間が即断できないレベルで正解 or 不正解している ○ ラベルを連続値にすることでこの細かい違いを捉えることができる可能性あり ○ 逆に即断できないような文はクラスタリングの前に除外することでより良い推薦ができる可能性あり  失敗した点 ► 1文中の出来事と主張の混合 ○ 出来事の部分が主張の類似度算出に悪影響となる可能性 ► 出来事らしい主張の表現(ex. 風が吹く) ○ 1文中に出来事の表現が多いため、出来事のクラスタリングには影響は少ないと考えられる ○ 本来主張として推薦したかった文が推薦されない可能性がある ○ 主張らしい出来事の表現も存在する可能性がある
  • 89. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 89 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 p.9 - 分類器のその他の改善案  出来事と主張の比重が同程度の文はクラスタリングに考慮しない  翻訳前の教師ありデータ(主張 or 出来事)の作成 ► 世界の全ての言語への対応にコストがかかる  記事特有の書き方の考慮 ► 言語学的なアプローチ
  • 90. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 90 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 新規性  主張と出来事で分類し、分割してクラスタリングを行う点  目的の達成のために最先端の既存手法を組み合わせている点  目的がより良く達成されるように分析・工夫を行った点 類似した出来事の異なる主張を把握できるニュース推薦手法の提案 主張と根拠のクラスタを用いた 多様な主張を提示する ニュース推薦手法の提案
  • 91. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 91 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 多言語である必要性  今の手法は単一言語でも適用できる可能性が高い  容易な機械翻訳を使い、翻訳後の文章を使うだけで多言語に対応できる手法  社会への貢献度がより大きい  翻訳機のその時代の性能が異なるため、再現性がないことに注意 ► R言語で再現性を確保する研究が存在
  • 92. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 92 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 評価方法  出来事の記事が類似しているかを確認 ► LibRecライブラリ、IDOMAAR、STREAMINGRECなど  出来事とその主張が多角的に見れているかを分析 ► Desarkarら(2014)のニュースの多様性の評価手法 ○ ニュースオブジェクト間の関連性と非類似性の両方を高くすべきであるという二基準の最適化問題 ► 自身で理由をつけて説明 ► アンケートと統計  推薦にかかる時間の測定 ► 一部手法を変更して比較 [13] M. Karimi, D. JannachとM. Jugovac, 「News recommender systems – Survey and roads ahead」, Information Processing & Management, vol. 54, no. 6, pp. 1203–1227, 11月 2018, doi: 10.1016/j.ipm.2018.04.008.
  • 93. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 93 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 記事データでないIBM Debaterを使うのはなぜか  IBM Debater – Claims and Evidence ► Wikipediaの英文をラベル付けしたデータセット ► 自動討論システムや論証の構成の検出システムへの応用が想定されている  記事を出来事と主張で分類するデータが見つからなかった ► 学習に必要な量のデータを自作することは難しい  記事以外のデータセットで高い性能の分類ができれば 記事のデータセットを作成して使用した場合に より高い性能で分類可能だと期待できる
  • 94. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 94 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 ニュース記事に特有な書き方の考慮  ニュース記事は出来事に対して主張を述べる構造をもつ  IBM Debaterは主張に対して出来事を補足する構造をもつ ○ 構造は逆であるが、主張と出来事を個々に見れば記事の構造をもつタスクにも応用できると考えた  記事は5W1Hで書かれる [14] ► 重要度の低いものから書かれなくなる [14] I. Fang, Writing Style Differences in Newspaper, Radio, and Television News. Monograph Series No. 1. Center for Interdisciplinary Studies in Writing, University of Minnesota, 227 Lind Hall, 207 Church St, 1991. 参照: 7月 13, 2021. [Online]. Available at: https://eric.ed.gov/?id=ED377481
  • 95. 卒業研究2 C会場 No.15 片岡 凪 (AL18036 データ工学研究室) Feb. 8, 2022 95 / 16 主張と根拠のクラスタを用いた多様な主張を提示するニュース推薦手法の提案 目的はエコーチェンバー現象とフィルターバブルから派生  エコーチェンバー現象 ► 価値観の似た者同士で交流し、共感し合うことにより発生 ► 特定の意見や思想が増幅されて影響力をもつ現象 ► 攻撃的な意見や誤情報などが広まる一因ともみられる ► 特定地域の記事ばかりを読む状況では、世界規模でこの現象が発生しているといえる  フィルターバブル ► 読者に最適化されたコンテンツばかりが提示される推薦システムの罠 ► 情報の泡に包まれてその他の情報が見えにくくなってしまっているSNSユーザーの状態

Editor's Notes

  1. (レーザーポインター、Zoomのバー削除、タイマーリセット、笑顔) よろしくお願いします。 (難) 「主張と根拠のクラスタを用いた 多様な主張を提示するニュース推薦手法の提案」  (speed up) と題しまして、AL18036の片岡が 発表します。
  2. 目次です。 次の むっつの項目を 説明します。
  3. 研究の背景として、「ニュース読者が 記事の出来事の一部しか把握できないこと」 を 問題視しています。 【文にポインタ】 その要因として、「記者が出来事を解釈し 主張したい要素を切り取っていること」 が挙げられます。 同じ出来事を書く記事でも、出来事の切り取り方は 地域の文化や政治によって異なります。 【図1👍→👎】 例えば図1のように、あるワクチンの出来事に「肯定的な主張を書く記者」もいれば、 「否定的な主張を書く記者」もいます。 【戻す】 出来事の把握が難しいもう1つの要因として、Web上の全ての主張を人力で読むことが 困難であることが挙げられます。 特に、国外の記事を読む際には 「翻訳のコスト」が大きく、出来事の把握が難しくなります。 以降のスライドでは、 出来事のことを 「記者の解釈に依存しない 事象」 主張のことを 「記者が伝えるべきだと判断した出来事の解釈」であると定義して説明を行います。 ~~ボツ~~ 出来事が把握できないもう1つの要因として、 翻訳コストの話はいらないのでは
  4. 異なる主張を提示する関連研究として、記事に対する主張を 意味の階層ごとにグループ化する研究があります。 ヤンらは、 記事に対するSNSの主張に対して 【図3 凡例】 意味の類似度をもとに階層的クラスタリングを行い、 【OK↘】 意味の階層ごとに グループ化された主張を提示する手法を提案しました。 しかしこの手法では、主張だけを基に グループ化を行うため、 【↙OK】 異なる出来事に対する 「類似した主張」がグループ化されてしまう問題があると考えました。 【←ワクチン ←飲み薬】 例えば、「ワクチンの安全性」に関する主張と 「飲み薬の安全性」に関する主張が 同じグループに属してしまいます。 これでは、ワクチンに関心がある読者にとっては不要な 「飲み薬の主張」を 読者に提示してしまう可能性があります。 【↘戻す】 そこで本研究では、類似した出来事に限定して 「異なる主張の提示」を行うことを考えました。 ~~ボツ~~ 主張の違いを提示する関連研究として、記事に対する主張を意味の階層ごとにグループ化する研究があります。
  5. 本研究では、「類似した出来事の異なる主張を把握できる ニュース推薦手法の提案」を目的とします。 【薬】 具体的には、出来事の全容の把握のために 【薬 → ワクチン】 飲み薬や ワクチンに関する出来事が 分かれるように 記事をグループ化し、 【2. 上の主張クラスタ】 出来事のグループごとに主張の文をグループ化し、 【3. 下】 読者が関心を持っている記事と同じ出来事を扱う 主張の文の複数のグループを提示します。 【4. 上】 その後、それぞれの主張の文に紐づく記事を 読者に推薦します。
  6. (speed up) 【RoBERTaの文】 ここで、本研究で使用した3つの既存手法を説明します。 RoBERTaは 記事などの豊富な英語表現を学習した機械学習モデルで、 モデルの改変と追加の学習を行うことで 文の分類に応用することができます。 Sentence-BERTは 文章の埋め込みベクトルを生成する機械学習モデルで、 このベクトルによって 文脈を加味した「文章の意味の比較」をすることができます。 → k-NN分類法は → クラスタリング済みの記事が存在するときに 新規の記事が属する「クラスタ」を推定する手法です。 いずれの手法も以降のスライドで詳細に説明します。 ~~ボツ~~ 記事などの160GBの英語表現を50万回学習した機械学習モデルで、
  7. 提案手法ではまず RoBERTaを応用して 記事の文を 「出来事の文と主張の文」 に 分類しました。 【NN x 2】 分類器の作成のため、RoBERTaに「ニューラルネットワーク」と「シグモイド関数」を接続し、 【→主張 or 出来事】 RoBERTaの出力を 「入力文が主張の文である確率」 に 変換しました。 【↙IBM左下】 その後、主張の文と出来事の文のデータセットを用いて改変したモデルの転移学習を行いました。 【↖RoBERTa】 この学習は、RoBERTaが事前に学習した豊富な英語表現を 【→分類器】 文の分類に活用するための追加の学習です。 ~~ボツ~~
  8. 改変したモデルの転移学習には、Claimの文とEvidenceの文のデータセットであるIBM Debaterを使用しました。 IBM Debaterは Wikipediaの英文を手動でラベル付けしたデータセットです。 このデータセットの約2000個のClaimの文は、 「トピックを補足する一般的で簡潔な文」 と 定義されています。 例えば表1のClaimの文は、炭素排出量のトピックについて 記者が伝えるべきだと解釈した森林伐採の説明をしています。 このように Claimの文は 本研究の主張の定義に準じる文であったため、主張の文の分類に利用できると考えました。 一方で 約4000個のEvidenceの文は、 「トピックの文脈の中でClaimを補足する文」 と 定義されています。 例えば表1のEvidenceの文は、具体的な数字や森林の所在地名を用いた 記者の解釈に依存しない 事象の説明をしています。 このように Evidenceの文は 本研究の出来事の定義に準じる文であったため、出来事の文の分類に利用できると考えました。
  9. (5:00) 文の分類を行った後、Sentence-BERTなどを用いて 「記事の出来事」と「主張の文」のクラスタリングを行いました。 【1.】 まず、Sentence-BERTを用いて 「出来事と分類した文を記事ごとに結合した文章」 と 「主張と分類した文」の 埋め込みベクトルを生成しました。 【2. 出来事 → 主張】 その後、それぞれの埋め込みベクトルを基に 出来事と 主張の 2回に分けて階層的クラスタリングを行いました。 【→戻す】 この順序で階層的クラスタリングを行うのは、記事が出来事に対して主張を述べるものであり、出来事と主張の意味が階層構造をもつと考えられるためです。 それぞれのクラスタリングでは、コサイン値を用いて 埋め込みベクトル間の距離を比較し、 この距離とウォード法を用いて クラスタ間の距離を比較しました。 以上の操作により、類似した出来事の異なる主張を 主張の文のクラスタで提示しました。
  10. 最後に、k-NN分類法を用いて 「読者が関心をもつ出来事」を扱う 記事のクラスタを推定します。 【↓𝐴】 ここでは、読者が関心をもっている記事の 【↓𝒂】 出来事の文章の埋め込みベクトルを生成し、 【 ←𝒖 1 𝒖 2 】 「このベクトルと距離が近い埋め込みベクトル」を多くもつ 記事のクラスタを 読者に推薦します。 【←※】 本研究では 研究範囲を「多様な主張の提示」に限定し、クラスタリングまでの実験を行いました。 ~~ボツ~~ まず、読者が関心をもっている記事 𝐴 の文を出来事か主張かで分類します。 次に、記事 𝐴 について 出来事の文章の埋め込みベクトル スモール 𝒂 を生成します。 その後、クラスタリング済みの記事の群から ベクトルスモール 𝒂 と距離が近い 𝒌 個の埋め込みベクトルを取得します。 最後に、埋め込みベクトルの取得数が最も多かったクラスタの記事を 読者に推薦します。 この記事が「読者が関心をもつ出来事」を扱う記事となります。
  11. クラスタリングの実験では、類似した出来事の異なる主張が提示できるクラスタが 生成できたかを確認しました。 入力にはCOVIDナインティーン News Articlesの 5000件の記事を使用しました。 クラスタを分けるクラスタ間距離は0.85に設定しました。 クラスタリングを行った後、文字数が多い1つの記事のクラスタを抽出し、 主張の文のうち 類似した出来事を扱う文の割合を 確認しました。 また、同一の主張のクラスタに 類似した主張が属すかを 確認しました。 加えて、異なる主張のクラスタに 類似しない主張が属すかを 確認しました。 ~~ボツ~~ 【図の点】 この値は、図12でクラスタ数の減少が緩やかになり始めるクラスタ間距離として設定しています。 この距離は、より類似しない出来事・主張がクラスタにまとめられ始める距離に対応します。
  12. (7:10) 実験の結果、類似した出来事の異なる主張のクラスタを 得ることができました。 (難) 抽出した記事のクラスタでは、主張の文の13件中10件が 感染対策を 対象としていました。 このことから、類似した出来事に限定した 主張の文のクラスタが 得られたことがわかります。 【eat】 また、このクラスタから作成した「主張の文のクラスタ」では、 Try not to eat in restaurants や 【sports】 Outdoor exercise will be banned といった 【戻す】 飲食時や運動時の感染対策に対する主張が それぞれグループ化していました。 このことから、同一の主張のクラスタに 類似した主張が属していることがわかります。 また、異なるクラスタに 「類似した場面の感染対策」に対する主張は 1つも存在しませんでした。 このことから、異なる主張のクラスタには類似しない主張が属することがわかります。 ~~ボツ~~ 【表1】 表4のクラスタc_1を見ると、 Try not to eat in restaurants や Only takeout around the clock のように、同一の主張のクラスタに 飲食時の感染対策に対する類似した主張が属していることがわかります。
  13. 実験結果をさらに分析したところ、「クラスタの分け方の工夫」や 「クラスタの選別」が 必要だと考えました。 主張の文の13件中3件は 感染対策に対する主張ではなく、 【蔓延 → 大変】 「感染が蔓延」 「仕事が大変」という主張でした。 【c3】 また、これらの主張が属するクラスタの文を確認したところ、 同一のクラスタに 【c4】 類似した主張としてまとまっていることがわかりました。 【戻す】 したがって、この まとまった2種類の主張を 「読者に 提示 しないこともできる」 と考えました。 つまり、読者の目的に合った 「主張の提示」ができるように 「クラスタの分け方の工夫」や 「クラスタの選別」が 必要だと考えました。 具体的には、2種類の主張を クラスタに含めないような 「クラスタ間距離の設定の工夫」が必要だと考えています。 (難) また、主語や述語の違いを重視するような クラスタリング後の 「品詞ごとの類似度の比較」が必要だと考えています。
  14. まとめと今後の課題です。 本研究では、ニュース読者が 記事の出来事の一部しか把握できないことを問題視し、 類似した出来事の異なる主張を把握できる ニュース推薦手法を提案しました。 また、記事のクラスタ内の主張の文の 約77%が 類似した出来事と なりました。 加えて、「異なる主張のクラスタ」で 「異なる主張」を 提示できることを確認しました。 今後の課題として、読者の目的に合った 「主張のクラスタ」を提示するために、 「クラスタ間距離の設定の工夫」や クラスタリング後の 「品詞ごとの類似度の比較」が 必要だと考えました。 ~~ボツ~~ 提案手法の実験の結果、Claimの文とEvidenceの文を学習した分類器を使用し,記事を適合率1 再現率0.4で分類することができました。 構文を加味した分類や 分類用データセットに適した学習用データセットの検討が必要だと考えました。
  15. 参考文献は以下の通りです。
  16. 以上です。 ご清聴ありがとうございました。
  17. 出来事の把握のための関連研究として、「SNSに推薦されていない主張」を提示する研究があります。 ナグレンドラらは、 あるSNSユーザーが関心をもつ出来事について、 「SNSのアルゴリズムに推薦されていない主張」を提示する手法を提案しました。 【図3外側】 具体的には、ユーザーが普段「いいね」しないような内容の主張を 円の外側に表示するシステムを提案しました。 【戻す】 しかしこの手法では、どの主張がどれほど異なるかを提示しないため、 出来事の全容の把握は難しいと考えました。 ~メモ~ この研究の目的は「フィルターバブルの自覚」であって「異なる主張の把握」ではないんだよな 具体的な出来事、主張の提示に踏み込めていない(コンテンツベースなのでやろうと思えばできそう) 粒度が大きすぎて細かい主張の違いを提示できない 出来事の粒度を機械が選別しており、ユーザが選別できない(上のUIから設定可能) 同じ出来事に対する主張の違いを提示できない 全く別の出来事・主張を提示している、階層を意識していない(階層の話は前頁でしていない、上のUIから階層の調節は可能) 微妙な違いを提示できていない(カテゴリ絞れば提示できるのかも) 1つ1つの主張がどう違うかを捉えていない クリック率に基づいている SNSはユーザが過去に「いいね」した主張の文を基にしている(恐らくユーザ表現の埋め込みを生成している) 「SNSに提示される主張(発信者)」を円の内側に 「SNSに提示されない主張(発信者)」を円の外側に表示 ボツ: 「SNSに提示される主張」と「提示されない主張」を区別して表示 主張の内容は参照できるが 異なる主張であるかがわからない 主張の区別はユーザが「いいね」した投稿に基づいており 主張の内容や差異は提示していない 出来事の全容の把握が難しい
  18. 提案手法の概要です。 本手法では、記事の文章が「出来事を述べる文」か「主張を述べる文」かで 二分できると仮定します。 【ⅰ】 まず、記事の文章を出来事の文と主張の文に分類します。 【ⅱ】 次に、「出来事の文章の類似度」をもとに記事に階層的クラスタリングを適用します。 【ⅲ】 その後、「主張の文の類似度」をもとに主張の文に階層的クラスタリングを適用します。 【ⅳ】 最後に、「読者が関心を持っている記事」と同じ出来事を扱う記事のクラスタを k-NN分類法によって推定します。 【吹き出し → 橙 → 黒】 以上の操作により、「読者が関心を持っている出来事」の主張の文のクラスタと記事の推薦を行います。 【主張階層】 本研究では研究範囲を「多様な主張の提示」に限定し、手順3の 主張のクラスタリングまでの実験を行いました。
  19. 実験ではまず、IBM Debaterを学習した分類器の 記事での分類性能を確認しました。 具体的には、IBM Debaterを高い「適合率と再現率」で分類した分類器を 記事を用いて評価しました。 ここでの適合率は 「主張と分類した文のうち 実際に主張の文であった割合」を意味します。 また、再現率は 「全ての主張の文のうち 正しく分類できた主張の文の割合」を意味します。 分類する記事のデータセットには、COVIDナインティーン News Articlesを使用しました。 このデータセットには、インド,韓国,日本の約8万件の英記事が含まれます。 このうち163文に 出来事と主張のラベル付けを手動で行い、記事の分類での「適合率と再現率」を算出しました。 【表2の基準1】 ラベル付けの基準は、IBM Debaterのラベル付けを参考にして表2のように設定しました。 出来事のラベルは、「記者の解釈に依存しない事象を述べる文」や、 「指示語を含み 別の文を補助するような文」に付与しました。 主張のラベルは、「事象に対する解釈を述べる文」や、 「主語や述語の一般性が高い文」に付与しました。
  20. 分類器の評価の結果、構文解析やデータセットの再検討が必要だと考えました。 記事の分類における適合率は1となったため、 2019年の最先端のモデルであるRoBERTaの転移学習が有効であったと考えます。 一方で再現率は 0.4 であり,小さい値となってしまいました。 そこで、どのような出来事の文を主張の文と誤分類するかを分析しました。 分析の結果、IBM Debater では出来事の文に指示語が多く含まれていたのに対し、 誤分類した文では”there is”のような指示語でない”there”の構文が用いられていました。 このような誤分類を少なくするためには、構文を加味した分類器が必要だと考えました。 また、IBM Debaterは記事から作成したデータセットではないため、分類用データセットに適した学習用データセットが必要だと考えました。
  21. 流れを分断してしまいそう ない方がマシ?
  22. Social distancing Stem the spread of the illness Qurantine 384次元 Yangらは0.79
  23.     - 作品がCC-BY-SAでリリースされていることを示すライセンス表示         - 権利者の名前を入れる         - 加工しても同じライセンスで他人にもシェア         - 商用利用OK     - a)ライセンスのテキストへのハイパーリンクまたはURL     - またはb)ライセンスのコピーのいずれかを含める
  24. よろしくお願いします。 「記事トピックのクラスタを用いた多言語ニュース推薦手法の提案」と題しまして、AL18036の片岡が発表します。
  25. 目次です。 次の7つの項目についてお話します。
  26. 研究の背景として、「ニュース読者が“出来事の一部"しか把握できないこと」を問題視しています。 その要因として、「記者が出来事を解釈し、主張したい要素を切り取っていること」が挙げられます。 同じ出来事を書く記事でも、地域の文化ごとに「記者の解釈」は異なります。 また、地域の政治によっても「記者の切り取り方」が異なってきます。 もう1つの要因として、時間的コストによって全ての主張を把握しきれないことが挙げられます。 Web上には多くの主張が存在しますが、それら全てを把握することは難しいです。 また、海外の記事を読む際には「読解や翻訳のコスト」もかかり、把握が難しくなります。
  27. そこで本研究では、「ニュース読者が出来事とそれに対する主張を把握できる推薦手法」の提案を目指します。 ここでは、 出来事のことを「記者の解釈に依存しない“事象”」 主張のことを「記者が伝えるべきだと判断した“出来事の解釈”」であると定義します。 この目的を果たすシステムとして、以下の3つの手順を検討しました。 (図の上にポインタ) まず、「閲覧記事と同じ出来事を書く記事」をWebから抽出します。 次に、抽出した記事の「主張の文章」を抽出します。 最後に、手軽に把握できる「主張の文のクラスタ」を推薦します。 このとき、抽出と推薦のために、 記事の文章間で出来事の類似度と主張の類似度の算出が必要になると考えました。
  28. しかし、従来の「”文章の話題”の定量化手法」は、「”出来事の類似度”と”主張の類似度”の算出」に不向きであると考えました。 ここでいう「話題」は、「出来事の要約」であると定義します。 (図にポインタ) 左は、ブレイらのLDAです。 この手法では、「野球」「優勝」といった話題を表す単語同士の「関係性」が得られないため、より近い出来事で記事を絞り込む手法としては最適でないと考えました。 右は、レイマーズらのSentence-BERTです。 このモデルに記事の全文を入力して得たベクトルでは、文章中の出来事と主張を区別することができません。 (↓ボツ) この手法では、単語同士の関係性が得られないため、より近い出来事で記事を絞り込むのには最適でないと考えました。 これは、LDAが「記事に関連の深い単語」と「その関連度」しか出力しないためです。 この手法では、単語同士の関係性は考慮できますが、記事全文を入力してしまうと文章中の出来事と主張の区別ができません。 これは、Sentence-BERTが、入力文全体の文意のベクトルしか出力できないために起こります。
  29. そこで、記事の「出来事と主張のクラスタ」を用いて、多言語ニュースの「主張の文」の推薦手法を提案します。 本手法では、記事の文章が「出来事を述べる文」か「主張を述べる文」に分類できると仮定します。 まず前処理として、DeepL APIを用いて世界の記事を英訳します。 その後、記事の文章を出来事の文と主張の文に分類します。 次に、「出来事の文章の類似度」を基に、記事をクラスタリングします。 最後に、主張の文を、類似度を基にクラスタリングします。 以上の操作より、「閲覧記事とより類似した出来事」の主張の文のクラスタを推薦します。 以降のスライドでは、分類とクラスタリングについて詳細に説明します。
  30. 「出来事の文と主張の文」の分類器には、Transformerを応用します。 入力する文には、RoBERTaを用いて単語埋め込みを行います。 これにより、6300万件の記事などを事前学習した「精度の高い文のベクトル化」が行えます。 次に、「Transformerのエンコーダ部分」を応用して分類を行います。 右図は、Googleが文章表現を事前学習した汎用モデルを拡張したものです。 このモデルをテキスト分類に応用するために、ラベル付きデータセットを追加で学習します。 データセットには、IBMのDebater Datasetを使用します。 このデータセットは、英文を「EvidenceかClaimか」でラベル付けしたものです。 この学習によって、世界の記事の文章が「出来事と主張」に分類できることを期待します。 (ボツ) Transformerは機械翻訳などに使われる機械学習モデルで、 エンコード部分を用いて「テキスト分類の高速な並列演算」を実現することができます。 次に、Transformerを応用した分類を行います。 BERTは、優れた文章表現を事前学習した「汎用性が高いモデル」です。 このモデルをテキスト分類に応用するために、ラベル付きデータセットで再度学習します。
  31. 「記事の出来事」と「主張の文」のクラスタリングには、Sentence-BERTを利用します。 Sentence-BERTは、 高速なクラスタリングのために事前学習されたモデルであり、文章のベクトル化が行えます。 ベクトル化された文章の比較にはコサイン類似度を使用します。 求めた類似度から、Ward法を用いて出来事と主張の2回に分けて階層的クラスタリングを行います。 階層的クラスタリングを行う理由は、出来事の意味が階層的であると考えられるためです。 主張の文のクラスタは、読者が望む粒度で推薦します。 (ボツ) 主張の文のクラスタは、読者の時間的コストに見合った数だけ推薦します。
  32. 研究状況です。 EvidenceとClaimのデータセットを用いて、出来事と主張の文の分類に部分的に成功しました。 精度の確認のため、Transformer分類器で日本の記事を分類しました。 分類器は、追加学習によって適合率が0.994となりました。 Evidenceに分類された多くの文は、 「記者の解釈に依存しない出来事」を正しく示していました。 また、Claimに分類された多くの文は、 記者が切り取った「組織や人の主張」を正しく示していました。 一方で、一部の誤分類された文には、 1文中に「出来事の言葉と主張の言葉」が混ざっていたり、 「思いがけない風が吹く」のように、出来事を意味しそうな主張の言葉が含まれていたりしました。 この結果から、EvidenceとClaimのラベルを、ゼロイチの2値ではなく連続値で出力し、クラスタリングすることを検討しています。
  33. まとめです。 本研究では、「記事の出来事と主張のクラスタを用いた多言語ニュースの主張の文の推薦手法」を提案します。 この手法により、手軽に出来事の全容が把握できる、「主張の文のクラスタ」の推薦を目指します。 そのためにまず、記事の文を「出来事の文と主張の文」に分類します。 その後、出来事の文で記事をクラスタリングし、続いて主張の文をクラスタリングします。 実験では、EvidenceとClaimを学習し、出来事と主張の文の分類が部分的に成功することを確認しました。 実験で誤分類した結果を分析し、分類器の精度向上を検討しています。
  34. 今後は、以下のように進行していく予定です。
  35. 以下、参考文献になります。
  36. ご清聴ありがとうございました
  37. ご清聴ありがとうございました。 質疑応答に入らせていただきます。 よろしくお願いします。
  38. しかし、従来の「”文章の話題”の定量化手法」は、「”出来事の類似度”と”主張の類似度”の算出」に不向きであると考えました。 ここでいう「話題」は、「出来事の要約」であると定義します。 (図にポインタ) 左は、ブレイらのLDAです。 この手法では、「野球」「優勝」といった話題を表す単語同士の「関係性」が得られないため、より近い出来事で記事を絞り込む手法としては最適でないと考えました。 右は、レイマーズらのSentence-BERTです。 このモデルに記事の全文を入力して得たベクトルでは、文章中の出来事と主張を区別することができません。 (↓ボツ) この手法では、単語同士の関係性が得られないため、より近い出来事で記事を絞り込むのには最適でないと考えました。 これは、LDAが「記事に関連の深い単語」と「その関連度」しか出力しないためです。 この手法では、単語同士の関係性は考慮できますが、記事全文を入力してしまうと文章中の出来事と主張の区別ができません。 これは、Sentence-BERTが、入力文全体の文意のベクトルしか出力できないために起こります。
  39. FashionとSportsを例示 ボツ理由: 図は主張ではなく出来事 全ての出来事を把握したいのではなく、ある出来事の全容を把握したい(主張ー>出来事としても意味が通らない)
  40. 分類の詳細です。 「出来事の文と主張の文」の分類には “RoBERTa”を応用した分類器を使用しました。 【図のRoBERTa】 RoBERTaは記事などの約160ギガバイトの英語表現を50万回学習した機械学習モデルで、 【NNx2 → IBM】 モデルの改変と 追加の学習を行うことで分類器を作成することができます。 【戻す】 本手法では、RoBERTaに2層のNNとシグモイド関数を接続しました。 NNは 複数の特徴のベクトルを1つのベクトルに変換するために接続しています。 シグモイド関数は ベクトルを「入力文が主張の文である確率」に変換するために接続しています。 その後、改変したRoBERTaモデルの追加の学習のために バイナリクロスエントロピーを使用しました。 これにより、「出力した分類の確率」と「正解の分類の確率」との誤差が小さくなるようにモデルの学習を行うことができます。
  41. 「記事の出来事」と「主張の文」のクラスタリングには、Sentence-BERTを利用します。 Sentence-BERTは、 高速なクラスタリングのために事前学習されたモデルであり、文章のベクトル化が行えます。 ベクトル化された文章の比較にはコサイン類似度を使用します。 求めた類似度から、Ward法を用いて出来事と主張の2回に分けて階層的クラスタリングを行います。 階層的クラスタリングを行う理由は、出来事の意味が階層的であると考えられるためです。 主張の文のクラスタは、読者が望む粒度で推薦します。 (ボツ) 主張の文のクラスタは、読者の時間的コストに見合った数だけ推薦します。
  42. 「記事の出来事」と「主張の文」のクラスタリングには、Sentence-BERTを利用します。 Sentence-BERTは、 高速なクラスタリングのために事前学習されたモデルであり、文章のベクトル化が行えます。 ベクトル化された文章の比較にはコサイン類似度を使用します。 求めた類似度から、Ward法を用いて出来事と主張の2回に分けて階層的クラスタリングを行います。 階層的クラスタリングを行う理由は、出来事の意味が階層的であると考えられるためです。 主張の文のクラスタは、読者が望む粒度で推薦します。 (ボツ) 主張の文のクラスタは、読者の時間的コストに見合った数だけ推薦します。
  43. 以下、参考文献になります。
  44. 参考文献は以下の通りです。
  45. まとめです。 本研究では、ニュース読者が記事の出来事の一部しか把握できないことを問題視し、 類似した出来事の異なる主張を把握できるニュース推薦手法を提案しました。 また、記事のクラスタ内の主張の文の約77%が類似した出来事となりました。 加えて、異なる主張のクラスタで異なる主張を提示できることを確認しました。 ~~ボツ~~ 提案手法の実験の結果、Claimの文とEvidenceの文を学習した分類器を使用し,記事を適合率1 再現率0.4で分類することができました。
  46. 今後の課題として、より再現率が大きい分類器の作成のために、 構文を加味した分類や 分類用データセットに適した学習用データセットの検討が必要だと考えました。 また、読者の目的に合った主張のクラスタを提示するために、 クラスタ間距離の設定の工夫や クラスタリング後の品詞ごとの類似度の比較が必要だと考えました。