ipsjifat201909

NTCIR-15ウェブ検索・
再現可能性タスク (WWW-3)
および対話評価タスク
(DialEval-1)への誘い
酒井哲也
tetsuyasakai@acm.org
10th September, 2019
@IPSJ IFAT 136, 工学院大学

発表概要
1. NTCIRについて
2. WWWタスクのこれまで
3. CENTREタスクのこれまで
4. NTCIR-15 WWW-3タスク
5. STCタスクのこれまで
6. NTCIR-15 DialEval-1タスク
7. まとめ

情報検索(IR)の評価型会議:
competitionというよりcollaboration
• TREC (Text Retrieval Conference, since 1992)
• NTCIR (NII Testbeds and Community for
Information access Research, since 1999)
• CLEF (Conference and Labs of the Evaluation
Forum, since 2000)
• FIRE (Forum for Information Retrieval
Evaluation, since 2008)
世界中の研究者が同じ条件下で実験を行い
技術進歩を加速させる場

NTCIR 20(+α)周年記念本が
Springerより2020年に出版予定!
• オンラインドラフト:
http://sakailab.com/ntcirbookdraft/
• エディタ: Noriko Kando, Douglas Oard, Tetsuya
Sakai
• 著者: Mark Sanderson, Noriko Kando, Tetsuya
Sakai, Kazuaki Kishida+, Manabu Okumura+,
Makoto Iwayama+, Tsuneaki Kato, Yohei Seki,
Isao Goto, Teruko Mitamura+, Masaharu
Yoshioka+, Ruihua Song+, Makoto P. Kato, Akiko
Aizawa+, Cathal Gurrin+, Douglas Oard

WWW (We Want Web)
TREC 2014 NTCIR-13 (2017)
NTCIR-14 (2019)

ウェブ検索は
「解決済みの研究課題」ではない
• 現状ではキーワードマッチングが基本で、
情報要求を理解してくれるわけではない
• 検索エンジンが決して返してくれない適合
ページがあるかも知れないが、ユーザには
わからない
• WWWのミッション: 現状の技術課題を明ら
かにし、進歩を長期的に検証する

WWWタスク仕様 (1)
トピック集合
検索対象コーパス
参加者
ラン
(検索結果)

トピック集合
検索対象コーパス
オーガナイザ参加者
ラン
(検索結果)
プール
プール
プール
:
:
トピックiの上位k件の文書

トピック集合オーガナイザ参加者
ラン
(検索結果)
適合性
判定
結果
(正解)
各トピックに対する
検索結果を評価

NTCIR-13 WWW-1 (英語) の結果
• トピック数: 100
• 検索対象: clueweb12-B13
(約5千万件のウェブページ)
• 豪RMIT [3] がトップ。2位の清華大と統計的
有意差あり [7] 。
• ただしRMITの用いた手法 (順次依存モデル)
はSIGIR 2005のMetzlerらの手法 [9]

NTCIR-14 WWW-2 (英語) の結果
• トピック数: 80 (トピック数設計 [12] に基づき
決定)
• 検索対象: clueweb12-B13
• 清華大 (THUIR) [20] がトップ。他のランのい
くつかと統計的有意差あり [8] 。
• ただしTHUIRの有効なランは既存のlearning
to rank (LambdaMART, AdaRank, Coordinate
Ascent) を適用したもの

3つのR
• 反復可能性 (repeatability)
同じチームが同じ評価データ上で同じ結果を出せる
• 複製可能性 (replicability)
別のチームが，元の実験と同じ評価データ上で同じ
結果を出せる
• 再現可能性 (reproducibility)
別のチームが，元の実験とは異なる評価データ上で
同じ結果を出せる
cf. https://www.acm.org/publications/policies/artifact-review-badging

CENTRE = CLEF/NTCIR/TREC
(replicability and) reproducibility
CLEF
Conferences
and Labs of the
Evaluation
Forum
NTCIR
NII Testbeds and
Community for
Information
access Research
TREC
Text REtrieval
Conference
欧州中心
米国中心アジア中心
世界三大IR評価会議を
またいだメタタスク

CENTRE@NTCIR-14の仕組み (1)
過去の
NTCIR
ターゲット対を複製
T1: 複製サブタスク
A: advanced (高度なラン)
B: baseline (比較対象)
A, B
(ターゲット対)
オーガナイザが選定
T1{A,B}
トピック毎のΔの比較
平均Δの比較
Δ = A - B Δ = A - B

過去の
TREC
過去の
NTCIR
A, B
A, B
T2: 再現サブタスク
ターゲット対を
NTCIRデータ上再現
T2TREC-{A,B}
T1{A,B}
平均Δの比較
Δ = A - B Δ = A - B

過去の
TREC
過去の
NTCIR
A, B
A, B
T2: 再現サブタスク
過去の
IR文献
ターゲット対を
NTCIRデータ上再現
T2TREC-{A,B}
T2OPEN-{A,B}A, B
参加者が選定
T1{A,B}
検索評価有効性
評価のみ

CENTRE@NTCIR-14の評価指標
• トピック毎のΔの複製可能性
- Δの相関係数
- ΔのRMSE (平均二乗誤差の平方根)
• 平均Δの複製・再現可能性
- 効果比 (ER=effect ratio)
新しい実験での平均Δ / 元の実験での平均Δ
ER=1 ⇒ 効果が完璧に複製・再現できた
ER>1 ⇒ 新しい効果のほうが大きい
0<ER<1 ⇒ 新しい効果のほうが小さい
ER<= 0 ⇒ 複製・再現失敗

CENTRE@NTCIR-14
複製サブタスク結果 [13]
• NTCIR-13 WWW-1のRMIT [3] のラン対
(A=順次依存モデル, B=完全依存モデル
[9] ) を複製できるか?
• トピック毎のΔの複製は困難 (MPII [16] )。
• 平均Δの複製は概ね成功(MPII [16] )。
ER (nDCG) = 0.6519
ER (Q) = 0.5508
ER (nERR) = 0.9689

CENTRE@NTCIR-14
再現サブタスク結果 [13]
• TRECにおけるDelaware大 [15] のラン対
(A=web-based working sets, B=collection-
based working sets [2] ) をNTCIRデータで再
現できるか？
• 平均Δの再現は概ね成功 (MPII [16] )
ER (nDCG) = 1.0630
ER (Q) = 1.7116
ER (nERR) = 0.7287

WWW-2トピック集合 WWW-3トピック集合
WWW-2 ターゲットA-run
WWW-2 ターゲットB-run
同一システム
(a) WWW-3 REV (蘇生) A-run
(b) WWW-3 REV (蘇生) B-run
WWW-3 = WWW +CENTRE (1)
全てのWWW-3参加チームには、
WWW-2 + WWW-3 のトピック集合について
検索結果を作成してもらう

同一システム
(c) WWW-3 REP (複製・再現) A-run
(d) WWW-3 REP (複製・再現) B-run
• 複製可能性:
(a)>(b) ⇒ (c)>(d) ? を
WWW-2トピックで検証
• 再現可能性:
(a)>(b) [WWW-2トピック]
⇒
(c)>(d) [WWW-3トピック] を検証
• 技術進歩:
(e) > (a) ? をWWW-3トピックで検証

同一システム
(a)>(b) ⇒ (c)>(d) ? を
⇒
• 技術進歩:
TRECのA-run, B-runを(a)(b)に用いることも可

同一システム
(e) WWW-3 NEW run
(a)>(b) ⇒ (c)>(d) ? を
⇒
• 技術進歩:

STC (Short Text Conversation)
日本語中国語英語
NTCIR-12 STC-1 Twitter,
応答検索
Weibo (微博),
応答検索
NTCIR-13 STC-2 Yahoo! News,
コメント検索・
生成
Weibo,
応答検索・
生成
NTCIR-14 STC-3
Weibo,
指定された
感情の応答
生成
Weibo+英訳,
正解分布の推定
感情対話生成 (CECG) サブタスク
対話品質 (DQ) + ナゲット検出 (ND)
サブタスク
Single-round,
非タスク指向
Multi-round,
タスク指向
(ヘルプデスク)

ヘルプデスク対話自動評価に向けて
• 企業でのヘルプデスク・コールセンターは高コスト
⇒タスク指向multi-round対話システムの需要
• システムの自動評価・自己診断技術の必要性大
• ユーザの多様性に対応させたい

顧客・ヘルプデスク対話の実例
問題の提示
解決策の提示
解決されたことを表明

ターン (顧客)
ターン (ヘルプデスク)
ターン (顧客)
正解分布
判定者
-2 20
対話品質 (Dialogue Quality)
サブタスク (1)
3種の対話品質を個別に評価
Aスコア: タスク達成度 (Accomplishment)
Sスコア: 対話顧客満足度 (Satisfaction)
Eスコア: 対話有効性 (Effectiveness)
(Aスコア)

ターン (顧客)
ターン (顧客)
正解分布
推定分布 (システムY)
判定者
-2 20
対話品質 (Dialogue Quality)
サブタスク (2)
(Aスコア)
(Aスコア)
評価指標による比較

ターン (顧客)
ターン (顧客)
正解分布
推定分布 (システムX)
判定者
-2 20
順序尺度上の分布間の類似度
の重要性 (1)
XとYのいずれが優れている?

正解分布
-2 20
の重要性 (2)
X=Y ???
誤差
誤差
2の分布をビン毎に比較する評価指標
(平均二乗誤差やJSダイバージェンス)は不適

正解分布
-2 20
の重要性 (3)
X > Y!
ビン間の距離の概念を用いた評価指標
(NMD, RSNOD) が適している [11]

対話品質(DQ)の評価指標 [11]
• NMD: Normalised Match Distance (正規化マッチ距離)
累積分布に対しビン毎に絶対差をとるだけ
(Earth Mover’s Distanceの簡単な場合)
• RSNOD: Root Symmetric Normalised Order-aware
Divergence
(対称正規化順序ダイバージェンスの平方根)
(1) DW(i): 各ビンiに対し、ビン間距離により重み付けし
た平方和
(2) OD: 正解分布において値が正である全ビンiに関す
るDW(i)の平均

タスク指向対話におけるナゲット
顧客の
初期状態
(問題に直面)
顧客の
目標状態
(問題解決)
中間
状態
ナゲットであるターンにより目標状態に近づく
ナゲットでないターン
顧客 or ヘルプデスクのターンのうち、
顧客を目標状態 (問題解決) に近づけるのに役立つもの

ターンの分類体系 [17]
顧客 (Customer) ヘルプデスク
(Helpdesk)
トリガナゲット CNUG0: 問題をヘル
プデスクに伝える
通常ナゲット CNUG HNUG
ゴールナゲット CNUG*: 問題解決に
至ったことをヘルプ
デスクに伝える
HNUG*: 解決策を顧
客に伝える
非ナゲット CNaN HNaN

ターン (顧客)
ターン (顧客)
顧客ナゲットタイプ
上の正解分布
推定分布
判定者
ナゲット検出 (Nugget Detection)
サブタスク (1)

ターン (顧客)
ターン (顧客)
ヘルプデスクナゲットタイプ
上の正解分布
推定分布
判定者
サブタスク (2)

ターン (顧客)
ターン (顧客)
推定分布
サブタスク (3)
正解分布
ターン毎に分布を
RNSS (誤差二乗和に基づく)
とJSダイバージェンスで比較
⇒ 対話中の全ターンについて
平均
(ビンが名義的なので
距離の概念は不要)

STC-3 DQ+NDサブタスクのデータ
中国語対話 (Weiboよりクロール) 英語対話 (人手で中英翻訳)
Training/
Validation
3,700件
(対話データDCH-1 [18]
を流用)
390件
(STC-3 評価用対話)
390件
1,672件
(予算と時間の制約により
全ては翻訳できず)
Test

STC-3 DQ,ND (英語) の主な結果 [17]
• DQ (A-score): オーガナイザのBiLSTMによるベース
ラインBL-lstmがトップ
• DQ (S-score): 早稲田大学の以下のラン[5]がトップ
- SLSTC-run1 (損失関数に隣接するビンの概念を導
入 + DQとNDを同時学習)
- SLSTC-run2 (BERTによる分散表現を利用)
• DQ (E-score): SLSTC-run2、BL-lstmがトップ
• ND: BL-lstmがトップ
学習データが多い中国語のほうが全般的に結果が良好

DialEval-1 = DQ + ND (STC-3と同じ)
• 対話品質 (DQ) サブタスク
入力: ヘルプデスク対話
出力: 対話品質スコア(A, S, E) の推定分布
評価指標: NMD, RSNOD
• ナゲット検出 (ND) サブタスク
入力: ヘルプデスク対話
出力: 各ターンのタイプ分類
(CNUG0/CNUG/CNUG*/CNaN, HNUG/HNUG*/HNaN) の
推定分布
評価指標: RNSS, JSD
順序的尺度用
名義的尺度用

DialEval-1のデータ
中国語対話 (Weiboよりクロール) 英語対話 (人手で中英翻訳)
Training/
Validation
Test
3,700件
(対話データDCH-1 [18]
を流用)
390件
300件
(DialEval-1評価用対話)
300件
(DialEval-1評価用対話)
390件
2,251件 (DCH-1の61%)
(STC-3の1,672件に
翻訳データを追加中)

スケジュール
是非ご検討ください!

For more information…
• WWW-3
www3org@list.waseda.jp (オーガナイザML)
http://sakailab.com/www3 (ウェブサイト)
http://twitter.com/ntcirwww (Twitter)
• DialEval-1
dialeval1org@list.waseda.jp (オーガナイザML)
http://sakailab.com/dialeval1 (ウェブサイト)
http://twitter.com/ntcirdialeval (Twitter)

ipsjifat201909

Recommended

Recommended

More Related Content

Similar to ipsjifat201909

Similar to ipsjifat201909 (20)

More from Tetsuya Sakai

More from Tetsuya Sakai (20)

Recently uploaded

Recently uploaded (10)

ipsjifat201909