More Related Content Similar to ipsjifat201909 (20) More from Tetsuya Sakai (20) ipsjifat2019093. 情報検索(IR)の評価型会議:
competitionというよりcollaboration
• TREC (Text Retrieval Conference, since 1992)
• NTCIR (NII Testbeds and Community for
Information access Research, since 1999)
• CLEF (Conference and Labs of the Evaluation
Forum, since 2000)
• FIRE (Forum for Information Retrieval
Evaluation, since 2008)
世界中の研究者が同じ条件下で実験を行い
技術進歩を加速させる場
4. NTCIR 20(+α)周年記念本が
Springerより2020年に出版予定!
• オンラインドラフト:
http://sakailab.com/ntcirbookdraft/
• エディタ: Noriko Kando, Douglas Oard, Tetsuya
Sakai
• 著者: Mark Sanderson, Noriko Kando, Tetsuya
Sakai, Kazuaki Kishida+, Manabu Okumura+,
Makoto Iwayama+, Tsuneaki Kato, Yohei Seki,
Isao Goto, Teruko Mitamura+, Masaharu
Yoshioka+, Ruihua Song+, Makoto P. Kato, Akiko
Aizawa+, Cathal Gurrin+, Douglas Oard
6. WWW (We Want Web)
TREC 2014 NTCIR-13 (2017)
NTCIR-14 (2019)
11. NTCIR-13 WWW-1 (英語) の結果
• トピック数: 100
• 検索対象: clueweb12-B13
(約5千万件のウェブページ)
• 豪RMIT [3] がトップ。2位の清華大と統計的
有意差あり [7] 。
• ただしRMITの用いた手法 (順次依存モデル)
はSIGIR 2005のMetzlerらの手法 [9]
12. NTCIR-14 WWW-2 (英語) の結果
• トピック数: 80 (トピック数設計 [12] に基づき
決定)
• 検索対象: clueweb12-B13
• 清華大 (THUIR) [20] がトップ。他のランのい
くつかと統計的有意差あり [8] 。
• ただしTHUIRの有効なランは既存のlearning
to rank (LambdaMART, AdaRank, Coordinate
Ascent) を適用したもの
15. CENTRE = CLEF/NTCIR/TREC
(replicability and) reproducibility
CLEF
Conferences
and Labs of the
Evaluation
Forum
NTCIR
NII Testbeds and
Community for
Information
access Research
TREC
Text REtrieval
Conference
欧州中心
米国中心アジア中心
世界三大IR評価会議を
またいだメタタスク
20. CENTRE@NTCIR-14
複製サブタスク結果 [13]
• NTCIR-13 WWW-1のRMIT [3] のラン対
(A=順次依存モデル, B=完全依存モデル
[9] ) を複製できるか?
• トピック毎のΔの複製は困難 (MPII [16] )。
• 平均Δの複製は概ね成功(MPII [16] )。
ER (nDCG) = 0.6519
ER (Q) = 0.5508
ER (nERR) = 0.9689
24. WWW-2トピック集合 WWW-3トピック集合
WWW-2 ターゲットA-run
WWW-2 ターゲットB-run
同一システム
(a) WWW-3 REV (蘇生) A-run
(b) WWW-3 REV (蘇生) B-run
(c) WWW-3 REP (複製・再現) A-run
(d) WWW-3 REP (複製・再現) B-run
• 複製可能性:
(a)>(b) ⇒ (c)>(d) ? を
WWW-2トピックで検証
• 再現可能性:
(a)>(b) [WWW-2トピック]
⇒
(c)>(d) [WWW-3トピック] を検証
• 技術進歩:
(e) > (a) ? をWWW-3トピックで検証
WWW-3 = WWW +CENTRE (2)
25. WWW-2トピック集合 WWW-3トピック集合
WWW-2 ターゲットA-run
WWW-2 ターゲットB-run
同一システム
(a) WWW-3 REV (蘇生) A-run
(b) WWW-3 REV (蘇生) B-run
(c) WWW-3 REP (複製・再現) A-run
(d) WWW-3 REP (複製・再現) B-run
• 複製可能性:
(a)>(b) ⇒ (c)>(d) ? を
WWW-2トピックで検証
• 再現可能性:
(a)>(b) [WWW-2トピック]
⇒
(c)>(d) [WWW-3トピック] を検証
• 技術進歩:
(e) > (a) ? をWWW-3トピックで検証
WWW-3 = WWW +CENTRE (3)
TRECのA-run, B-runを(a)(b)に用いることも可
26. WWW-2トピック集合 WWW-3トピック集合
WWW-2 ターゲットA-run
WWW-2 ターゲットB-run
同一システム
(a) WWW-3 REV (蘇生) A-run
(b) WWW-3 REV (蘇生) B-run
(c) WWW-3 REP (複製・再現) A-run
(d) WWW-3 REP (複製・再現) B-run
(e) WWW-3 NEW run
• 複製可能性:
(a)>(b) ⇒ (c)>(d) ? を
WWW-2トピックで検証
• 再現可能性:
(a)>(b) [WWW-2トピック]
⇒
(c)>(d) [WWW-3トピック] を検証
• 技術進歩:
(e) > (a) ? をWWW-3トピックで検証
WWW-3 = WWW +CENTRE (4)
28. STC (Short Text Conversation)
日本語 中国語 英語
NTCIR-12 STC-1 Twitter,
応答検索
Weibo (微博),
応答検索
NTCIR-13 STC-2 Yahoo! News,
コメント検索・
生成
Weibo,
応答検索・
生成
NTCIR-14 STC-3
Weibo,
指定された
感情の応答
生成
Weibo+英訳,
正解分布の推定
感情対話生成 (CECG) サブタスク
対話品質 (DQ) + ナゲット検出 (ND)
サブタスク
Single-round,
非タスク指向
Multi-round,
タスク指向
(ヘルプデスク)
31. ターン (顧客)
ターン (ヘルプデスク)
ターン (顧客)
ターン (ヘルプデスク)
正解分布
判定者
-2 20
対話品質 (Dialogue Quality)
サブタスク (1)
3種の対話品質を個別に評価
Aスコア: タスク達成度 (Accomplishment)
Sスコア: 対話顧客満足度 (Satisfaction)
Eスコア: 対話有効性 (Effectiveness)
(Aスコア)
32. ターン (顧客)
ターン (ヘルプデスク)
ターン (顧客)
ターン (ヘルプデスク)
正解分布
推定分布 (システムY)
判定者
-2 20
対話品質 (Dialogue Quality)
サブタスク (2)
(Aスコア)
(Aスコア)
評価指標による比較
33. ターン (顧客)
ターン (ヘルプデスク)
ターン (顧客)
ターン (ヘルプデスク)
正解分布
推定分布 (システムX)
推定分布 (システムY)
判定者
-2 20
順序尺度上の分布間の類似度
の重要性 (1)
XとYのいずれが優れている?
36. 対話品質(DQ)の評価指標 [11]
• NMD: Normalised Match Distance (正規化マッチ距離)
累積分布に対しビン毎に絶対差をとるだけ
(Earth Mover’s Distanceの簡単な場合)
• RSNOD: Root Symmetric Normalised Order-aware
Divergence
(対称正規化順序ダイバージェンスの平方根)
(1) DW(i): 各ビンiに対し、ビン間距離により重み付けし
た平方和
(2) OD: 正解分布において値が正である全ビンiに関す
るDW(i)の平均
38. ターンの分類体系 [17]
顧客 (Customer) ヘルプデスク
(Helpdesk)
トリガナゲット CNUG0: 問題をヘル
プデスクに伝える
通常ナゲット CNUG HNUG
ゴールナゲット CNUG*: 問題解決に
至ったことをヘルプ
デスクに伝える
HNUG*: 解決策を顧
客に伝える
非ナゲット CNaN HNaN
41. ターン (顧客)
ターン (ヘルプデスク)
ターン (顧客)
ターン (ヘルプデスク)
推定分布
ナゲット検出 (Nugget Detection)
サブタスク (3)
正解分布
ターン毎に分布を
RNSS (誤差二乗和に基づく)
とJSダイバージェンスで比較
⇒ 対話中の全ターンについて
平均
(ビンが名義的なので
距離の概念は不要)
43. STC-3 DQ,ND (英語) の主な結果 [17]
• DQ (A-score): オーガナイザのBiLSTMによるベース
ラインBL-lstmがトップ
• DQ (S-score): 早稲田大学の以下のラン[5]がトップ
- SLSTC-run1 (損失関数に隣接するビンの概念を導
入 + DQとNDを同時学習)
- SLSTC-run2 (BERTによる分散表現を利用)
• DQ (E-score): SLSTC-run2、BL-lstmがトップ
• ND: BL-lstmがトップ
学習データが多い中国語のほうが全般的に結果が良好
45. DialEval-1 = DQ + ND (STC-3と同じ)
• 対話品質 (DQ) サブタスク
入力: ヘルプデスク対話
出力: 対話品質スコア(A, S, E) の推定分布
評価指標: NMD, RSNOD
• ナゲット検出 (ND) サブタスク
入力: ヘルプデスク対話
出力: 各ターンのタイプ分類
(CNUG0/CNUG/CNUG*/CNaN, HNUG/HNUG*/HNaN) の
推定分布
評価指標: RNSS, JSD
順序的尺度用
名義的尺度用
46. DialEval-1のデータ
中国語対話 (Weiboよりクロール) 英語対話 (人手で中英翻訳)
Training/
Validation
Test
3,700件
(対話データDCH-1 [18]
を流用)
390件
(STC-3 評価用対話)
300件
(DialEval-1評価用対話)
300件
(DialEval-1評価用対話)
390件
(STC-3 評価用対話)
2,251件 (DCH-1の61%)
(STC-3の1,672件に
翻訳データを追加中)
49. For more information…
• WWW-3
www3org@list.waseda.jp (オーガナイザML)
http://sakailab.com/www3 (ウェブサイト)
http://twitter.com/ntcirwww (Twitter)
• DialEval-1
dialeval1org@list.waseda.jp (オーガナイザML)
http://sakailab.com/dialeval1 (ウェブサイト)
http://twitter.com/ntcirdialeval (Twitter)