Successfully reported this slideshow.

ipsjifat201909

1

Share

Upcoming SlideShare
NTCIR15WWW3overview
NTCIR15WWW3overview
Loading in …3
×
1 of 50
1 of 50

ipsjifat201909

1

Share

Download to read offline

Description

[in Japanese]

Invitation to the NTCIR-15 We Want Web with CENTRE (WWW-3) and Dialogue Evaluation (DialEval-1) Tasks

Transcript

  1. 1. NTCIR-15ウェブ検索・ 再現可能性タスク (WWW-3) および対話評価タスク (DialEval-1)への誘い 酒井 哲也 tetsuyasakai@acm.org 10th September, 2019 @IPSJ IFAT 136, 工学院大学
  2. 2. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  3. 3. 情報検索(IR)の評価型会議: competitionというよりcollaboration • TREC (Text Retrieval Conference, since 1992) • NTCIR (NII Testbeds and Community for Information access Research, since 1999) • CLEF (Conference and Labs of the Evaluation Forum, since 2000) • FIRE (Forum for Information Retrieval Evaluation, since 2008) 世界中の研究者が同じ条件下で実験を行い 技術進歩を加速させる場
  4. 4. NTCIR 20(+α)周年記念本が Springerより2020年に出版予定! • オンラインドラフト: http://sakailab.com/ntcirbookdraft/ • エディタ: Noriko Kando, Douglas Oard, Tetsuya Sakai • 著者: Mark Sanderson, Noriko Kando, Tetsuya Sakai, Kazuaki Kishida+, Manabu Okumura+, Makoto Iwayama+, Tsuneaki Kato, Yohei Seki, Isao Goto, Teruko Mitamura+, Masaharu Yoshioka+, Ruihua Song+, Makoto P. Kato, Akiko Aizawa+, Cathal Gurrin+, Douglas Oard
  5. 5. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  6. 6. WWW (We Want Web) TREC 2014 NTCIR-13 (2017) NTCIR-14 (2019)
  7. 7. ウェブ検索は 「解決済みの研究課題」ではない • 現状ではキーワードマッチングが基本で、 情報要求を理解してくれるわけではない • 検索エンジンが決して返してくれない適合 ページがあるかも知れないが、ユーザには わからない • WWWのミッション: 現状の技術課題を明ら かにし、進歩を長期的に検証する
  8. 8. WWWタスク仕様 (1) トピック集合 検索対象コーパス 参加者 ラン (検索結果)
  9. 9. WWWタスク仕様 (2) トピック集合 検索対象コーパス オーガナイザ 参加者 ラン (検索結果) プール プール プール : : トピックiの上位k件の文書
  10. 10. WWWタスク仕様 (3) トピック集合オーガナイザ 参加者 ラン (検索結果) 適合性 判定 結果 (正解) 各トピックに対する 検索結果を評価
  11. 11. NTCIR-13 WWW-1 (英語) の結果 • トピック数: 100 • 検索対象: clueweb12-B13 (約5千万件のウェブページ) • 豪RMIT [3] がトップ。2位の清華大と統計的 有意差あり [7] 。 • ただしRMITの用いた手法 (順次依存モデル) はSIGIR 2005のMetzlerらの手法 [9]
  12. 12. NTCIR-14 WWW-2 (英語) の結果 • トピック数: 80 (トピック数設計 [12] に基づき 決定) • 検索対象: clueweb12-B13 • 清華大 (THUIR) [20] がトップ。他のランのい くつかと統計的有意差あり [8] 。 • ただしTHUIRの有効なランは既存のlearning to rank (LambdaMART, AdaRank, Coordinate Ascent) を適用したもの
  13. 13. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  14. 14. 3つのR • 反復可能性 (repeatability) 同じチームが同じ評価データ上で同じ結果を出せる • 複製可能性 (replicability) 別のチームが,元の実験と同じ評価データ上で同じ 結果を出せる • 再現可能性 (reproducibility) 別のチームが,元の実験とは異なる評価データ上で 同じ結果を出せる cf. https://www.acm.org/publications/policies/artifact-review-badging
  15. 15. CENTRE = CLEF/NTCIR/TREC (replicability and) reproducibility CLEF Conferences and Labs of the Evaluation Forum NTCIR NII Testbeds and Community for Information access Research TREC Text REtrieval Conference 欧州中心 米国中心アジア中心 世界三大IR評価会議を またいだメタタスク
  16. 16. CENTRE@NTCIR-14の仕組み (1) 過去の NTCIR ターゲット対を複製 T1: 複製サブタスク A: advanced (高度なラン) B: baseline (比較対象) A, B (ターゲット対) オーガナイザが選定 T1{A,B} トピック毎のΔの比較 平均Δの比較 Δ = A - B Δ = A - B
  17. 17. CENTRE@NTCIR-14の仕組み (2) 過去の TREC 過去の NTCIR ターゲット対を複製 T1: 複製サブタスク A: advanced (高度なラン) B: baseline (比較対象) A, B (ターゲット対) A, B (ターゲット対) T2: 再現サブタスク ターゲット対を NTCIRデータ上再現 T2TREC-{A,B} オーガナイザが選定 T1{A,B} 平均Δの比較 Δ = A - B Δ = A - B
  18. 18. CENTRE@NTCIR-14の仕組み (3) 過去の TREC 過去の NTCIR ターゲット対を複製 T1: 複製サブタスク A: advanced (高度なラン) B: baseline (比較対象) A, B (ターゲット対) A, B (ターゲット対) T2: 再現サブタスク 過去の IR文献 ターゲット対を NTCIRデータ上再現 T2TREC-{A,B} T2OPEN-{A,B}A, B (ターゲット対) オーガナイザが選定 参加者が選定 T1{A,B} 検索評価有効性 評価のみ
  19. 19. CENTRE@NTCIR-14の評価指標 • トピック毎のΔの複製可能性 - Δの相関係数 - ΔのRMSE (平均二乗誤差の平方根) • 平均Δの複製・再現可能性 - 効果比 (ER=effect ratio) 新しい実験での平均Δ / 元の実験での平均Δ ER=1 ⇒ 効果が完璧に複製・再現できた ER>1 ⇒ 新しい効果のほうが大きい 0<ER<1 ⇒ 新しい効果のほうが小さい ER<= 0 ⇒ 複製・再現失敗
  20. 20. CENTRE@NTCIR-14 複製サブタスク結果 [13] • NTCIR-13 WWW-1のRMIT [3] のラン対 (A=順次依存モデル, B=完全依存モデル [9] ) を複製できるか? • トピック毎のΔの複製は困難 (MPII [16] )。 • 平均Δの複製は概ね成功(MPII [16] )。 ER (nDCG) = 0.6519 ER (Q) = 0.5508 ER (nERR) = 0.9689
  21. 21. CENTRE@NTCIR-14 再現サブタスク結果 [13] • TRECにおけるDelaware大 [15] のラン対 (A=web-based working sets, B=collection- based working sets [2] ) をNTCIRデータで再 現できるか? • 平均Δの再現は概ね成功 (MPII [16] ) ER (nDCG) = 1.0630 ER (Q) = 1.7116 ER (nERR) = 0.7287
  22. 22. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  23. 23. WWW-2トピック集合 WWW-3トピック集合 WWW-2 ターゲットA-run WWW-2 ターゲットB-run 同一システム (a) WWW-3 REV (蘇生) A-run (b) WWW-3 REV (蘇生) B-run WWW-3 = WWW +CENTRE (1) 全てのWWW-3参加チームには、 WWW-2 + WWW-3 のトピック集合について 検索結果を作成してもらう
  24. 24. WWW-2トピック集合 WWW-3トピック集合 WWW-2 ターゲットA-run WWW-2 ターゲットB-run 同一システム (a) WWW-3 REV (蘇生) A-run (b) WWW-3 REV (蘇生) B-run (c) WWW-3 REP (複製・再現) A-run (d) WWW-3 REP (複製・再現) B-run • 複製可能性: (a)>(b) ⇒ (c)>(d) ? を WWW-2トピックで検証 • 再現可能性: (a)>(b) [WWW-2トピック] ⇒ (c)>(d) [WWW-3トピック] を検証 • 技術進歩: (e) > (a) ? をWWW-3トピックで検証 WWW-3 = WWW +CENTRE (2)
  25. 25. WWW-2トピック集合 WWW-3トピック集合 WWW-2 ターゲットA-run WWW-2 ターゲットB-run 同一システム (a) WWW-3 REV (蘇生) A-run (b) WWW-3 REV (蘇生) B-run (c) WWW-3 REP (複製・再現) A-run (d) WWW-3 REP (複製・再現) B-run • 複製可能性: (a)>(b) ⇒ (c)>(d) ? を WWW-2トピックで検証 • 再現可能性: (a)>(b) [WWW-2トピック] ⇒ (c)>(d) [WWW-3トピック] を検証 • 技術進歩: (e) > (a) ? をWWW-3トピックで検証 WWW-3 = WWW +CENTRE (3) TRECのA-run, B-runを(a)(b)に用いることも可
  26. 26. WWW-2トピック集合 WWW-3トピック集合 WWW-2 ターゲットA-run WWW-2 ターゲットB-run 同一システム (a) WWW-3 REV (蘇生) A-run (b) WWW-3 REV (蘇生) B-run (c) WWW-3 REP (複製・再現) A-run (d) WWW-3 REP (複製・再現) B-run (e) WWW-3 NEW run • 複製可能性: (a)>(b) ⇒ (c)>(d) ? を WWW-2トピックで検証 • 再現可能性: (a)>(b) [WWW-2トピック] ⇒ (c)>(d) [WWW-3トピック] を検証 • 技術進歩: (e) > (a) ? をWWW-3トピックで検証 WWW-3 = WWW +CENTRE (4)
  27. 27. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  28. 28. STC (Short Text Conversation) 日本語 中国語 英語 NTCIR-12 STC-1 Twitter, 応答検索 Weibo (微博), 応答検索 NTCIR-13 STC-2 Yahoo! News, コメント検索・ 生成 Weibo, 応答検索・ 生成 NTCIR-14 STC-3 Weibo, 指定された 感情の応答 生成 Weibo+英訳, 正解分布の推定 感情対話生成 (CECG) サブタスク 対話品質 (DQ) + ナゲット検出 (ND) サブタスク Single-round, 非タスク指向 Multi-round, タスク指向 (ヘルプデスク)
  29. 29. ヘルプデスク対話自動評価に向けて • 企業でのヘルプデスク・コールセンターは高コスト ⇒タスク指向multi-round対話システムの需要 • システムの自動評価・自己診断技術の必要性大 • ユーザの多様性に対応させたい
  30. 30. 顧客・ヘルプデスク対話の実例 問題の提示 解決策の提示 解決されたことを表明
  31. 31. ターン (顧客) ターン (ヘルプデスク) ターン (顧客) ターン (ヘルプデスク) 正解分布 判定者 -2 20 対話品質 (Dialogue Quality) サブタスク (1) 3種の対話品質を個別に評価 Aスコア: タスク達成度 (Accomplishment) Sスコア: 対話顧客満足度 (Satisfaction) Eスコア: 対話有効性 (Effectiveness) (Aスコア)
  32. 32. ターン (顧客) ターン (ヘルプデスク) ターン (顧客) ターン (ヘルプデスク) 正解分布 推定分布 (システムY) 判定者 -2 20 対話品質 (Dialogue Quality) サブタスク (2) (Aスコア) (Aスコア) 評価指標による比較
  33. 33. ターン (顧客) ターン (ヘルプデスク) ターン (顧客) ターン (ヘルプデスク) 正解分布 推定分布 (システムX) 推定分布 (システムY) 判定者 -2 20 順序尺度上の分布間の類似度 の重要性 (1) XとYのいずれが優れている?
  34. 34. 正解分布 推定分布 (システムX) 推定分布 (システムY) -2 20 順序尺度上の分布間の類似度 の重要性 (2) X=Y ??? 誤差 誤差 2の分布をビン毎に比較する評価指標 (平均二乗誤差やJSダイバージェンス)は不適
  35. 35. 正解分布 推定分布 (システムX) 推定分布 (システムY) -2 20 順序尺度上の分布間の類似度 の重要性 (3) X > Y! ビン間の距離の概念を用いた評価指標 (NMD, RSNOD) が適している [11]
  36. 36. 対話品質(DQ)の評価指標 [11] • NMD: Normalised Match Distance (正規化マッチ距離) 累積分布に対しビン毎に絶対差をとるだけ (Earth Mover’s Distanceの簡単な場合) • RSNOD: Root Symmetric Normalised Order-aware Divergence (対称正規化順序ダイバージェンスの平方根) (1) DW(i): 各ビンiに対し、ビン間距離により重み付けし た平方和 (2) OD: 正解分布において値が正である全ビンiに関す るDW(i)の平均
  37. 37. タスク指向対話におけるナゲット 顧客の 初期状態 (問題に直面) 顧客の 目標状態 (問題解決) 中間 状態 ナゲットであるターンにより目標状態に近づく ナゲットでないターン 顧客 or ヘルプデスクのターンのうち、 顧客を目標状態 (問題解決) に近づけるのに役立つもの
  38. 38. ターンの分類体系 [17] 顧客 (Customer) ヘルプデスク (Helpdesk) トリガナゲット CNUG0: 問題をヘル プデスクに伝える 通常ナゲット CNUG HNUG ゴールナゲット CNUG*: 問題解決に 至ったことをヘルプ デスクに伝える HNUG*: 解決策を顧 客に伝える 非ナゲット CNaN HNaN
  39. 39. ターン (顧客) ターン (ヘルプデスク) ターン (顧客) ターン (ヘルプデスク) 顧客ナゲットタイプ 上の正解分布 推定分布 判定者 ナゲット検出 (Nugget Detection) サブタスク (1)
  40. 40. ターン (顧客) ターン (ヘルプデスク) ターン (顧客) ターン (ヘルプデスク) ヘルプデスクナゲットタイプ 上の正解分布 推定分布 判定者 ナゲット検出 (Nugget Detection) サブタスク (2)
  41. 41. ターン (顧客) ターン (ヘルプデスク) ターン (顧客) ターン (ヘルプデスク) 推定分布 ナゲット検出 (Nugget Detection) サブタスク (3) 正解分布 ターン毎に分布を RNSS (誤差二乗和に基づく) とJSダイバージェンスで比較 ⇒ 対話中の全ターンについて 平均 (ビンが名義的なので 距離の概念は不要)
  42. 42. STC-3 DQ+NDサブタスクのデータ 中国語対話 (Weiboよりクロール) 英語対話 (人手で中英翻訳) Training/ Validation 3,700件 (対話データDCH-1 [18] を流用) 390件 (STC-3 評価用対話) 390件 (STC-3 評価用対話) 1,672件 (予算と時間の制約により 全ては翻訳できず) Test
  43. 43. STC-3 DQ,ND (英語) の主な結果 [17] • DQ (A-score): オーガナイザのBiLSTMによるベース ラインBL-lstmがトップ • DQ (S-score): 早稲田大学の以下のラン[5]がトップ - SLSTC-run1 (損失関数に隣接するビンの概念を導 入 + DQとNDを同時学習) - SLSTC-run2 (BERTによる分散表現を利用) • DQ (E-score): SLSTC-run2、BL-lstmがトップ • ND: BL-lstmがトップ 学習データが多い中国語のほうが全般的に結果が良好
  44. 44. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  45. 45. DialEval-1 = DQ + ND (STC-3と同じ) • 対話品質 (DQ) サブタスク 入力: ヘルプデスク対話 出力: 対話品質スコア(A, S, E) の推定分布 評価指標: NMD, RSNOD • ナゲット検出 (ND) サブタスク 入力: ヘルプデスク対話 出力: 各ターンのタイプ分類 (CNUG0/CNUG/CNUG*/CNaN, HNUG/HNUG*/HNaN) の 推定分布 評価指標: RNSS, JSD 順序的尺度用 名義的尺度用
  46. 46. DialEval-1のデータ 中国語対話 (Weiboよりクロール) 英語対話 (人手で中英翻訳) Training/ Validation Test 3,700件 (対話データDCH-1 [18] を流用) 390件 (STC-3 評価用対話) 300件 (DialEval-1評価用対話) 300件 (DialEval-1評価用対話) 390件 (STC-3 評価用対話) 2,251件 (DCH-1の61%) (STC-3の1,672件に 翻訳データを追加中)
  47. 47. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  48. 48. スケジュール 是非ご検討ください!
  49. 49. For more information… • WWW-3 www3org@list.waseda.jp (オーガナイザML) http://sakailab.com/www3 (ウェブサイト) http://twitter.com/ntcirwww (Twitter) • DialEval-1 dialeval1org@list.waseda.jp (オーガナイザML) http://sakailab.com/dialeval1 (ウェブサイト) http://twitter.com/ntcirdialeval (Twitter)
  50. 50. 文献

Description

[in Japanese]

Invitation to the NTCIR-15 We Want Web with CENTRE (WWW-3) and Dialogue Evaluation (DialEval-1) Tasks

Transcript

  1. 1. NTCIR-15ウェブ検索・ 再現可能性タスク (WWW-3) および対話評価タスク (DialEval-1)への誘い 酒井 哲也 tetsuyasakai@acm.org 10th September, 2019 @IPSJ IFAT 136, 工学院大学
  2. 2. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  3. 3. 情報検索(IR)の評価型会議: competitionというよりcollaboration • TREC (Text Retrieval Conference, since 1992) • NTCIR (NII Testbeds and Community for Information access Research, since 1999) • CLEF (Conference and Labs of the Evaluation Forum, since 2000) • FIRE (Forum for Information Retrieval Evaluation, since 2008) 世界中の研究者が同じ条件下で実験を行い 技術進歩を加速させる場
  4. 4. NTCIR 20(+α)周年記念本が Springerより2020年に出版予定! • オンラインドラフト: http://sakailab.com/ntcirbookdraft/ • エディタ: Noriko Kando, Douglas Oard, Tetsuya Sakai • 著者: Mark Sanderson, Noriko Kando, Tetsuya Sakai, Kazuaki Kishida+, Manabu Okumura+, Makoto Iwayama+, Tsuneaki Kato, Yohei Seki, Isao Goto, Teruko Mitamura+, Masaharu Yoshioka+, Ruihua Song+, Makoto P. Kato, Akiko Aizawa+, Cathal Gurrin+, Douglas Oard
  5. 5. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  6. 6. WWW (We Want Web) TREC 2014 NTCIR-13 (2017) NTCIR-14 (2019)
  7. 7. ウェブ検索は 「解決済みの研究課題」ではない • 現状ではキーワードマッチングが基本で、 情報要求を理解してくれるわけではない • 検索エンジンが決して返してくれない適合 ページがあるかも知れないが、ユーザには わからない • WWWのミッション: 現状の技術課題を明ら かにし、進歩を長期的に検証する
  8. 8. WWWタスク仕様 (1) トピック集合 検索対象コーパス 参加者 ラン (検索結果)
  9. 9. WWWタスク仕様 (2) トピック集合 検索対象コーパス オーガナイザ 参加者 ラン (検索結果) プール プール プール : : トピックiの上位k件の文書
  10. 10. WWWタスク仕様 (3) トピック集合オーガナイザ 参加者 ラン (検索結果) 適合性 判定 結果 (正解) 各トピックに対する 検索結果を評価
  11. 11. NTCIR-13 WWW-1 (英語) の結果 • トピック数: 100 • 検索対象: clueweb12-B13 (約5千万件のウェブページ) • 豪RMIT [3] がトップ。2位の清華大と統計的 有意差あり [7] 。 • ただしRMITの用いた手法 (順次依存モデル) はSIGIR 2005のMetzlerらの手法 [9]
  12. 12. NTCIR-14 WWW-2 (英語) の結果 • トピック数: 80 (トピック数設計 [12] に基づき 決定) • 検索対象: clueweb12-B13 • 清華大 (THUIR) [20] がトップ。他のランのい くつかと統計的有意差あり [8] 。 • ただしTHUIRの有効なランは既存のlearning to rank (LambdaMART, AdaRank, Coordinate Ascent) を適用したもの
  13. 13. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  14. 14. 3つのR • 反復可能性 (repeatability) 同じチームが同じ評価データ上で同じ結果を出せる • 複製可能性 (replicability) 別のチームが,元の実験と同じ評価データ上で同じ 結果を出せる • 再現可能性 (reproducibility) 別のチームが,元の実験とは異なる評価データ上で 同じ結果を出せる cf. https://www.acm.org/publications/policies/artifact-review-badging
  15. 15. CENTRE = CLEF/NTCIR/TREC (replicability and) reproducibility CLEF Conferences and Labs of the Evaluation Forum NTCIR NII Testbeds and Community for Information access Research TREC Text REtrieval Conference 欧州中心 米国中心アジア中心 世界三大IR評価会議を またいだメタタスク
  16. 16. CENTRE@NTCIR-14の仕組み (1) 過去の NTCIR ターゲット対を複製 T1: 複製サブタスク A: advanced (高度なラン) B: baseline (比較対象) A, B (ターゲット対) オーガナイザが選定 T1{A,B} トピック毎のΔの比較 平均Δの比較 Δ = A - B Δ = A - B
  17. 17. CENTRE@NTCIR-14の仕組み (2) 過去の TREC 過去の NTCIR ターゲット対を複製 T1: 複製サブタスク A: advanced (高度なラン) B: baseline (比較対象) A, B (ターゲット対) A, B (ターゲット対) T2: 再現サブタスク ターゲット対を NTCIRデータ上再現 T2TREC-{A,B} オーガナイザが選定 T1{A,B} 平均Δの比較 Δ = A - B Δ = A - B
  18. 18. CENTRE@NTCIR-14の仕組み (3) 過去の TREC 過去の NTCIR ターゲット対を複製 T1: 複製サブタスク A: advanced (高度なラン) B: baseline (比較対象) A, B (ターゲット対) A, B (ターゲット対) T2: 再現サブタスク 過去の IR文献 ターゲット対を NTCIRデータ上再現 T2TREC-{A,B} T2OPEN-{A,B}A, B (ターゲット対) オーガナイザが選定 参加者が選定 T1{A,B} 検索評価有効性 評価のみ
  19. 19. CENTRE@NTCIR-14の評価指標 • トピック毎のΔの複製可能性 - Δの相関係数 - ΔのRMSE (平均二乗誤差の平方根) • 平均Δの複製・再現可能性 - 効果比 (ER=effect ratio) 新しい実験での平均Δ / 元の実験での平均Δ ER=1 ⇒ 効果が完璧に複製・再現できた ER>1 ⇒ 新しい効果のほうが大きい 0<ER<1 ⇒ 新しい効果のほうが小さい ER<= 0 ⇒ 複製・再現失敗
  20. 20. CENTRE@NTCIR-14 複製サブタスク結果 [13] • NTCIR-13 WWW-1のRMIT [3] のラン対 (A=順次依存モデル, B=完全依存モデル [9] ) を複製できるか? • トピック毎のΔの複製は困難 (MPII [16] )。 • 平均Δの複製は概ね成功(MPII [16] )。 ER (nDCG) = 0.6519 ER (Q) = 0.5508 ER (nERR) = 0.9689
  21. 21. CENTRE@NTCIR-14 再現サブタスク結果 [13] • TRECにおけるDelaware大 [15] のラン対 (A=web-based working sets, B=collection- based working sets [2] ) をNTCIRデータで再 現できるか? • 平均Δの再現は概ね成功 (MPII [16] ) ER (nDCG) = 1.0630 ER (Q) = 1.7116 ER (nERR) = 0.7287
  22. 22. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  23. 23. WWW-2トピック集合 WWW-3トピック集合 WWW-2 ターゲットA-run WWW-2 ターゲットB-run 同一システム (a) WWW-3 REV (蘇生) A-run (b) WWW-3 REV (蘇生) B-run WWW-3 = WWW +CENTRE (1) 全てのWWW-3参加チームには、 WWW-2 + WWW-3 のトピック集合について 検索結果を作成してもらう
  24. 24. WWW-2トピック集合 WWW-3トピック集合 WWW-2 ターゲットA-run WWW-2 ターゲットB-run 同一システム (a) WWW-3 REV (蘇生) A-run (b) WWW-3 REV (蘇生) B-run (c) WWW-3 REP (複製・再現) A-run (d) WWW-3 REP (複製・再現) B-run • 複製可能性: (a)>(b) ⇒ (c)>(d) ? を WWW-2トピックで検証 • 再現可能性: (a)>(b) [WWW-2トピック] ⇒ (c)>(d) [WWW-3トピック] を検証 • 技術進歩: (e) > (a) ? をWWW-3トピックで検証 WWW-3 = WWW +CENTRE (2)
  25. 25. WWW-2トピック集合 WWW-3トピック集合 WWW-2 ターゲットA-run WWW-2 ターゲットB-run 同一システム (a) WWW-3 REV (蘇生) A-run (b) WWW-3 REV (蘇生) B-run (c) WWW-3 REP (複製・再現) A-run (d) WWW-3 REP (複製・再現) B-run • 複製可能性: (a)>(b) ⇒ (c)>(d) ? を WWW-2トピックで検証 • 再現可能性: (a)>(b) [WWW-2トピック] ⇒ (c)>(d) [WWW-3トピック] を検証 • 技術進歩: (e) > (a) ? をWWW-3トピックで検証 WWW-3 = WWW +CENTRE (3) TRECのA-run, B-runを(a)(b)に用いることも可
  26. 26. WWW-2トピック集合 WWW-3トピック集合 WWW-2 ターゲットA-run WWW-2 ターゲットB-run 同一システム (a) WWW-3 REV (蘇生) A-run (b) WWW-3 REV (蘇生) B-run (c) WWW-3 REP (複製・再現) A-run (d) WWW-3 REP (複製・再現) B-run (e) WWW-3 NEW run • 複製可能性: (a)>(b) ⇒ (c)>(d) ? を WWW-2トピックで検証 • 再現可能性: (a)>(b) [WWW-2トピック] ⇒ (c)>(d) [WWW-3トピック] を検証 • 技術進歩: (e) > (a) ? をWWW-3トピックで検証 WWW-3 = WWW +CENTRE (4)
  27. 27. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  28. 28. STC (Short Text Conversation) 日本語 中国語 英語 NTCIR-12 STC-1 Twitter, 応答検索 Weibo (微博), 応答検索 NTCIR-13 STC-2 Yahoo! News, コメント検索・ 生成 Weibo, 応答検索・ 生成 NTCIR-14 STC-3 Weibo, 指定された 感情の応答 生成 Weibo+英訳, 正解分布の推定 感情対話生成 (CECG) サブタスク 対話品質 (DQ) + ナゲット検出 (ND) サブタスク Single-round, 非タスク指向 Multi-round, タスク指向 (ヘルプデスク)
  29. 29. ヘルプデスク対話自動評価に向けて • 企業でのヘルプデスク・コールセンターは高コスト ⇒タスク指向multi-round対話システムの需要 • システムの自動評価・自己診断技術の必要性大 • ユーザの多様性に対応させたい
  30. 30. 顧客・ヘルプデスク対話の実例 問題の提示 解決策の提示 解決されたことを表明
  31. 31. ターン (顧客) ターン (ヘルプデスク) ターン (顧客) ターン (ヘルプデスク) 正解分布 判定者 -2 20 対話品質 (Dialogue Quality) サブタスク (1) 3種の対話品質を個別に評価 Aスコア: タスク達成度 (Accomplishment) Sスコア: 対話顧客満足度 (Satisfaction) Eスコア: 対話有効性 (Effectiveness) (Aスコア)
  32. 32. ターン (顧客) ターン (ヘルプデスク) ターン (顧客) ターン (ヘルプデスク) 正解分布 推定分布 (システムY) 判定者 -2 20 対話品質 (Dialogue Quality) サブタスク (2) (Aスコア) (Aスコア) 評価指標による比較
  33. 33. ターン (顧客) ターン (ヘルプデスク) ターン (顧客) ターン (ヘルプデスク) 正解分布 推定分布 (システムX) 推定分布 (システムY) 判定者 -2 20 順序尺度上の分布間の類似度 の重要性 (1) XとYのいずれが優れている?
  34. 34. 正解分布 推定分布 (システムX) 推定分布 (システムY) -2 20 順序尺度上の分布間の類似度 の重要性 (2) X=Y ??? 誤差 誤差 2の分布をビン毎に比較する評価指標 (平均二乗誤差やJSダイバージェンス)は不適
  35. 35. 正解分布 推定分布 (システムX) 推定分布 (システムY) -2 20 順序尺度上の分布間の類似度 の重要性 (3) X > Y! ビン間の距離の概念を用いた評価指標 (NMD, RSNOD) が適している [11]
  36. 36. 対話品質(DQ)の評価指標 [11] • NMD: Normalised Match Distance (正規化マッチ距離) 累積分布に対しビン毎に絶対差をとるだけ (Earth Mover’s Distanceの簡単な場合) • RSNOD: Root Symmetric Normalised Order-aware Divergence (対称正規化順序ダイバージェンスの平方根) (1) DW(i): 各ビンiに対し、ビン間距離により重み付けし た平方和 (2) OD: 正解分布において値が正である全ビンiに関す るDW(i)の平均
  37. 37. タスク指向対話におけるナゲット 顧客の 初期状態 (問題に直面) 顧客の 目標状態 (問題解決) 中間 状態 ナゲットであるターンにより目標状態に近づく ナゲットでないターン 顧客 or ヘルプデスクのターンのうち、 顧客を目標状態 (問題解決) に近づけるのに役立つもの
  38. 38. ターンの分類体系 [17] 顧客 (Customer) ヘルプデスク (Helpdesk) トリガナゲット CNUG0: 問題をヘル プデスクに伝える 通常ナゲット CNUG HNUG ゴールナゲット CNUG*: 問題解決に 至ったことをヘルプ デスクに伝える HNUG*: 解決策を顧 客に伝える 非ナゲット CNaN HNaN
  39. 39. ターン (顧客) ターン (ヘルプデスク) ターン (顧客) ターン (ヘルプデスク) 顧客ナゲットタイプ 上の正解分布 推定分布 判定者 ナゲット検出 (Nugget Detection) サブタスク (1)
  40. 40. ターン (顧客) ターン (ヘルプデスク) ターン (顧客) ターン (ヘルプデスク) ヘルプデスクナゲットタイプ 上の正解分布 推定分布 判定者 ナゲット検出 (Nugget Detection) サブタスク (2)
  41. 41. ターン (顧客) ターン (ヘルプデスク) ターン (顧客) ターン (ヘルプデスク) 推定分布 ナゲット検出 (Nugget Detection) サブタスク (3) 正解分布 ターン毎に分布を RNSS (誤差二乗和に基づく) とJSダイバージェンスで比較 ⇒ 対話中の全ターンについて 平均 (ビンが名義的なので 距離の概念は不要)
  42. 42. STC-3 DQ+NDサブタスクのデータ 中国語対話 (Weiboよりクロール) 英語対話 (人手で中英翻訳) Training/ Validation 3,700件 (対話データDCH-1 [18] を流用) 390件 (STC-3 評価用対話) 390件 (STC-3 評価用対話) 1,672件 (予算と時間の制約により 全ては翻訳できず) Test
  43. 43. STC-3 DQ,ND (英語) の主な結果 [17] • DQ (A-score): オーガナイザのBiLSTMによるベース ラインBL-lstmがトップ • DQ (S-score): 早稲田大学の以下のラン[5]がトップ - SLSTC-run1 (損失関数に隣接するビンの概念を導 入 + DQとNDを同時学習) - SLSTC-run2 (BERTによる分散表現を利用) • DQ (E-score): SLSTC-run2、BL-lstmがトップ • ND: BL-lstmがトップ 学習データが多い中国語のほうが全般的に結果が良好
  44. 44. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  45. 45. DialEval-1 = DQ + ND (STC-3と同じ) • 対話品質 (DQ) サブタスク 入力: ヘルプデスク対話 出力: 対話品質スコア(A, S, E) の推定分布 評価指標: NMD, RSNOD • ナゲット検出 (ND) サブタスク 入力: ヘルプデスク対話 出力: 各ターンのタイプ分類 (CNUG0/CNUG/CNUG*/CNaN, HNUG/HNUG*/HNaN) の 推定分布 評価指標: RNSS, JSD 順序的尺度用 名義的尺度用
  46. 46. DialEval-1のデータ 中国語対話 (Weiboよりクロール) 英語対話 (人手で中英翻訳) Training/ Validation Test 3,700件 (対話データDCH-1 [18] を流用) 390件 (STC-3 評価用対話) 300件 (DialEval-1評価用対話) 300件 (DialEval-1評価用対話) 390件 (STC-3 評価用対話) 2,251件 (DCH-1の61%) (STC-3の1,672件に 翻訳データを追加中)
  47. 47. 発表概要 1. NTCIRについて 2. WWWタスクのこれまで 3. CENTREタスクのこれまで 4. NTCIR-15 WWW-3タスク 5. STCタスクのこれまで 6. NTCIR-15 DialEval-1タスク 7. まとめ
  48. 48. スケジュール 是非ご検討ください!
  49. 49. For more information… • WWW-3 www3org@list.waseda.jp (オーガナイザML) http://sakailab.com/www3 (ウェブサイト) http://twitter.com/ntcirwww (Twitter) • DialEval-1 dialeval1org@list.waseda.jp (オーガナイザML) http://sakailab.com/dialeval1 (ウェブサイト) http://twitter.com/ntcirdialeval (Twitter)
  50. 50. 文献

More Related Content

Related Books

Free with a 30 day trial from Scribd

See all

×