More Related Content
Similar to マイニング探検会#11 (20)
More from Yoji Kiyota (20)
マイニング探検会#11
- 2. これまでの主な研究内容
自然言語処理技術(構文解析など)の情報検索への応用
• 自己組織化マップによる製品ニュース記事の整理シス
テム (IPSJ NL研究会 1999年)
• 自動要約によるWeb全体のKWICインデックスの生成
システム (SAINT 2001)
• 大規模テキスト知識ベースに基づく自動質問応答シス
テム「ダイアログナビ」 (マイクロソフトとの共同研究)
– ユーザ質問文とテキストの正確で柔軟なマッチングに基づく
ギャップの解消 (COLING 2002 / 「自然言語処理」2003年)
– 換喩表現マッチング (IJCNLP-04 / 「自然言語処理」2004年)
– ダイアログナビ音声インタフェース (ACL 2003)
2
- 7. ダイアログナビ: 研究の背景
現状
• ノウハウを必要とする複雑な製品が増えた
PC,携帯電話,ディジタル家電 etc.
→ 製品を使う上で様々な疑問が発生
• 疑問に答えるための大量のテキストの蓄積
(Web,データベースなど)
たいていの疑問に対応する答え
(テキスト)がどこかに存在する
問題点
質問に対応するテキストになかなかたどりつけない
質問とテキストの間にギャップが存在
既存のテキスト検索システムのログを分析し,どのよう
なギャップが存在するかを調査した 7
- 8. 質問とテキストの間の
表現のギャップ
プリンタドライバをインス
パソコンが トールすると,Windows
固まった XPがハングアップする
Wordを起動すると,
Windows XPがフリーズ
する
ACPIモードを使用すると,
青い画面が表示される
• キーワードのレベル
e.g. ハングアップ-フリーズ
• キーワードを超えるレベル
e.g. パソコンが固まる-ハングアップ-フリーズ-青い画面
8
- 9. 質問とテキストの間の
具体性のギャップ
52件のテキストが見つかりました。
Windowsで • Windows 98を起動したときに、…と
エラーが発生した いうエラーが発生する
• Windows XPでアプリケーションを
起動したときに、エラーが発生する
• インターネットにダイアルアップで接
続しようとしたときに、…というエラー
が発生する
• 印刷中にエラーが発生して印刷で
きない
• …………………………..
9
- 10. 質問とテキストの間の
具体性のギャップ
52件のテキストが見つかりました。
Windowsで • Windows 98を起動したときに、…と
エラーが発生した いうエラーが発生する
• Windows XPでアプリケーションを
起動したときに、エラーが発生する
• インターネットにダイアルアップで接
続しようとしたときに、…というエラー
が発生する
• 印刷中にエラーが発生して印刷で
きない
• …………………………..
10
- 12. 情報検索のモデル
経済の成長見通しに テキスト検索
関する記事が欲しい
富士山の Open-domain
高さは? QA
情報要求 情報集合
Excelで行 本研究の
を タスク
検索質問 追加したい テキスト集合
自然言語処理技術が必要
内部表現 マッチング 内部表現
テキストの部分集合 「Excelで行を追加する方
合致する情報 法は以下の通りです
「3776m」 …」 12
- 13. テキスト検索 Open-domain QA 本研究のタスク
S1
Q1’
A A1
Q Q Q’ A Q
S2
Q2’
具体性のギャップ
解消に利用 A2
•質問(Q)に対応する部分(Q’) •質問(Q)に対応する部分(Q’) •質問(Q)に対応する部分(Q’)
がテキスト全体に分散 は多くの場合1文 は多くの場合1文
•答え(A)としてはQを満たす •答え(A)はQ’の文構造の中 •答え(A)はQ’と同じテキスト
テキスト集合を返せばよい に埋め込まれている 内に存在
•Q’のまわりに、複数存在する
Aのどちらかを特定できる部
分(S)が存在
浅い処理で十分 深い処理が必要
13
(形態素解析) (構文解析など)
- 14. 本研究のアプローチ
表現のギャップ 具体性のギャップ
ユーザ質問文とテキストの 聞き返しによる
柔軟で正確なマッチング ユーザのナビゲート
Excelで マッチングに基づくボトムアップの聞き返し
行を追加したい
•文構造の利用 質問
(係り受け関係への USBマウス
重みづけ)
が動かない OR
•同義表現辞書 質問
拡張
応 対話カードによるトップダウンの聞き返し
換喩表現マッチング 用 エラーが
[エラー]
<UQ>エラーが発生する
GIFの 発生した
<SYS>エラーはいつ発生しますか?
GIFが 画像が ? Windows起動中
エラーはいつ ログイン時
表示されない 表示されない 発生しますか?
印刷中
1. Windows起動中
•換喩・解釈ペアをコーパスから自動抽出 2. ログイン時
•マッチングへの応用 3. 印刷中
実運用による評価: ダイアログナビ
14
- 15. 同義表現辞書
<メール> <読む>
<メール> メール
読む 読み込む
メイル / メッセージ メイル
読める 読み込める
メッセージ
<読む>
<メールを読む>
読める / 読める / 読み込める メール メール
<受信> 読む 受信
受け取る / 受け取れる メール メイル メッセージ
<ブラウザ> 読む 読む 読む
ブラウザー / 閲覧ソフトメール メイル メッセージ
読める 読める 読める
<メールを読む> メール メイル メッセージ
メールを受信する 読み込む 読み込む 読み込む
メール メイル メッセージ
<ハングアップする> 読み込める 読み込める 読み込める
画面が固まる / 画面が青くなる / フリーズする 15
- 16. 係り受け重みづけの有効性評価
0.85
0.84
0.83
ヘルプ集 εの平均値
0.82
0.81
(163質問文) 0.80
0.79
0.78
0.77
0.0 0.5 1.0 1.5 2.0 2.5 3.0
m (係り受けへの重みづけ)
0.62
サポート 0.61
εの平均値
技術情報 0.60
(773質問文) 0.59
0.58
0.0 0.5 1.0 1.5 2.0 2.5 3.0
16
m (係り受けへの重みづけ)
- 17. 提案手法の有効性評価
(係り受け重みづけ以外)
手法 ヘルプ集 サポート技術情報
163質問文 773質問文
ベースライン 0.602 ( ) 0.497 (
)
+A)同義表現辞書 0.838 (+0.236) 0.561 (+0.064)
+C)否定表現フラグ 0.602 ( ) 0.512 (+0.015)
+D)文末表現削除 0.605 (+0.003) 0.508 (+0.011)
+E)質問タイプ 0.602 ( ) 0.498 (+0.001)
+F)製品名 0.602 ( ) 0.519 (+0.022)
0.840 (+0.238) 0.614 (+0.117)
すべて(数値はεの平均値, 係り受け重みづけm=1.0 ) 17
- 18. マッチング失敗の分析
εが小さな質問文について分析した
ログを分析し
1. 同義表現の不足 随時追加
e.g. 文字を大きくする – 文字のサイズを変更
文末への
2. 重要でない箇所とのマッチング 重みづけ
e.g. フォントをWindows MEにインストールせずにフォントを追加するアプ
リを使用している場合,TrueTypeフォントキャッシュの内容が破壊される
3. 係り受け重みづけの副作用
i. 構文解析の誤り 最新の自然言語
ii. 格の省略 処理技術の利用
iii. 換喩による係り受けのギャップ 本研究で扱う
18
- 19. II. 研究紹介: ダイアログナビ
a. 背景と本研究のアプローチ
b. ユーザ質問文とテキストの柔軟で正確
なマッチング
c. マッチングの拡張: 換喩表現マッチング
d. マッチングの応用: 聞き返しによるユー
ザのナビゲート
e. 実運用による評価
19
- 20. 換喩とは
比喩の一種: あるものをそれと関連する別のも
のに置き換えて表現する現象(Lakoff 1980;
山梨1988)
• 漱石を読む.(作者と作品)
• トヨタを買う.(製造者と製品)
重要な言語現象
• ユーザの質問文に頻繁に出現
• 機械翻訳や照応解析などで扱う必要がある20
- 21. 換喩による係り受けのギャップ
ユーザ質問文 テキスト文
(換喩)
GIFの
?
GIFを 画像を
表示する 表示する
2 2
× = 0.27 (m=1.0)
3 5
係り受けへの重みづけによる副作用 21
- 22. 換喩表現と換喩解釈表現
以下の2種類の表現の組み合わせを扱う
(α) AP→V GIFを表示する
(β) A(の)→BP→V GIF(の)画像を表示する
(A, B: 名詞, V: 動詞, P: 格助詞, →: 係り受け関係)
仮説: (α)と(β)は換喩とその解釈になっている
⇒ (α)を換喩表現, (β)を換喩解釈表現と呼ぶ
コーパスからの自動抽出
• (α),(β)のパターンに合致する表現を抽出
頻度の閾値: ≧3,名詞句の一部や括弧を含む表現は除外
• 各々の(α)に対応する(β)をペアとして抽出
22
- 23. コーパスと抽出されたペアの数
コーパス 規模 ペア数
ユーザ質問文
約76万文 661
(MSダイアログナビ・話し言葉検索)
テキスト集合
約59万文 288
(MSヘルプ集,サポート技術情報)
ユーザ質問文+
約135万文 1,126
テキスト集合
ユーザ質問文の寄与が大きい
⇒ 引き続きシステムを運用することで,さら
に多くのペアが得られる 23
- 24. 抽出した換喩表現・換喩解釈表現ペア
換喩表現(α) # 換喩解釈表現(β) #
エラーが 出る 1681 エラー 表示が 出る 68
エラー 画面が 出る 6
エラー メッセージが 出る 3
電源を 入れる 290 電源 スイッチを 入れる 5
Excelを 開く 147 Excel ファイルを 開く 135
Excel 文書を 開く 9
印刷を 実行 141 印刷 プレビューを 実行 12
印刷 ジョブを 実行 4
動作が 遅い 123 動作 速度が 遅い 8
画像を 挿入 69 画像 ファイルを 挿入 6
JPGで 保存 20 JPG 形式で 保存 13
アドレスを 開く 4 アドレス 帳を 開く 43
MOを 使用 3 MO 装置を 使用 4
約80%のペアは換喩とその解釈として適切 24
- 26. テストセットによる評価結果
0.90
0.85
εの平均値
0.80
ヘルプ集 0.75
(31質問文) 0.70
0.65 提案手法
ベースライン
0.60
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.59 m (係り受け関係への重みづけ)
0.58
サポート 0.57
εの平均値
0.56
技術情報 0.55
(140質問文) 0.54
0.53
0.52
提案手法
ベースライン
0.51
0.0 0.5 1.0 1.5 2.0 2.5 3.0
m (係り受け関係への重みづけ) 26
- 27. II. 研究紹介: ダイアログナビ
a. 背景と本研究のアプローチ
b. ユーザ質問文とテキストの柔軟で正確
なマッチング
c. マッチングの拡張: 換喩表現マッチング
d. マッチングの応用: 聞き返しによるユー
ザのナビゲート
e. 実運用による評価
27
- 30. 状況説明文の抽出
「IE5をインストール後,ページ違反が発生した」
IE5を起動した際に タスクスケジューラを使うと
IE5を
インストール後、
IE5を
タスクスケジューラを
起動した際に 使うと
ページ違反が ページ違反が
発生する 発生する
1. マッチしたテキスト文の構文木を以下の箇所でセグメント分割
連用修飾節,「時間」を示す節,読点を伴うデ格
2. セグメントのうち,すべての文節が質問文と対応するものを削除
3. 末尾のセグメントを状況説明文の核とする
30
4. 核のセグメントと,それに直接係るセグメントのみを抽出
- 31. 漠然
ユーザの
質問
Windows 95で起
動時にエラーが
発生する マッチング&状況
具体 説明文の抽出
テキスト集合
31
- 32. 困ってます
漠然
エラーが発生した
ユーザの
質問
?
マッチング&状況
説明文の抽出
具体
テキスト集合
32
- 33. 困ってます
漠然
エラーが発生した
いつ? 対話カードによる
具体化
ユーザの
質問 Windows起動中
お使いの
Windowsは?
Windows95
(=Windows 95で
起動時にエラー
が発生する) マッチング&状況
具体 説明文の抽出
テキスト集合
33
- 34. 対話カード
[エラー]
質問とのマッチング
U: エラーが発生した <UQ>エラーが発生する
<SYS>エラーはいつ発生しますか?
S: エラーはいつ発生しますか?
1. Windows起動中
<SELECT> システムの発話
Windows起動中 goto [エラー/Windows起動中]
2. ログイン時
ログイン時 goto [エラー/ログイン時]
3. 印刷中
印刷中 goto [エラー/印刷時]
U: Windows起動中 </SELECT>
S: あなたがお使いのWindowsを選んで [エラー/Windows起動中]
ください。 <UQ>Windowsを起動中にエラーが発生する
1. Windows 95 <SYS>あなたがお使いのWindowsを選んでください。
2. Windows 98 <SELECT>
3. Windows XP Windows 95
retrieve 「Windows 95で起動時にエラーが発生する」
U: Windows 95 Windows 98 テキストとのマッチング
retrieve 「Windows 98で起動時にエラーが発生する」
Windows XP
retrieve 「Windows XPで起動時にエラーが発生する」
34
</SELECT>
- 35. U: Windows 95 テキスト集合
(=Windows 95で起動時にエラーが発生する)
S: 以下の選択肢から選んでください。
1. 「<ファイル名>が不正かありません」
というエラーが発生する
2. 「JISフォントドライバーがインストール
されていません」 等のエラーが発生
する
3. Windows 3.1のロゴ画面が表示され
ハングアップしてしまう現象が発生
する
4. アプリケーションを起動した直後に
エラーが発生する
5. …
35
- 36. 困ってます
漠然
エラーが発生した トップダウン
いつ? 対話カードによる
具体化
ユーザの
質問 Windows起動中
お使いの
Windowsは? 相補的
Windows95
(=Windows 95で
起動時にエラー
が発生する) マッチング&状況
具体 説明文の抽出
テキスト集合 ボトムアップ
36
- 37. II. 研究紹介: ダイアログナビ
a. 背景と本研究のアプローチ
b. ユーザ質問文とテキストの柔軟で正確
なマッチング
c. マッチングの拡張: 換喩表現マッチング
d. マッチングの応用: 聞き返しによるユー
ザのナビゲート
e. 実運用による評価
37
- 39. 評価の観点
1. システムは適切なテキストを提示したか?
A) 対話セッション単位の評価
2. ユーザとシステムはどう振舞ったか?
B) ユーザ行動とシステム応答の分布
C) 質問文の長さとシステム応答の関係
3. 状況説明文の抽出は適切か?
D) 状況説明文の評価
2002年8月の対話ログから無作為抽出した
378対話セッションを評価した
39
- 40. A) 対話セッション単位の評価
成功 失敗 範囲外
知識有 知識無 知識有 知識無 適切 不適切
149 25 15 41 57 91
(65%) (11%) (7%) (18%)
174 (76%) 56 (24%)
148
230 (100%)
378
原因: リソースの不足 顕著な失敗例を分析し,
•テキスト集合 随時修正・作成
•同義表現辞書 ⇒成功率 60%台 → 70%台
40
- 41. B) ユーザ行動とシステム応答の分布
ユーザ質問の入力
(キーボード)
(98回) 計518回 (420回)
32回 66回 261回 159回
対話カード応答 対話カード応答 テキストマッチング テキストマッチング
(完結した応答) (選択肢提示) (該当あり) (該当なし)
(U: こんにちわ) (U: エラーが発生した) (U: 行を追加したい) (U: サービスパックを
S: こんにちは。 S: エラーはいつ発生 S: 以下の選択肢から 入れたい)
しますか。 選んでください。 S: 該当する情報を見
つけることができま
平均選択肢数: 平均選択肢数: せんでした。
3.24 14.81
14回
58回 (CARD) 6回
(RET)
ユーザの選択 ユーザの選択
(マウス) (マウス)
38回 198回
(SHOW)
テキストの表示 41
- 42. C) 質問文の長さとシステム応答の関係
質問文の 対話カード応答 知識ベース応答
計
文節数 完結応答 選択肢提示 該当あり 該当なし
1 29 17 115 59 220
2 3 37 46 47 133
3 短い質問文に対して 33
10 30 73
4 有効に働く 2 22 10 34
5以上 45 13 58
合計 32 66 261 159 518
一般的に、短い質問文ほど漠然としている
⇒ 対話カードによる応答は有効に働いている
42
- 43. D) 状況説明文の評価
評価者1名が3段階で評価
– 最重要情報: ユーザが選択肢を選ぶ上で最も重要な
情報
評価 基準 選択肢数
妥当 最重要情報が過不足なく含まれている
213 ( 61%)
不十分 最重要情報が含まれていない
27 ( 8%)
冗長 最重要情報以外の情報が文字数換算で1/2
以上含まれている 108 ( 31%)
合計 348 (100%)
平均文字数: 81.6文字⇒68.9文字
(圧縮率15.6%) 43
- 44. 本研究のまとめ
表現のギャップ 具体性のギャップ
ユーザ質問文とテキストの 聞き返しによる
柔軟で正確なマッチング ユーザのナビゲート
Excelで マッチングに基づくボトムアップの聞き返し
行を追加したい
•文構造の利用 質問
(係り受け関係への USBマウス
重みづけ)
が動かない OR
•同義表現辞書 質問
拡張
応 対話カードによるトップダウンの聞き返し
換喩表現マッチング 用 エラーが
[エラー]
<UQ>エラーが発生する
GIFの 発生した
<SYS>エラーはいつ発生しますか?
GIFが 画像が ? Windows起動中
エラーはいつ ログイン時
表示されない 表示されない 発生しますか?
印刷中
1. Windows起動中
•換喩・解釈ペアをコーパスから自動抽出 2. ログイン時
•マッチングへの応用 3. 印刷中
実運用による評価: ダイアログナビ
44
- 47. 研究方針
情報検索システムの研究には一般ユーザによ
る実運用評価が必要
⇒ 実世界から研究へのフィードバックを重視
自然言語処理技術 一般ユーザの利用
現行サービスの分析 システムの実装 実運用
情報検索プロセスの 評価
モデル化
• ユーザの満足度
自然言語理解 • 関連研究に対する位置づけ
47
- 49. ダイアログナビの方法論の応用
どんなキーワードで探 漠然
せばいいの?
日本の原子力発電につ
Kiwi, 言選Web いて調べたい
自然言語処理の研究 NDC(日本十進分類法)
を始めたい による質問の一般化
東大学術情報DB ATS-Pってどんなシステム?
百科事典 (Wikipedia)
○○先生の書いた本を
調べたい 東大の歴史を調べたい
東大図書館FAQ
OPAC
具体
49
文献・資料