曖昧な情報ニーズの具体化を目的とした情報ナビゲーション技術の研究

7,759 views

Published on

TP&Dフォーラム

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
7,759
On SlideShare
0
From Embeds
0
Number of Embeds
11
Actions
Shares
0
Downloads
10
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

曖昧な情報ニーズの具体化を目的とした情報ナビゲーション技術の研究

  1. 1. 曖昧な情報ニーズの具体化を 目的とした情報ナビゲーション 技術の研究株式会社ネクスト リッテル研究所 所長東京大学情報基盤センター 特任講師 清田 陽司 Twitter: @kiyota_yoji
  2. 2. 関心分野• 自然言語処理技術を応用した情報検索システム – 対話的ヘルプシステム「ダイアログナビ」 • WindowsやOffice利用者向けの質問応答サービス• 情報検索プロセスの解明 – 対話(聞き返し)による情報探しニーズの明確化 – 情報の組織化 • 聞き返しをするには何らかの知識構造が必要 – 情報検索手段の変遷 • 人に聞く、図書館、データベース、サーチエンジン、掲示板… 図書館レファレンスサービスの課題と共通• レファレンス支援システムの研究 – タクソノミーとフォークソノミーの統合 – 実用システムの研究開発 Wikipediaを利用したナビゲーションシステム 2
  3. 3. Agenda• 情報検索システムとインタラクション• 大規模テキスト知識ベースに基づく自動質問 応答システム「ダイアログナビ」• Wikipediaを活用したレファレンスサービス支 援システム「リッテルナビゲーター」
  4. 4. 情報検索システムの評価尺度 正解テキスト (A) ヒットしたテキスト (B) 正解 かつ ヒット (A∩B) A∩ B A∩ B再現率( R ) = 精度( P ) = A B
  5. 5. テストコレクション情報検索システムの性能を評価するための「質問文」と「正解」のセット• TREC (Text REtrieval Conference) Ad-hoc Track – Wall Street Journalなど• NTCIR (NII Text Collection for Information Retrieval) Ad-hoc Track – 毎日新聞1994・1995年版など• IREX-IR (Information Retrieval & EXtraction) – 同上
  6. 6. テストコレクションの質問文 (IREX-IR)<TOPIC-ID>1023</TOPIC-ID><DESCRIPTION>南米の経済問題</DESCRIPTION><NARRATIVE>南米の経済についての政治的、経済 的重要人物の発言、南米での企業の経済活動、 南米経済状況、その他の南米の経済に関する 記事。<NEG>条約名や会議名などに南米の国名、 地名が使用されていても、南米の経済について 直接言及していない場合には含まない。 </NEG></NARRATIVE></TOPIC>
  7. 7. <IR-MERGE-RESULT><TOPIC-ID>1023</TOPIC-ID><CAND><DOCNO>950104050</DOCNO><JUDGE PID=2025 TIME=0 REPEAT=1>C</JUDGE></CAND><CAND><DOCNO>941102053</DOCNO><JUDGE PID=2025 TIME=23 REPEAT=2>B</JUDGE></CAND><CAND><DOCNO>940315054</DOCNO><JUDGE PID=2025 TIME=13 REPEAT=1>A</JUDGE></CAND>
  8. 8. テストコレクションによる評価のモデル ヒットした検索質問 入力 情報検索システム 出力 テキストの 集合
  9. 9. 現実のWeb検索エンジンの使われ方
  10. 10. 現実のモデル ヒットした検索質問 入力 情報検索システム 出力 テキストの 集合+α
  11. 11. ダイアログナビ• マイクロソフトとの産学連携研究• 2002年4月~2005年3月に運用 11
  12. 12. ダイアログナビ: 研究の背景現状• ノウハウを必要とする複雑な製品が増えた PC,携帯電話,ディジタル家電 etc. → 製品を使う上で様々な疑問が発生• 疑問に答えるための大量のテキストの蓄積 (Web,データベースなど) たいていの疑問に対応する答え (テキスト)がどこかに存在する問題点質問に対応するテキストになかなかたどりつけない 質問とテキストの間にギャップが存在既存のテキスト検索システムのログを分析し,どのよう なギャップが存在するかを調査した 12
  13. 13. 質問とテキストの間の 具体性のギャップ 52件のテキストが見つかりました。 Windowsで • Windows 98を起動したときに、…とエラーが発生した いうエラーが発生する • Windows XPでアプリケーションを 起動したときに、エラーが発生する • インターネットにダイアルアップで接 続しようとしたときに、…というエラー が発生する • 印刷中にエラーが発生して印刷で きない • ………………………….. 13
  14. 14. 質問とテキストの間の 具体性のギャップ 52件のテキストが見つかりました。 Windowsで • Windows 98を起動したときに、…とエラーが発生した いうエラーが発生する • Windows XPでアプリケーションを 起動したときに、エラーが発生する • インターネットにダイアルアップで接 続しようとしたときに、…というエラー が発生する • 印刷中にエラーが発生して印刷で きない • ………………………….. 14
  15. 15. エキスパートやコールセンターインタラクションで具体性のギャップを解消(もちろん表現のギャップも柔軟に吸収) Windowsで エラーが発生したの エラーが発生した はいつですか? お使いのWindows は何ですか? どんなエラーメッ セージが出ました か? 15
  16. 16. ダイアログナビのユーザインタフェースシステムとユーザを 大きめのテキストボックス 示すアイコン ⇒自然文による質問の入力を誘導対話履歴を表示するフレーム 16
  17. 17. ダイアログナビのユーザインタフェース選択肢(マッチしたテキスト)を表示するフレーム テキストの種類とスコアを アイコンで表示 17
  18. 18. 漠然ユーザの 質問 Windows 95で起 動時にエラーが 発生する マッチング&状況 具体 説明文の抽出 テキスト集合 18
  19. 19. 困ってます 漠然 エラーが発生したユーザの 質問 ? マッチング&状況 説明文の抽出 具体 テキスト集合 19
  20. 20. 困ってます 漠然 エラーが発生した いつ? 対話カードによるユーザの 具体化 質問 Windows起動中 お使いの Windowsは? Windows95 (=Windows 95で 起動時にエラー が発生する) マッチング&状況 具体 説明文の抽出 テキスト集合 20
  21. 21. 対話カード• よくある質問(FAQ)とそれに対応するシステム応答 を記述したカード• MSコールセンターのマニュアル、検索ログ解析結 果をもとに約200枚作成 [エラー] <UQ>エラーが発生する <SYS>エラーはいつ発生しますか? <SELECT> Windows起動中 goto [エラー/Windows起動中] ログイン時 goto [エラー/ログイン時] 印刷中 goto [エラー/印刷時] </SELECT> 21
  22. 22. 対話カード [エラー] 質問とのマッチングU: エラーが発生した <UQ>エラーが発生する <SYS>エラーはいつ発生しますか?S: エラーはいつ発生しますか? 1. Windows起動中 <SELECT> システムの発話 Windows起動中 goto [エラー/Windows起動中] 2. ログイン時 ログイン時 goto [エラー/ログイン時] 3. 印刷中 印刷中 goto [エラー/印刷時]U: Windows起動中 </SELECT>S: あなたがお使いのWindowsを選んで [エラー/Windows起動中] ください。 <UQ>Windowsを起動中にエラーが発生する 1. Windows 95 <SYS>あなたがお使いのWindowsを選んでください。 2. Windows 98 <SELECT> 3. Windows XP Windows 95 retrieve 「Windows 95で起動時にエラーが発生する」U: Windows 95 Windows 98 テキストとのマッチング retrieve 「Windows 98で起動時にエラーが発生する」 Windows XP retrieve 「Windows XPで起動時にエラーが発生する」 22 </SELECT>
  23. 23. U: Windows 95 テキスト集合 (=Windows 95で起動時にエラーが発生する)S: 以下の選択肢から選んでください。 1. 「<ファイル名>が不正かありません」 というエラーが発生する 2. 「JISフォントドライバーがインストール されていません」 等のエラーが発生 する 3. Windows 3.1のロゴ画面が表示され ハングアップしてしまう現象が発生 する 4. アプリケーションを起動した直後に エラーが発生する 5. … 23
  24. 24. 困ってます 漠然 エラーが発生した トップダウン いつ? 対話カードによるユーザの 具体化 質問 Windows起動中 お使いの Windowsは? 相補的 Windows95 (=Windows 95で 起動時にエラー が発生する) マッチング&状況 具体 説明文の抽出 テキスト集合 ボトムアップ 24
  25. 25. 評価の観点1. システムは適切なテキストを提示したか? A) 対話セッション単位の評価2. ユーザとシステムはどう振舞ったか? B) ユーザ行動とシステム応答の分布 C) 質問文の長さとシステム応答の関係2002年8月の対話ログから無作為抽出した 378対話セッションを評価 25
  26. 26. A) 対話セッション単位の評価 成功 失敗 範囲外知識有 知識無 知識有 知識無 適切 不適切 149 25 15 41 57 91(65%) (11%) (7%) (18%) 174 (76%) 56 (24%) 148 230 (100%) 378 原因: リソースの不足 顕著な失敗例を分析し, •テキスト集合 随時修正・作成 •同義表現辞書 ⇒成功率 60%台 → 70%台 26
  27. 27. B) ユーザ行動とシステム応答の分布 ユーザ質問の入力 (キーボード) (98回) 計518回 (420回) 32回 66回 261回 159回対話カード応答 対話カード応答 テキストマッチング テキストマッチング(完結した応答) (選択肢提示) (該当あり) (該当なし)(U: こんにちわ) (U: エラーが発生した) (U: 行を追加したい) (U: サービスパックを S: こんにちは。 S: エラーはいつ発生 S: 以下の選択肢から 入れたい) しますか。 選んでください。 S: 該当する情報を見 つけることができま 平均選択肢数: 平均選択肢数: せんでした。 3.24 14.81 14回 58回 (CARD) 6回 (RET) ユーザの選択 ユーザの選択 (マウス) (マウス) 38回 198回 (SHOW) テキストの表示 27
  28. 28. C) 質問文の長さとシステム応答の関係質問文の 対話カード応答 知識ベース応答 計 文節数 完結応答 選択肢提示 該当あり 該当なし 1 29 17 115 59 220 2 3 37 46 47 133 3 短い質問文に対して 33 10 30 73 4 有効に働く 2 22 10 345以上 45 13 58合計 32 66 261 159 518一般的に、短い質問文ほど漠然としている⇒ 対話カードによる応答は有効に働いている 28
  29. 29. レファレンスサービスへの応用 どんなキーワードで探 漠然 せばいいの? 日本の原子力発電につ Kiwi, 言選Web いて調べたい 自然言語処理の研究 NDC(日本十進分類法) を始めたい による質問の一般化 東大学術情報DB ATS-Pってどんなシステム? 百科事典 (Wikipedia)○○先生の書いた本を調べたい 東大の歴史を調べたい 東大図書館FAQ OPAC 具体 29 文献・資料
  30. 30. 情報探しのニーズ• Webサーチエンジンで探せる質問=事実を問う 質問 – 関東大震災はいつ発生しましたか? – ○○ってどんな病気?• 本当に探し手が知りたいこと – 大学の学生「関東大震災についてのレポートを書か なきゃいけなんだけど、いったいどんな資料から調べ たらいいの?」 – 難病の患者「この病気について最先端の治療を行っ ている病院を探す方法は?」 情報の調べ方が曖昧な場合が多い 30 →調べ方の推薦(レコメンデーション)が必要!
  31. 31. 調べ方推薦の要件• カバレッジ – どんなキーワードに対しても何かをお薦めして Web 欲しい 情報資源 – これができないと結局使ってもらえない Wikipedia• 組織化 – 「これを見た人はこんな情報も見ています」で は不十分! – 分類ごとにお薦めすべき情報資源には定番が 図書館 存在 情報資源• 信頼性 – 「ネットでググる」だけでは不十分! – 信頼できる情報資源が必要 Wikipediaを橋渡しとして、信頼できる情報 31 資源をお薦めできないか?
  32. 32. Wikipediaとは?• オンライン百科事典 – 専門家によるオンライン百科事典プロジェクト 「Nupedia」を前身として2001年に発足 – 個人や団体の寄付により運営• Wikipediaの特徴 – 誰もが編集に参加できる (資格制限なし) – ボランティアによる執筆・編集・運営 – Wikiシステム(ブラウザでWeb上のテキストを書き 換えることができる) – 内容は自由に複製・配布・改変できる
  33. 33. Wikipediaの信頼性をめぐる議論• WikipediaとEncyclopædia Britannicaの比較 – 2005年 Nature 「科学用語について比較したところ、 Wikipediaの方が誤りが少なかった」 – Britannicaは反論• 査読制度なし – 「間違いがあれば迅速に訂正できる仕組みを提供す る」という考え方• 引用文献として使えるか? – Wikipediaの創始者Jimmy Wales 「Wikipediaを原典と して利用すべきではなく、あくまで出発点にすべき」
  34. 34. Wikipediaの秩序維持誰でも編集できるが自由放任ではない• ガイドライン (5つの原則) – Wikipediaは百科事典 – 中立的な観点: 出典の明記 – 利用はフリー: どの個人も特定の項目を支配でき ない、著作権侵害の禁止 – 行動規範: 敬意、礼儀正しさ、冷静の維持 – 確固としたルールはない: ルールの精神の尊重• ページ毎のノート (議論、合意形成の場)• 管理者によるコントロール – 保護、削除、投稿ブロック、管理者の選任・解任
  35. 35. 「燃料電池」をどう分類しますか?• BSH4の記述 燃料電池 NDC: 572.1 TT: 化学 27. 物理学 212 BT: 電池• NDC9の記述 572.1電池.化学的発電・蓄電池 (500技術・工学・工業 → 570化学工業 → 572電気化学工業)
  36. 36. 「燃料電池」の多様な側面• 「発電」のデバイスでもある• 「自動車のエネルギー源」の一つでもある – ガソリン、軽油、電池、ハイブリッド、…• 「環境技術」の一つでもある – ごみ廃熱利用、古紙リサイクル、…• 「水源」の一つでもある – アポロ計画、スペースシャトルでも活用
  37. 37. Wikipediaでは?
  38. 38. Wikipediaの構造 価格各記事にはカテゴリが 価格(かかく)とは、有形・無形の各種の商品 付与されている (サービスを含む)の取引に際して提示される金 額を言う。基本的には需要と供給のバランスに• いわゆるフォークソノ よって決定される。一般には、値段(ねだん)とも 呼ばれる。 ミーの特徴を有する … カテゴリ: [マーケティング][経済学][市場]• カテゴリにもカテゴリ を付与できる(ゆるや 社会 社会科学 かな階層構造) 経済• 複数の上位概念を与 労働 産業 えることができる(多 重継承) ビジネススキル 商業 経営学 流通 マーケティング 経済学 市場 38 価格
  39. 39. 分類のパラダイムトップダウン型構造 ボトムアップ型構造• ひとつの上位概念 • 複数の上位概念 再生可能 半導体 電気化学 電池 エネルギー 素子 電離層 電池 磁気化学燃料電池 太陽電池 蓄電池 燃料電池 太陽電池 トランジスタ図書館的な分類体系 Web的な分類体系 39
  40. 40. トップダウン型 社会 構造 社会科学 経済 労働 産業ビジネススキル 商業 経営学 流通 マーケティング 経済学 市場 ボトムアップ型 構造 価格 40
  41. 41. Key idea: Wikipediaと 図書館分類体系の対応づけ図書館の分類体系をWikipediaで拡張してみよう!• Wikipedia – Webの汎用的な情報資源としては最も組織化されてい る(Wikipediaカテゴリ) – Web上の情報資源との親和性をもつ• 図書館分類体系(件名標目表、書架分類法) – 人類が営々と積み重ねてきた知識体系 – 価値判断に必要な情報資源への有力なポインタ両者を組み合わせて利用することによって、キー ワードから探索テーマ(=件名)を自動導出する→ 導出された件名に関連する情報資源を提示 41
  42. 42. 社会科学(300) 自然科学(400) 技術(500) 「地震防災の事典」(岡 「日本被害地震総覧」 経済(330) 田恒男ほか, 2000年) 社会(360) 地球科学(450) 建築学(520) (宇佐美龍夫, 2003年) 経済史(332) 社会福祉(369) 地震学(453) 建築構造(524)「経済学事典」(日本経済新聞社, 1996年)経済史-日本 災害 地震誌(453.2) 地震 (332.1)経済史-日本 地震災害 地震予知 耐震建築-平成時代 (332.107) 図書館オントロジー (NDC, NDLSH) Wikipedia 経済史 災害 震災がその後の 日本の 災害と防災の 防災対策に 地震 経済史 歴史 与えた影響 平成時代 地震の歴史 震災を引き起こした 地震(1995年兵庫県 震災が日本経済に 南部地震) 42 与えた影響 阪神・淡路大震災
  43. 43. 情報探索の スタート地点 Web情報資源(サーチエンジン) フォークソノミー 情 図書館 Wikipedia 報 分類体系 の •NDC 専 対応づけ→ 門 •BSH・NDLSH 性 深い情報探多様な情報資源 ・信 索へ•入門書 頼•レファレンスブック 性•各種データベース•学術雑誌論文•過去の文献・資料 43
  44. 44. テーマグラフの導出• 入力したキーワードにマッチするWikipediaの 記事を出発点として、カテゴリネットワークを 芋づる式にたどる• 探索を発散させないための工夫 – 件名標目にたどりつかない経路はカットする – カテゴリ間の意味の類似度を考慮し、関連性の 低い経路はカットする 44
  45. 45. カテゴリ 「電気化学」 項目 スコア0.3 カテゴリ「燃料電池」 「電池」 スコア1.0 スコア0.7 カテゴリ 「電子部品」 スコア0.3 カテゴリ 「自動車工学」 スコア0.4 カテゴリ 「自動車」 スコア0.35 カテゴリ 「節予定」? カテゴリ スコア0.4 「予定」? スコア0.3 ? 45
  46. 46. 性能向上には電子工学、材料工学、 燃料電池の普及がCO2の 環境問題解決の切り札と化学などの分野にまた して注目されている? 削減にもたらす効果は?がった知見が必要? 将来の企業経営に与え るインパクトは? 燃料電池が一般家庭に 燃料電池の普及が生態 エネルギー政策の立案 普及した場合、電力網の 膨大な研究開発費は自 系にもたらす影響は? においてどのような位置 安定性にどのような影響 動車メーカーから投入さ づけがなされているか? があるか? れている?
  47. 47. リッテルナビゲーター• 東京大学ほか約10大学の図書館で利用• 国立国会図書館「リサーチ・ナビ」 – レファレンス情報のポータルサイト
  48. 48. 48
  49. 49. 49
  50. 50. 50
  51. 51. Littel Navigator English Version• 英語版Wikipedia – 約260万記事 ※現在は371万記事• LCSH – 約27万標目 – http://id.loc.gov/ よりダウンロード→ Wikipedia記事のうち82% (214万記事)に LCSH件名を付与できた
  52. 52. entry top 8 subject headings LCC scoresSeptember 11 Suicide HV6543 0.1802 attacks Islam BP1 0.1750 (84 subject Violence HM886 0.1547 headings) Accidents HB1323.A2 0.1521 Death BD443.8 0.1382 Terrorism HV6430 0.1349 Massacres BR1600 0.1349 Transportation GT5220 0.1324 Subprime Financial crises HB3722 0.3722 mortgage Economic history HC 0.2267 crisis Economics HB1 0.1612 (34 subject Macroeconomics HB172.5 0.0957 headings) History D 0.0774 Money GN450.5 0.0744 Finance HB1 0.0718 Historiography D13 0.0537
  53. 53. entry top 8 subject headings LCC scores Israeli– Arab-Israeli conflict DS119.7 0.6739Palestinian Islam BP1 0.1250 conflict History D 0.1122(14 subject Political geography JC319 0.0909 headings) Human geography GF 0.0594 Religion BL48 0.0565 Republics JC421 0.0524 Chronology CE 0.0425Super Mario Video games GV1469.3 0.1587 64 Games GN454.8 0.0920 (27 subject History D 0.0659 headings) Technology T 0.0616 Youth HQ793 0.0524 Mass media P87 0.0477 Communication P87 0.0434 Engineering TA 0.0374
  54. 54. Wikipediaの知見• ガイドライン(≠ルール)の運用• Multi-levelの組織化• フォークソノミーにはコミュニティを創り出す力 がある• ボトムアップのアプローチでも複雑なシステム を作れる可能性はある – e.g. 伽藍とバザール (Linuxの開発プロセス) 54
  55. 55. 情報整理技術的な観点• 情報検索が現実の人間の営みである以上、 ad hocな仕組みはビルトインされている必要 がある• 一方で、秩序を維持するための努力も要求さ れる• 評価は永遠の課題 – 試行錯誤は避けられない – ビジネスとしてworkしつづけるかどうか?

×