Your SlideShare is downloading. ×
  • Like
Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

  • 187 views
Published

 

Published in Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
187
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Wikipedia  Templateから抽出した   意味的関係インスタンスによる質問応答手法 真嘉比 愛†,S#jn  De  Saeger‡,   鳥澤 健太郎‡,呉 鍾勲‡,山本 和英†     †長岡技術科学大学 電気系   ‡(独)  情報通信研究機構 ユニバーサルコミュニケーション研究所  
  • 2. 研究の目的 •  質問応答システム「一休」を拡張   網羅性・即時更新性の高いWikipedia  Templateに着目    →  Wikipedia  Template中の情報を知識源として利用      した質問応答システムを提案 ゴーヤを 使った   料理は? 塩焼きそば,   ゴーヤチャン プルー,   … Webデータ Web文書中から   質問の回答を   リアルタイム検索 質問応答システム: 一休
  • 3. Wikipedia  Template データを   自動的に取得 記事名 Template名 属性名 属性値 アバター Film 監督 ジェームズ・キャメロン アバター Film 出演者 サム・ワーシントン 記事名:アバター(映画)     {{Infobox  Film   |  作品名 =  アバター   |  監督 =  [[ジェームズ・キャメロン]]   |  脚本 =  [[ジェームズ・キャメロン]]   |  出演者 =  サム・ワーシントン<br  / >[[シガニー・ウィーバー]]<br  />ゾー イ・サルダナ    ….. 各種情報を   自動的に抽出
  • 4. 用語の定義 •  関係名   –   Template名と属性名の組み合わせ     e.g.  Film  出演者   •  関係インスタンス   –   記事名+属性値     e.g.  アバター,サム・ワーシントン                         アバター,シガニー・ウィーバー        1つの関係名は    複数の関係インスタンス    を持つ  
  • 5. 研究の目的 •  質問文が問うている関係名を自動的に特定 することで,対応する回答を提示する質問 応答システムを提案   Q:アバターに出演している人は誰?   Q:  アバターで有名な人は誰? A:  サム・ワーシントン      シガニー・ウィーバー Film  出演者   →  回答が自明でない質問に対しても回答を返すことができる
  • 6. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 オフライン処理 関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン   サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演  
  • 7. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   オフライン処理 関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 8. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   オフライン処理 関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 9. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 オフライン処理 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 10. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 オフライン処理 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 11. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 オフライン処理 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 12. 関係名対応パタンの獲得  1/2 •  各関係名毎に係り受け解析した6億ページの Web文書から,換言により拡張した関係インス タンスが共起する構文パタンを獲得        e.g.  アバターに出演するサム・ワーシントン       → Aに出演するB  (関係名:  Film  出演者)        e.g.  アバターでサム・ワーシントンが乗る翼竜       → AでBが乗る  (関係名:  Film  出演者)   – 全ての関係名に対し,「Aの(属性名)はB」という構 文パタンを追加(e.g.  Aの出演者はB)  
  • 13. 関係名対応パタンの獲得 2/2 •  データ過疎性を考慮し,活用の違いを無視するため に,構文パタンから内容語のみを抽出した単語集合 を獲得        e.g.  Aに出演したB →  A  B  出演            Bが出演するA      →  A  B  出演   これらを   「関係名対応パタン」   と見なす 回答候補は質問文中の名詞と特定の関係名を持つ語に   限定される(=強い意味クラスの制限を受ける)    → 助詞を考慮しない事で大きな影響はないと予想 e.g.  アバターに出演している人は誰ですか?        アバター (Film  出演者)      サム・ワーシントン             (Film  監督)   ジェームズ・キャメロン 回答候補
  • 14. 関係名対応パタンへスコアを付与 華町 ンス タン マト, 本語 ス ID 1.3, 関係 して 演).更に抽出したパタン群を関係名を表現する代表的 なパタンのスコアが高くなるよう重み付けする.ここ では情報検索における一般的な特徴単語の重み付け手 法である TF-IDF 法に則り,関係名 r におけるパタン p の重み wgt(r, p) を式 (1) で定義する. wgt(r, p) = np,r x nx,r × log2 |R| |Rp| + 1 (1) ここで np,r は関係名 r 中の全インスタンスに対するパ タン p の共起頻度, x nx,r は関係名 r 中のパタン総数, |R| は関係名の総数,|Rp| はパタン p がその関係インス タンスと共起する関係名の総数をそれぞれ表している. 例外的に導入した「A の (属性名) は B」というパタン に対しては,関係名中で最も高かったスコアと同等の値 •  関係名を表現する関係名対応パタンのスコアが高くな るよう重み付けを行う   •  TF-­‐IDF法にのっとり,関係名rにおけるパタンpの重み wgt(r,  p)を定義 関係名中に頻繁に出現するパタンはスコアが高くなる 多くの関係名に出現するパタンはスコアが低くなる ブラック・ラグーン hotel 設計 ホテルエンパイア ハヤテのごとく! ダム 施行業者 上郷ダム ケータイ少女 ダム 施工業者 内村ダム 人類は衰退しました ダム 施工業者 美和ダム ホットギミック ダム 施工業者 八汐ダム 神のみぞ知るセカイ ダム 施工業者 七色ダム レヴィアタンの恋人 ダム 施工業者 天ヶ瀬ダム 演).更に抽出したパタン群を関係名を表現する代表的 なパタンのスコアが高くなるよう重み付けする.ここ では情報検索における一般的な特徴単語の重み付け手 法である TF-IDF 法に則り,関係名 r におけるパタン p の重み wgt(r, p) を式 (1) で定義する. wgt(r, p) = np,r x nx,r × log2 |R| |Rp| + 1 (1) ここで n は関係名 r 中の全インスタンスに対するパ ブラック・ラグーン hotel 設計 ホテルエンパイア ハヤテのごとく! ダム 施行業者 上郷ダム ケータイ少女 ダム 施工業者 内村ダム 人類は衰退しました ダム 施工業者 美和ダム ホットギミック ダム 施工業者 八汐ダム 神のみぞ知るセカイ ダム 施工業者 七色ダム レヴィアタンの恋人 ダム 施工業者 天ヶ瀬ダム , 演).更に抽出したパタン群を関係名を表現する代表的 なパタンのスコアが高くなるよう重み付けする.ここ では情報検索における一般的な特徴単語の重み付け手 法である TF-IDF 法に則り,関係名 r におけるパタン p の重み wgt(r, p) を式 (1) で定義する. wgt(r, p) = np,r x nx,r × log2 |R| |Rp| + 1 (1) ここで n は関係名 r 中の全インスタンスに対するパ ・ラグーン hotel 設計 ホテルエンパイア ごとく! ダム 施行業者 上郷ダム 少女 ダム 施工業者 内村ダム 退しました ダム 施工業者 美和ダム ミック ダム 施工業者 八汐ダム 知るセカイ ダム 施工業者 七色ダム タンの恋人 ダム 施工業者 天ヶ瀬ダム 抽出したパタン群を関係名を表現する代表的 のスコアが高くなるよう重み付けする.ここ 検索における一般的な特徴単語の重み付け手 F-IDF 法に則り,関係名 r におけるパタン p (r, p) を式 (1) で定義する. (r, p) = np,r x nx,r × log2 |R| |Rp| + 1 (1) は関係名 r 中の全インスタンスに対するパ 要塞マクロス 体育館 施行 府中市立総合体育館 ク・ラグーン hotel 設計 ホテルエンパイア のごとく! ダム 施行業者 上郷ダム イ少女 ダム 施工業者 内村ダム 衰退しました ダム 施工業者 美和ダム ギミック ダム 施工業者 八汐ダム ぞ知るセカイ ダム 施工業者 七色ダム アタンの恋人 ダム 施工業者 天ヶ瀬ダム に抽出したパタン群を関係名を表現する代表的 のスコアが高くなるよう重み付けする.ここ 検索における一般的な特徴単語の重み付け手 TF-IDF 法に則り,関係名 r におけるパタン p gt(r, p) を式 (1) で定義する. gt(r, p) = np,r x nx,r × log2 |R| |Rp| + 1 (1) : 関係名の総数 : パタンpが出現する    関係名の総数 : 関係名rにおける    パターンpの出現頻度 : パタンpの出現頻度  
  • 15. パタンの拡張 •  より多くの換言表現を獲得する     → 関係名パタンの内容語をALAGINの動詞含意           関係データベースで換言し,パタンを拡張           ※拡張で得られた関係名表現パタンには,元パタンと    同様のスコアがふられる   ※「A  B  (属性名)」の関係名対応パタンには,関係名中    で最も高いスコアと同じ値がふられる A  B  出演        0.507292    →  A  B  演じる    0.507292    →  A  B  出る      0.507292
  • 16. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 オフライン処理 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 17. 提案手法の概要 質問: アバターに出演している人は誰? Film  出演者,A  B  出演  =  0.507292   Film  監督,A  B  出演  =    0.012332   回答: サム・ワーシントン,・・・ 関係名と質問文パタンの組合せに   対応するスコアを割り当てる スコアの高い関係名の順に   対応する回答を提示 質問文パタンの抽出   回答候補(+関係名)を取得 オフライン処理 サム・ワーシントン (Film  出演者)   ジェームズ・キャメロン (Film  監督)     Aに出演しているB  →  A  B  出演   関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……   関係名-­‐関係名対応パタンDB 関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン   関係名:Film  監督   アバター,J・キャメロン  
  • 18. 質問応答部の処理  1/2 質問文:アバターに出演している人は誰? トピック候補: アバター,人,誰,出演   A  B  出演, A  B  演じる, A  B  出演 人 サム・ワーシントン,…      (Film  出演者)   ジェームズ・キャメロン (Film  監督)   J-­‐POP                                                                (album  ジャンル)   構文パタン:Aに出演しているB,                                              Aに出演している人はB,…   関係名-­‐関係インスタンスDB 関係名:  Film  出演者    アバター,S・ワーシントン    アバター,S・ウィーバー   関係名:Film  監督   アバター,J・キャメロン   関係名:album  ジャンル   人,J-­‐POP   →  質問文パタンの集合 →  回答候補集合,関係名
  • 19. 質問応答部の処理  2/2 Film  出演者  A  B  出演  0.507292   Film  出演者  A  B  演じる 0.507292   Film  監督    A  B  出演 0.103215   Film  監督          A  B  演じる  0.103215   Film  出演者 =  0.507292+0.507292=1.014584   Film  監督 =  0.103215+0.103215=0.20643   関係名ごとに   スコア合計値を計算   回答:サム・ワーシントン,シガニー・ウィーバー,… スコアが高い順に回答   候補集合から回答を提示 質問中で共起した関係名,質問文パタンの組み合わせ についてスコアを獲得   関係名:  Film  出演者    A  B  出演 0.507292    A  B  演じる    0.507292                                      ……   関係名-­‐関係名対応パタンDB
  • 20. 実験
  • 21. 実験方法 •  アノテーター3名で,特定の条件を満たす100個 の関係名に対し,関係インスタンスを3つずつ選 択し,質問回答のペアを作成   –  重複した質問を削除  →  893個の質問回答ペアを作成   •  893個の質問に対する提案手法の出力を以下の 2つの尺度で評価   –  上位N(N=1,  3,  5,  10)件以内に正答を含む確率   –  Mean  Average  Precision  (MAP)   ※Wikipedia上で正解とされる結果が複数あった場合, そのうちのどれが出力されても正解と見なす   •  e.g.  アバターに出演していたのは誰ですか?   –  サム・ワーシントン,シガニー・ウィーバー  
  • 22. 比較手法 •  提案手法の結果を2つの手法と比較   – 比較手法1   •  質問文中の名詞と関係インスタンスを成す語(回答候 補集合)の中から無作為に回答を提示する手法   –  6億ページのWeb文書から得られたパタンの有効性を確認   –  パタンを利用した関係名特定の有効性を確認   – 比較手法2   •  パタンの抽象化,パタンの換言を行わず,構文パタン をそのまま用いる手法   –  データ過疎性を考慮したパタン抽象化,およびパタン換言の 有効性を確認
  • 23. 実験結果 比較手法1  (%) 比較手法2  (%) 提案手法  (%) 精度@1 31.3 47.9 53.1 精度@3 45.3 58.3 65.2 精度@5 52.5 64.4 71.2 精度@10 64.3 71.8 76.8 MAP 33.9 52.1 65.7 •  上位10件以内に正答を含む確率(精度@10):  76.8  %   •  Mean  Average  Precision:  65.7  %   •  比較手法1,比較手法2に対して出力精度が向上   –  提案手法の有効性を確認  
  • 24. 出力結果例 質問: タイタニックで有名な人は誰?      レオナルド・ディカプリオ (Film  出演者)    ケイト・ウィンスレット (Film  出演者)    ジェームズ・キャメロン (Film  監督)    ジェームズ・ホーナー (Film  音楽)    ジョン・ランドー (Film  制作)    ジョン・ランドー (Film  製作総指揮)    コンラッド・パフ (Film  編集)    リチャード・A・ハリス (Film  編集)    アメリカ合衆国 (Film  製作国)    20世紀フォックス (Film  配給)   質問: 大林組が携わった建物は何?      名古屋市総合体育館 (体育館 施工)    大阪市中央体育館 (体育館 施工)    府立市立総合体育館 (体育館 施工)    ホテルエンパイア (hotel  設計)    上郷ダム (ダム 施工業者)    内村ダム (ダム 施工業者)    美和ダム (ダム 施工業者)    八汐ダム (ダム 施工業者)    七色ダム (ダム 施工業者)    天ヶ瀬ダム (ダム 施工業者)   ※()内は関係名 •  提案手法の出力結果上位10件の例
  • 25. まとめ •  質問文のパタンから質問文が問うている関係 名を特定し,対応する回答を提示する質問応 答システムを構築   – Wikipedia  Templateを質問応答の知識源として利 用する手法を提案   •  提案手法は出力結果上位10件以内に正答を 含む確率が76.8%,MAP値が65.7%
  • 26. 関係インスタンスの拡張 •  以下の条件で関係インスタンスの単語を換言し, 構文パタン獲得に利用   –  2文字よりも長い末尾の単語で換言   •  e.g.  NICT,京都府精華町 → NICT,精華町   –  Wikipedia上でリダイレクトされている単語で換言   •  e.g.  ヤマト運輸,航空輸送 → クロネコヤマト,航空輸送   –  高度言語情報融合フォーラム(ALAGIN)の言語資源 を用いて換言   •  日本語異表記データベース中の異表記対で換言   –  e.g.  ジャパンタイムス,新聞業 → ジャパン・タイムズ,新聞業   •  基本的意味関係の事例ベース中の同義語対で換言   –  e.g.  マイクロソフト,開発 → MS社,開発  
  • 27. 構文パタンの獲得結果 •  10,468個の関係名に対し,2,946,385個の構 文パタンが得られた. – 構文パタンが得られなかった例   •  関係インスタンスが疎な関係名   –  e.g.  関係名: 天体軌道 近日点距離   •  関係インスタンスの情報が記号で表現されているもの   –  e.g.  関係名: 駅情報 社色        関係インスタンス: 大阪駅,#0072bc   •  Wikipedia  Templateの抽出誤りによるもの  
  • 28. 言い換えによる関係インスタンスの追加  1/2 •  基本的意味関係の事例ベース(Ver.1.3)の同義 語群   –  追加された関係インスタンス:  36,728   •  追加されたパターン:  351,261   •  Wikipediaリダイレクト   –  追加された関係インスタンス:  15,648,644   •  追加されたパターン:  567,671   •  日本語異表記対データベース(Version1.1)   –  追加された関係インスタンス:  33,329   •  追加されたパターン:  89,960  
  • 29. 言い換えによる関係インスタンスの追加  2/2 •  suffixが一致する語を関係インスタンスとして 利用   – e.g.  NICT,京都府相楽郡精華町(企業,所在地)   –  関係インスタンス:  NICT 精華町   •  日本語異表記対データベース(Version1.1)   – 人手生成対:61,555   – SVMのLinear  kernelで学習した分類器で獲得した 異表記対:1,530,000(Precision:約95%)   – SVMのPolynomial  kernelで学習した分類器で獲 得した異表記対:1,300,000(Precision:約95%)  
  • 30. 評価実験用データの用意  1/2 •  以下の条件を満たすものは除外   – 関係インスタンスの単語の大半が外国語表記に なるもの   •  e.g.  関係名: 大統領 各国語表記   – 関係インスタンスの単語対が同じ単語になるもの   •  e.g.  関係名: モデル モデル名       関係インスタンス: 相沢紗世,相沢紗世   – 関係インスタンスの単語が一文節を超える固有 名であるもの   •  e.g.  ハリーポッターと賢者の石,ダニエル・ラドクリフ
  • 31. 評価実験用データの用意  2/2 •  質問作成の際に定めた条件   –  質問文中に用いる関係名は一つに限定   •  e.g.  関係名:  Film  出演者                        関係インスタンス:  アバター,サム・ワーシントン     アバターに出演していて,1976年生まれの人は誰ですか?   –  1つの関係名について作成される質問は全て言い回しを 変え,   •  e.g.  アバターに出演した人は誰ですか?   •  e.g.  アバターで演じているのは誰ですか? 重複した質問を削除 → 893個の評価セットを作成
  • 32. 結果のエラー解析 •  質問文中の情報を全て扱っていないことによる抽出ミス   –  e.g.  男女共学で学ぶ幼稚園はどこですか   •  質問パタン:  A  B  学ぶ   •  正答を含む関係名: 日本の幼稚園 共学・別学   •  抽出した関係名 : 日本の中等教育学校 共学・別学   → 回答の上位語を推定することで解決できる   •  疑問詞のタイプを区別していないことによる抽出ミス   –  e.g.  リリアン・J・ブラウンが誕生したのはいつですか.   •  質問パタン:  A  B  誕生   •  正答を含む関係名: 作家 誕生日   •  抽出した関係名 : 作家 誕生地   → 回答の属性情報を考慮することで解決できる   •  Web文書中にほとんど関係インスタンスが存在しないため, 有効なパタンが得られない.   –  e.g.  関係名: 商業施設 駐車台数   –  Web文書中で発見された総インスタンス数:  4