Mtg1210244. ISWC2011
Best-In-Use Paper
Leveraging
Community-built
Knowledge for Type
Coercion in QA
by IBM Research
8. 質問解析 分類器 回答タイプの決
定
DB
検索 コーパス
WEB
WEB
WEB
テキス
テキス
ト テキス
ト
解候補 ト
解候補
解 解候補
出力 スコアリン
グ
9. 質問解析 回答タイプ候補
DB
検索
解候補 解候補
解候補 解候補 コーパス
解候補 解候補
WEB
WEB
WEB
テキス
テキス
TyCor ト テキス
ト
ト
解
出力 スコアリン
グ 回答タイプ情報はあくまで解候補
に与えるスコア情報にとどめてお
く
13. WatsonのDeepQA~4つ のステップ~
Question Analysis
回答対象語(Lexical
Answer Type)が何である
か(表層文字列レベル)を構
↓ 文木などから判断し、抽
出する
Hypothesis Generation
↓ クエリを生成し、コーパ
スやDBから解答候補を大
量に獲得
Hypothesis and Evidence Scoring
↓
Candidate Ranking
14. WatsonのDeepQA~4つ のステップ~
Question Analysis
回答対象語(Lexical
Answer Type)が何である
か(表層文字列レベル)を構
↓ 文木などから判断し、抽
出する
Hypothesis Generation
↓ クエリを生成し、コーパ
スやDBから解答候補を大
量に獲得
Hypothesis and Evidence Scoring
↓
本論文で触れているところ
Candidate Ranking 解答候補にスコアをつける
n-gram, skip-
bigram,source-reliabilityな
ど多次元によってスコアリン
グ
その指標の一つとして回答タ
イプ情報がある
15. WatsonのDeepQA~4つ のステップ~
Question Analysis
回答対象語(Lexical
Answer Type)が何である
か(表層文字列レベル)を構
↓ 文木などから判断し、抽
出する
Hypothesis Generation
↓ クエリを生成し、コーパ
スやDBから解答候補を大
量に獲得
Hypothesis and Evidence Scoring
↓
本論文で触れているところ
Candidate Ranking 解答候補にスコアをつける
n-gram, skip-
bigram,source-reliabilityな
ど多次元によってスコアリン
スコアに基づいて解答を得る グ
確信度を計算し、クイズに答えるか答えないかの その指標の一つとして回答タ
戦略を練る イプ情報がある
16. WatsonのDeepQA~4つ のステップ~
Question Analysis
回答対象語(Lexical
Answer Type)が何である
か(表層文字列レベル)を構
↓ 文木などから判断し、抽
出する
Hypothesis Generation
↓ クエリを生成し、コーパ
スやDBから解答候補を大
量に獲得
Hypothesis and Evidence Scoring
↓
本論文で触れているところ
Candidate Ranking 解答候補にスコアをつける
n-gram, skip-
bigram,source-reliabilityな
ど多次元によってスコアリン
スコアに基づいて解答を得る グ
確信度を計算し、クイズに答えるか答えないかの その指標の一つとして回答タ
戦略を練る イプ情報がある
17. WatsonのDeepQA~4つ のステップ~
Question Analysis
回答対象語(Lexical
Answer Type)が何である
か(表層文字列レベル)を構
↓ 文木などから判断し、抽
出する
Hypothesis Generation Question Analysis
この論文で紹介されている のステップで得られた語
↓ を手がかりにしてクエリ
”TyCor” Component
を生成し、コーパスやDB
Hypothesis and Evidence Scoring
から解答候補を大量に獲
得
↓
本論文で触れているところ
Candidate Ranking 解答候補にスコアをつける
n-gram, skip-
bigram,source-reliabilityな
ど多次元によってスコアリン
スコアに基づいて解答を得る グ
確信度を計算し、クイズに答えるか答えないかの その指標の一つとして回答タ
戦略を練る イプ情報がある
19. EDM(Entity Disambiguation & Matching)
→解答候補群(candidate answers)をWikipediaのURIに結びつける
TR(Type Retrieval)
→EDMによって得られた概念をYAGOのクラスに結び付ける(解答
候補群それぞれの親を見つける)
PDM(Predicate Disambiguation & Matching)
→回答対象語(LAT)をYAGOのクラスに結びつける
TA(Type Alignment)
→candidate answersのtypeとLATのtypeの一致度を測り、
TyCor Componentにおけるスコアとして出力
20. EDM(Entity Disambiguation & Matching)
→解答候補群(candidate answers)をWikipediaのURIに結び
つける
TR(Type Retrieval)
→EDMによって得られた概念をYAGOのクラスに結び付ける
(解答候補群それぞれの親を見つける)
PDM(Predicate Disambiguation & Matching)
→回答対象語(LAT)をYAGOのクラスに結びつける
TA(Type Alignment)
→candidate answersのtypeとLATのtypeの一致度を測る
21. input: 解答候補(candidate answer)
output: Wikipediaのタイトル(URI)
Wikipediaの記事名, リダイレクト, アンカーリン
ク, 曖昧さ回避のページをランク付けの基準とし
て使う
・解答候補を単語→概念へマッピングする
・6つの指標によってランク付けする
・Optional ParameterとしてPopularityを用いる
(ページランクや、記事名のIDFを指標とする)
22. Direct Contextual Match
input: 解答候補(candidate answer)
Title Match
Redirect Match
output: Wikipediaのタイトル(URI)
Disambiguation Match
Wikipediaの記事名, リダイレクト, アンカーリン
Anchor-Link Match
ク, 曖昧さ回避のページをランク付けの基準とし
DBPedia name properties
て使う
・解答候補を単語→概念へマッピングする
・6つの指標によってランク付けする
・Optional ParameterとしてPopularityを用いる
(ページランクや、記事名のIDFを指標とする)
23. ①Direct Contextual Match
Wikipediaの記事名をソースに解候補が生成され
ている、もしくは他のWikipediaのページからリ
ンクされていればスコア1.0
②Title Match
Wikipediaの記事名と解答候補語が完全一致して
いればスコア1.0を与える
③Redirect Match
リダイレクトに(多少のノイズには目をつぶる)に
現われていればスコア1.0
25. ⑥DBpedia name properties
DBPediaには名前関連のプロパティが100以上あ
る。
名前、名称、愛称、姓、名・・・・など
解候補の文字列がこれらのトリプルの目的語に
なっている場合、主語相当のURIが結び付けるべ
き概念なのではないか、という考え。
S(URI)→P(名称などのプロパティ)→O(解候補の文
字列)
スコアは、1/SになったURIの数
26. input: EDMで得られたWikipediaのURI(解答候
補)
output: YAGOにおけるクラスのURI
解答候補語は基本的にはYAGOにおける極めて
highly-specificなクラスに紐づいている
例) CompaniesEstablishedIn1898
YAGOのクラス階層を、WordNetのクラスが存
在するレベルにまで上昇させる
27. input: Lexical Answer Type(LAT)
output: YAGOにおけるクラスのURI
Wikipediaの記事名, リダイレクト, アンカーリンク,
曖昧さ回避のページをランク付けの基準として使
う
・4つの指標によってランク付けする
28. input: Lexical Answer Type(LAT)
output: YAGOにおけるクラスのURI(へMatching)
Wikipediaの記事名, リダイレクト, アンカーリンク,
曖昧さ回避のページをランク付けの基準として使
う
・4つの指標によってランク付けする
WordNetのsense rank
DBPediaにおけるType Popularity
Domain-SpecificなType Mapping
条件付確率
30. ④条件付確率を使う。
AかつBのタイプを持つインスタンス数/Aのタイプを持つイ
ンスタンス数
この値が0.5を超えるなら、Bもタイプとして候補にする
例) LATが”俳優”に属し、”俳優”のインスタンス数が4万とする
“俳優”と”歌手” 両方をタイプとして持つインスタンスが2万
以上あれば、”歌手”のタイプも候補として加える。
一方、”俳優”と”大学教授”の両方をタイプとして持つインス
タンスが100程度しかなければ、候補としては加わらない。
これによってカバー率を上げている
32. input: TRで得られた解答候補のtype,
PDMで得られたLATのtype
output: 両者の一致度を示すスコア
・6つの指標によってランク付けする
Equivalent/Sub Class Match
Disjoint Match
Sibling Match
Super Class Match
Statistical Relatedness
Lowest Common Ancestor
33. ①Equivalent/Sub Class Match
LATとcandidate answerのtypeがYAGOにおいて、
equivalent もしくは candidate answerのtypeがLAT
のtypeのsubclassならば、score1.0を与える
②Disjoint Match
逆に、LATとcandidate answerのtypeがYAGOにおい
てdisjointであれば、score-1.0を与える
③Sibling Match
LATとinstanceが親クラスを共有していれば
score0.5を与える、但し、上位過ぎるクラスで共有さ
れている場合(depth<6)はこの限りではない
34. ④Super Class Match
candidate answerのtypeがLATのtypeより上位概念の場
合、score0.3を与える。これは直感的にはおかしいこと
(基本的には解候補はLATの下位概念であるはず)だが、
EDMやPDMの誤りを緩和するために経験則的に必要らし
い
⑤Statistical Relatedness
閾値を設けてスコアを微調整する
⑥Lowest Common Ancestor
candidate answerとLATのLowest Common なクラスが
YAGOにおいてdepth>6の場合、スコア0.25を与える
40. 人物
東京都出身の人物
東京都出身の人物(自転車競技) 1~2程度の弁別属性を含む語が直属
のクラスとなっている。粒度として
はかなり細かい。
高 市
村 山
宮 川
直 雅
樹 正
敏
41. 人物
XのY(Z)型
が非常に多い
東京都出身の人物
東京都出身の人物(自転車競技) 1~2程度の弁別属性を含む語が直属
のクラスとなっている。粒度として
はかなり細かい。
高 市
村 山
宮 川
直 雅
樹 正
敏
42. 人物
東京都出身の人物 自転車競技選手
東京都出身の人物(自転車競技)
定義文から新
たに抽出でき
るC-I関係
高 市 竹
山
村 川 谷
宮
直 正 雅 賢
樹 敏 二
43. 人物
スポーツ選手
東京都出身の人物 自転車競技選手
東京都出身の自転車競技選手
高 市 竹
山
村 川 谷
宮
直 正 雅 賢
樹 敏 二
44. 記事として存 記事が存在しな
在 い
一覧ページに存在する語 約16万語 約14万語 約30万語
一覧ページに存在しない 約61万語 - -
語
約77万語 - -
~今までのアプローチ~
一覧ページの箇条書き項目を収集
Infoboxテンプレート名を収集
45. 記事として存 記事が存在しな
在 い
一覧ページに存在する語 約16万語 約14万語 約30万語
一覧ページに存在しない 約61万語 - -
語
約77万語 - -
語として不適切なものを取り除く
必要がある
既に抽出したものと被ること
もあるが、is-A関係が構築で
きる可能性
46. 記事として存 記事が存在しな
在 い
一覧ページに存在する語 約16万語
約61万語 約14万語 約30万語
一覧ページに存在しない 約61万語 - -
語
約77万語 - -
記事として存在 かつ 一覧ページに存在しない語
Infoboxあ
り
49. ランダムに選んだインスタンス約300語を対象に
前述の手法が仮にうまく働いたとして、どの程度
の深さのクラスが定義文から抽出されるかを調べ
た。
定量化は難しいが、基準としては日本語語彙体系
のカテゴリ(約3000)とインスタンス(約10万)
例) 名詞→具体→主体→場所→施設→公共施設→学校→小学校(最下層)
例) 名詞→具体→具体物→無生物→人工物→物品→商品→加工物(最下層)
50. 33% 54% 12% 1%
未知数 約100,000語 約2,000語 数100程度
レベル レベル
51. アナウンサー,
自衛官
フリーアナウン
サー, ジャーナリスト,
航空自衛官 軍人
人
33% 54% 12% 1%
未知数 約100,000語 約2,000語 数100程度
レベル レベル
53. 上位語がとれなかった記事
定義文に上位語相当語
句が含まれていない
状態や行動名を長い名
詞句で説明しており、
取り出す長さがチャン
ク単位を超える
日付や文字など、そも
そも取る価値があるの
か不明
54. ルールベース
「~は~で、主に~を行っている。」などのルー
ルの適用できない多様な形式に対して取りこぼし
が多い
Wikipediaの構造を利用した機械学習ベース
見出し語や、段落の階層関係を利用
55. 定義文
~藤野真紀子~ (1文目)
藤野真紀子 日本の 政治 料理研究 エッセイストで
は、 家、 家、 ある。
1文目の先頭チャンクは必ず記事名を含むという
仮定
Cabochaで解析された(固有表現IOBタグが振られ
た)チャンク単位が妥当であり、それらの係り受け
関係も正しいという仮定
何らかの方法でクラス相当語句を含むチャンクを
見つけ出すというアプローチ
56. 定義文
~藤野真紀子~ (1文目)
藤野真紀子 日本の 政治 料理研究 エッセイストで
は、 家、 家、 ある。
2番目~末尾のチャンクそれぞれに対して
スコアリングを行い、ある閾値以上のチャンクは
その記事名の語の 「クラス相当語句が含まれ
ている」と仮定し、それらのチャンク内から語句
を切り出して抽出する(簡単なルールで抽出可能)
2値分類問題としてSVMで扱う
57. f(w)<0 定義文
~藤野真紀子~ (1文目)
藤野真紀子は、 日本の 政治 料理研究 エッセイストで
家、 家、 ある。
2番目~末尾のチャンクそれぞれに対して
スコアリングを行い、ある閾値以上のチャンクは
その記事名の語の 「クラス相当語句が含まれ
ている」と仮定し、それらのチャンク内から語句
を切り出して抽出する(簡単なルールで抽出可能)
2値分類問題としてSVMで扱う
58. f(w)<0 f(w)>0 定義文
~藤野真紀子~ (1文目)
藤野真紀子 日本の 政治 料理研究 エッセイストで
は、 家、 家、 ある。
2番目~末尾のチャンクそれぞれに対して
スコアリングを行い、ある閾値以上のチャンクは
その記事名の語の 「クラス相当語句が含まれ
ている」と仮定し、それらのチャンク内から語句
を切り出して抽出する(簡単なルールで抽出可能)
2値分類問題としてSVMで扱う
59. f(w)<0 f(w)>0 f(w)>0 定義文
~藤野真紀子~ (1文目)
藤野真紀子 日本の 政治 料理研究 エッセイストで
は、 家、 家、 ある。
2番目~末尾のチャンクそれぞれに対して
スコアリングを行い、ある閾値以上のチャンクは
その記事名の語の 「クラス相当語句が含まれ
ている」と仮定し、それらのチャンク内から語句
を切り出して抽出する(簡単なルールで抽出可能)
2値分類問題としてSVMで扱う
60. f(w)<0 f(w)>0 f(w)>0 定義文
f(w)>0
~藤野真紀子~ (1文目)
藤野真紀子は、 日本の 政治 料理研究 エッセイストで
家、 家、 ある。
2番目~末尾のチャンクそれぞれに対して
スコアリングを行い、ある閾値以上のチャンクは
その記事名の語の 「クラス相当語句が含まれ
ている」と仮定し、それらのチャンク内から語句
を切り出して抽出する(簡単なルールで抽出可能)
2値分類問題としてSVMで扱う
61. 定義文
~藤野真紀子~ (1文目)
藤野真紀子 日本の 政治 料理研究 エッセイストで
は、 家、 家、 ある。
2番目~末尾のチャンクそれぞれに対して
スコアリングを行い、ある閾値以上のチャンクは
その記事名の語の 「クラス相当語句が含まれ
ている」と仮定し、それらのチャンク内から語句
を切り出して抽出する(簡単なルールで抽出可能)
2値分類問題としてSVMで扱う
62. チャンクの位置、文字列長
直前のチャンクにおけるいくつかの素性
「であり、」, 「である。」, 「の一つ」などの
キーワードを含むかどうか
主題の語との係り受け関係(直接係っているのか、
ほかのチャンクをいくつか経由して係っているの
か)
形態素一致率(共通する度合いが高いチャンクほど
スコアをあげる等)
例) 国際会計基準と会計基準
形態素の共起度合
63. f(w)<0 f(w)>0 f(w)>0 定義文
f(w)>0
~藤野真紀子~ (1文目)
藤野真紀子 日本の 政治 料理研究 エッセイストで
は、 家、 家、 ある。
学習時に正解か否かは、人手でラべリングすることに
なる
64. 学習時には正解となるチャンクに対して正例ラベ
ルを振っても良いが、Infoboxを含む記事ならば
Infoboxテンプレート名がチャンクに含まれてい
ればそれを解として与えることができる可能性が
高い
テンプレート名:サッカー
選手
エステバン・マティアス・カンビアッソ・デレアウ
は、アルゼンチン・ブエノスアイレス出身で、同国代
表、インテル所属のサッカー選手
65. 学習時には正解となるチャンクに対して正例ラベ
ルを振っても良いが、Infoboxを含む記事ならば
Infoboxテンプレート名がチャンクに含まれてい
ればそれを解として与えることができる可能性が
高い
テンプレート名:サッカー
選手
エステバン・マティアス・カンビアッソ・デレアウ
は、アルゼンチン・ブエノスアイレス出身で、同国代
表、インテル所属のサッカー選手
自動的に正解データを付与できる!
66. 定義文に対し
て 素性抽出
前処理 チャンク長
記事
記事 チャンク位置
定義文
記事
定義文 形態素一致率
定義文 形態素解析 係り受け関係
チャンキング 共起度合いなど
係り受け解析
人手
正解ラベルの 学習
付与
Infobox 自動
閾値判定によ
る正解付与
分類器