Mtg121024

山口研究室M1
香川宏介

1.論文紹介

2.定義文からのCI関係抽出

ISWC2011
Best-In-Use Paper

Leveraging
Community-built
Knowledge for Type
Coercion in QA
by IBM Research

Answer Typeを決定

これまでの手法
①質問文から回答タイプを決定
②文書群から回答タイプ制約下で候補
を絞る

Joepardy! のような多分野からの出題
の場合、回答タイプがどうなり、その
インスタンスがどれくらいあるのか、
容易にはわからない。そこで、正しい
回答タイプを決定しようというプロセ
スをとるのではなく、回答タイプ情報
を用いずに解答候補を取得しておい
て、回答タイプにふさわしいかを判定
する

回答タイプをあくまで解候補のスコ
アの一部として利用するアプローチ

質問解析分類器回答タイプの決
定
DB

検索コーパス

WEB
WEB
WEB
テキス
テキス
トテキス
ト
解候補ト
解候補
解解候補

出力スコアリン
グ

質問解析回答タイプ候補
DB

検索
解候補解候補
解候補解候補コーパス
解候補解候補
WEB
WEB
WEB
テキス
テキス
TyCor トテキス
ト
ト

解

出力スコアリン
グ回答タイプ情報はあくまで解候補
に与えるスコア情報にとどめてお
く

WATSON
の
回答プロセス

WatsonのDeepQA～4つのステップ～
Question Analysis
↓
Hypothesis Generation
↓
Hypothesis and Evidence Scoring
↓
Candidate Ranking

Question Analysis
回答対象語(Lexical
Answer Type)が何である
か(表層文字列レベル)を構
↓ 文木などから判断し、抽
出する
↓
↓
Candidate Ranking

Question Analysis
出する
↓ クエリを生成し、コーパ
スやDBから解答候補を大
量に獲得
↓
Candidate Ranking

Question Analysis
出する
量に獲得
↓
本論文で触れているところ
Candidate Ranking 解答候補にスコアをつける
n-gram, skip-
bigram,source-reliabilityな
ど多次元によってスコアリン
グ
その指標の一つとして回答タ
イプ情報がある

Question Analysis
出する
量に獲得
↓
n-gram, skip-
スコアに基づいて解答を得るグ
確信度を計算し、クイズに答えるか答えないかのその指標の一つとして回答タ
戦略を練るイプ情報がある

Question Analysis
出する
Hypothesis Generation Question Analysis
この論文で紹介されているのステップで得られた語
↓ を手がかりにしてクエリ
”TyCor” Component
を生成し、コーパスやDB
から解答候補を大量に獲
得

↓
n-gram, skip-
スコアに基づいて解答を得るグ
確信度を計算し、クイズに答えるか答えないかのその指標の一つとして回答タ
戦略を練るイプ情報がある

Hypothesis Generation において
生成された解答候補(例：宮崎駿)と

Question Analysis において
生成された回答対象語(例：監督)の

それぞれのtypeの一致度を測ってスコ
アを出力

EDM(Entity Disambiguation & Matching)
→解答候補群(candidate answers)をWikipediaのURIに結びつける

TR(Type Retrieval)
→EDMによって得られた概念をYAGOのクラスに結び付ける（解答
候補群それぞれの親を見つける）

PDM(Predicate Disambiguation & Matching)
→回答対象語(LAT)をYAGOのクラスに結びつける

TA(Type Alignment)
→candidate answersのtypeとLATのtypeの一致度を測り、
TyCor Componentにおけるスコアとして出力

EDM(Entity Disambiguation & Matching)
→解答候補群(candidate answers)をWikipediaのURIに結び
つける

TR(Type Retrieval)
→EDMによって得られた概念をYAGOのクラスに結び付ける
（解答候補群それぞれの親を見つける）

PDM(Predicate Disambiguation & Matching)
→回答対象語(LAT)をYAGOのクラスに結びつける

TA(Type Alignment)
→candidate answersのtypeとLATのtypeの一致度を測る

input: 解答候補(candidate answer)
output: Wikipediaのタイトル(URI)
Wikipediaの記事名, リダイレクト, アンカーリン
ク, 曖昧さ回避のページをランク付けの基準とし
て使う

・解答候補を単語→概念へマッピングする
・6つの指標によってランク付けする
・Optional ParameterとしてPopularityを用いる
（ページランクや、記事名のIDFを指標とする）

Direct Contextual Match
input: 解答候補(candidate answer)
Title Match
Redirect Match
output: Wikipediaのタイトル(URI)
Disambiguation Match
Wikipediaの記事名, リダイレクト, アンカーリン
Anchor-Link Match
ク, 曖昧さ回避のページをランク付けの基準とし
DBPedia name properties
て使う

・解答候補を単語→概念へマッピングする
・Optional ParameterとしてPopularityを用いる
（ページランクや、記事名のIDFを指標とする）

①Direct Contextual Match
Wikipediaの記事名をソースに解候補が生成され
ている、もしくは他のWikipediaのページからリ
ンクされていればスコア1.0
②Title Match
Wikipediaの記事名と解答候補語が完全一致して
いればスコア1.0を与える
③Redirect Match
リダイレクトに(多少のノイズには目をつぶる)に
現われていればスコア1.0

④Disambiguation Match
曖昧さ回避のページに現れていれば、
1/(the number of disambiguations)
のスコアを与える
⑤Anchor Link Match
[[米国|アメリカ合衆国(URI)]]
のように、Wikipediaにはリンクの文字列とURI
のセットが多数ある。”米国”のリンクの文字列が
与えられたときに、”アメリカ合衆国”へ結ばれて
いる確率をスコアとして与える

⑥DBpedia name properties
DBPediaには名前関連のプロパティが100以上あ
る。
名前、名称、愛称、姓、名・・・・など
解候補の文字列がこれらのトリプルの目的語に
なっている場合、主語相当のURIが結び付けるべ
き概念なのではないか、という考え。
S(URI)→P(名称などのプロパティ)→O(解候補の文
字列)

スコアは、1/SになったURIの数

input: EDMで得られたWikipediaのURI(解答候
補)
output: YAGOにおけるクラスのURI

解答候補語は基本的にはYAGOにおける極めて
highly-specificなクラスに紐づいている
例) CompaniesEstablishedIn1898

YAGOのクラス階層を、WordNetのクラスが存
在するレベルにまで上昇させる

input: Lexical Answer Type(LAT)
output: YAGOにおけるクラスのURI
Wikipediaの記事名, リダイレクト, アンカーリンク,
曖昧さ回避のページをランク付けの基準として使
う


input: Lexical Answer Type(LAT)
output: YAGOにおけるクラスのURI(へMatching)
Wikipediaの記事名, リダイレクト, アンカーリンク,
曖昧さ回避のページをランク付けの基準として使
う

WordNetのsense rank
DBPediaにおけるType Popularity
Domain-SpecificなType Mapping
条件付確率

①WordNetのsense rank

②DBPediaにおけるType Popularity
DBPediaにおいてその概念がいくつのinstance
を持つか

③Domain SpecificなType-mapping
Jeopardy!では過去問を調べたところ、starが
75%の割合で「映画スター」を指し、「星」の
意味では25%程度だった

④条件付確率を使う。
AかつBのタイプを持つインスタンス数/Aのタイプを持つイ
ンスタンス数
この値が0.5を超えるなら、Bもタイプとして候補にする

例) LATが”俳優”に属し、”俳優”のインスタンス数が4万とする

“俳優”と”歌手” 両方をタイプとして持つインスタンスが2万
以上あれば、”歌手”のタイプも候補として加える。

一方、”俳優”と”大学教授”の両方をタイプとして持つインス
タンスが100程度しかなければ、候補としては加わらない。

これによってカバー率を上げている

input: TRで得られた解答候補のtype,
PDMで得られたLATのtype
output: 両者の一致度を示すスコア


input: TRで得られた解答候補のtype,
PDMで得られたLATのtype
output: 両者の一致度を示すスコア


Equivalent/Sub Class Match
Disjoint Match
Sibling Match
Super Class Match
Statistical Relatedness
Lowest Common Ancestor

①Equivalent/Sub Class Match
LATとcandidate answerのtypeがYAGOにおいて、
equivalent もしくは candidate answerのtypeがLAT
のtypeのsubclassならば、score1.0を与える

②Disjoint Match
逆に、LATとcandidate answerのtypeがYAGOにおい
てdisjointであれば、score-1.0を与える

③Sibling Match
LATとinstanceが親クラスを共有していれば
score0.5を与える、但し、上位過ぎるクラスで共有さ
れている場合(depth<6)はこの限りではない

④Super Class Match
candidate answerのtypeがLATのtypeより上位概念の場
合、score0.3を与える。これは直感的にはおかしいこと
（基本的には解候補はLATの下位概念であるはず）だが、
EDMやPDMの誤りを緩和するために経験則的に必要らし
い

⑤Statistical Relatedness
閾値を設けてスコアを微調整する

⑥Lowest Common Ancestor
candidate answerとLATのLowest Common なクラスが
YAGOにおいてdepth>6の場合、スコア0.25を与える

回答タイプを決めて、それに合う条件で解を探すよ
りも
回答タイプと、回答タイプ情報を用いないで生成さ
れた大量の解候補をすり合わせて1つの指標程度
で扱ったほうが、精度を維持したまま網羅性を高
められる

Wikipediaの情報資源
(リンク, 曖昧さ回避, リダイレクト)
がスコアリングに有効に働く
クラス階層としてはdepth=6付近が経験則的に有
効

2.Wikipedia定義文
からのC-I関係抽出

“記事名” + (・・・)とは、(・・・・) + ”上位概念” + で
ある。

 インスタンス収集は一覧ページから
 記事名になっていない語も収集できる

 is-a関係について
 InfoBoxテンプレートの上位・下位関係を利用
 記事内見出し語名の上位・下位構造を利用

 カテゴリ名・記事内見出し語名の文字列一致度を
利用

人物

東京都出身の人物

東京都出身の人物(自転車競技) 1~2程度の弁別属性を含む語が直属
のクラスとなっている。粒度として
はかなり細かい。
高市
村山
宮川
直雅
樹正
敏

人物

XのY(Z)型
が非常に多い
東京都出身の人物

東京都出身の人物(自転車競技) 1~2程度の弁別属性を含む語が直属
のクラスとなっている。粒度として
はかなり細かい。
高市
村山
宮川
直雅
樹正
敏

人物

東京都出身の人物自転車競技選手

東京都出身の人物(自転車競技)
定義文から新
たに抽出でき
るC-I関係
高市竹
山
村川谷
宮
直正雅賢
樹敏二

人物

スポーツ選手

東京都出身の人物自転車競技選手

東京都出身の自転車競技選手

高市竹
山
村川谷
宮
直正雅賢
樹敏二

記事として存記事が存在しな
在い
一覧ページに存在する語約16万語約14万語約30万語
一覧ページに存在しない約61万語 - -
語
約77万語 - -

～今までのアプローチ～
一覧ページの箇条書き項目を収集
Infoboxテンプレート名を収集

在い
一覧ページに存在する語約16万語約14万語約30万語
語
約77万語 - -

語として不適切なものを取り除く
必要がある
既に抽出したものと被ること
もあるが、is-A関係が構築で
きる可能性

在い
一覧ページに存在する語約16万語
約61万語約14万語約30万語
語
約77万語 - -

記事として存在かつ一覧ページに存在しない語

Infoboxあ
り

 ランダムに抽出した300の記事を対象
 人手で定義文から上位語を抽出し、日本語語彙大
系によって判断した
 平均して1記事につき、親を1.14個もつ(σ=0.38)
抽出できた関係数は322
 判断不能・定義文内に上位語相当語句がない
記事が12

およそ60～70万程度の関係が取れると思われる

 記事になっていない語に関しては扱えない
 記事になっているが、不適切な語をどう取り除く
か
 C-I/Is-Aの区別なく、すべて「上位・下位関係」
として混在した形で抽出される(→既存のWikiOnt
における関係とうまく結び付けられたりしない
か？)

 ランダムに選んだインスタンス約300語を対象に
前述の手法が仮にうまく働いたとして、どの程度
の深さのクラスが定義文から抽出されるかを調べ
た。

 定量化は難しいが、基準としては日本語語彙体系
のカテゴリ(約3000)とインスタンス(約10万)
例) 名詞→具体→主体→場所→施設→公共施設→学校→小学校(最下層)
例) 名詞→具体→具体物→無生物→人工物→物品→商品→加工物(最下層)

33% 54% 12% 1%
未知数約100,000語約2,000語数100程度
レベルレベル

アナウンサー,
自衛官

フリーアナウン
サー, ジャーナリスト,
航空自衛官軍人

人

33% 54% 12% 1%
未知数約100,000語約2,000語数100程度
レベルレベル

「Бはキリル文字のひとつ」
「8月21日はグレゴリオ暦で年始から233日目にあ
たり、年末まであと132日ある。」
「ブントは、結びつき、絆、連合、結束、提携、盟
約、同盟、連邦、束を意味するドイツ語の名詞」
「ロータシズムとは言語学において、ほかの音素が
/r/音に変化することをいう。」

上位語がとれなかった記事
定義文に上位語相当語
句が含まれていない

状態や行動名を長い名
詞句で説明しており、
取り出す長さがチャン
ク単位を超える
日付や文字など、そも
そも取る価値があるの
か不明

 ルールベース
「～は～で、主に～を行っている。」などのルー
ルの適用できない多様な形式に対して取りこぼし
が多い

 Wikipediaの構造を利用した機械学習ベース
見出し語や、段落の階層関係を利用

定義文
～藤野真紀子～ (1文目)
藤野真紀子日本の政治料理研究エッセイストで
は、家、家、ある。

 1文目の先頭チャンクは必ず記事名を含むという
仮定
 Cabochaで解析された(固有表現IOBタグが振られ
た)チャンク単位が妥当であり、それらの係り受け
関係も正しいという仮定
 何らかの方法でクラス相当語句を含むチャンクを
見つけ出すというアプローチ

定義文

 2番目～末尾のチャンクそれぞれに対して
スコアリングを行い、ある閾値以上のチャンクは
その記事名の語の「クラス相当語句が含まれ
ている」と仮定し、それらのチャンク内から語句
を切り出して抽出する(簡単なルールで抽出可能)

2値分類問題としてSVMで扱う

f(w)<0 定義文
藤野真紀子は、日本の政治料理研究エッセイストで
家、家、ある。



f(w)<0 f(w)>0 定義文



f(w)<0 f(w)>0 f(w)>0 定義文



f(w)<0 f(w)>0 f(w)>0 定義文
f(w)>0
藤野真紀子は、日本の政治料理研究エッセイストで
家、家、ある。



 チャンクの位置、文字列長
 直前のチャンクにおけるいくつかの素性
 「であり、」, 「である。」, 「の一つ」などの
キーワードを含むかどうか
 主題の語との係り受け関係(直接係っているのか、
ほかのチャンクをいくつか経由して係っているの
か)
 形態素一致率(共通する度合いが高いチャンクほど
スコアをあげる等)
例) 国際会計基準と会計基準
 形態素の共起度合

f(w)<0 f(w)>0 f(w)>0 定義文
f(w)>0

学習時に正解か否かは、人手でラべリングすることに
なる

 学習時には正解となるチャンクに対して正例ラベ
ルを振っても良いが、Infoboxを含む記事ならば
Infoboxテンプレート名がチャンクに含まれてい
ればそれを解として与えることができる可能性が
高い
テンプレート名：サッカー
選手

エステバン・マティアス・カンビアッソ・デレアウ
は、アルゼンチン・ブエノスアイレス出身で、同国代
表、インテル所属のサッカー選手

 学習時には正解となるチャンクに対して正例ラベ
ルを振っても良いが、Infoboxを含む記事ならば
Infoboxテンプレート名がチャンクに含まれてい
ればそれを解として与えることができる可能性が
高い
テンプレート名：サッカー
選手

エステバン・マティアス・カンビアッソ・デレアウ
は、アルゼンチン・ブエノスアイレス出身で、同国代
表、インテル所属のサッカー選手

自動的に正解データを付与できる！

定義文に対し
て素性抽出

前処理チャンク長
記事
記事チャンク位置
定義文
記事
定義文形態素一致率
定義文形態素解析係り受け関係
チャンキング共起度合いなど
係り受け解析

人手
正解ラベルの学習
付与

Infobox 自動
閾値判定によ
る正解付与
分類器

Mtg121024

Recommended

Recommended

More Related Content

Featured

Featured (20)

Mtg121024