More Related Content
Similar to 大規模常識知識ベース構築のための常識表現の自動獲得
Similar to 大規模常識知識ベース構築のための常識表現の自動獲得 (15)
More from 長岡技術科学大学 自然言語処理研究室
More from 長岡技術科学大学 自然言語処理研究室 (20)
大規模常識知識ベース構築のための常識表現の自動獲得
- 3. 研究の背景
2/2
• 自然言語処理研究における既存語彙資源
– 辞書:ipadic,JUMAN辞書
– シソーラス:WordNet,日本語語彙体系
→ 常識は得られない
多くの研究者が注目:
-‐
大量の常識を収集した常識知識ベースを
構築する研究
-‐
常識知識ベースを自然言語処理のタスクで
利用しやすい形で提供する研究
2
- 4. 関連研究
• 既存の上位オントロジー(e.g.
CYC,
SUMO)
– 多くの一般的な概念を含むオントロジー
– 厳密に定義された常識を利用できるが,知識表
現が実際の言語表現に対応出来ない
• ConceptNet(常識知識ベース)
– 単語や短い文で常識を定義しており,自然言語
処理タスクでの利用が容易
– 常識の大半が人手で集められており,網羅性が
低い(日本語版:14,546)
3
- 5. 本研究における概念と常識の定義
名詞
→
概念
名詞が格付きで係る用言
→
常識
概念“犬”が持つ常識
動詞: をーしつける,がー吠える,
がー走る
形容詞: がー可愛い,がー楽しい,がー愛しい
サ変名詞: とー散歩,がー病気,をー訓練,をー飼育
4
- 13. 常識を集める上での課題
与される用言の違い (スコア順上位 10 件)
名詞:道路
案手法 ベースライン 1 ベースライン 2 提案手法
生き抜く が-分断 が-分断 が-分断
-起こる に-関連 に-関連 を-走る
に-存在 を-走る を-走る に-面す
-広める に-面す に-面す を-挟む
に-必要 を-使う を-使う を-直進
送り出す を-挟む を-挟む から-出入り
役に立つ を-直進 を-直進 に-接す
-役立つ を-利用 を-利用 を-横断
に-貢献 から-出入り から-出入り を-渡る
-動かす に-ある に-接す が-整備
名詞:議員
「道路」が係る
出現頻度上位10件の格-‐用言
常識として適切
常識として不適切
上位に位置する格ー用言
ほど,概念“道路”の常識
として適切
10
- 14. 常識を集める上での課題
与される用言の違い (スコア順上位 10 件)
名詞:道路
案手法 ベースライン 1 ベースライン 2 提案手法
生き抜く が-分断 が-分断 が-分断
-起こる に-関連 に-関連 を-走る
に-存在 を-走る を-走る に-面す
-広める に-面す に-面す を-挟む
に-必要 を-使う を-使う を-直進
送り出す を-挟む を-挟む から-出入り
役に立つ を-直進 を-直進 に-接す
-役立つ を-利用 を-利用 を-横断
に-貢献 から-出入り から-出入り を-渡る
-動かす に-ある に-接す が-整備
名詞:議員
「道路」が係る
出現頻度上位10件の格-‐用言
出現頻度は高いが
概念を特徴づけない
常識として不適切な語
・ 汎用的な語
・ 多くの概念の係り先
10
- 22. 係り先の
用言数の
降順に
並び替え
情報
人
商品
・
・
・
ランナー
データベース
ピアノ
用言“がー走る”は
概念“人”を
特徴づけない
用言“がー走る”は
概念“ランナー”を
特徴づける
多くの概念が係る用言でも,係り先の用言数が少ない概念に対
しては常識となる場合がある
→ 係り先の用言数が多い概念ほど,削除用言数が多くなる
と予想される
14
- 23. y
=
13135x-‐0.583
0
50
100
150
200
250
300
1000
10000
削
除
用
言
数
多くの用言の係り元となる概念上位N件
係り先用言数が多い概念上位N=1000〜12042件
における削除用言数の変化
・・・各概念に対する
削除用言数を導出
N<1000の概念:
N=1000で削除される234語を削除
15
- 24. 用言の選定結果
「道路」に付与される上位10件の常識
ベースライン:
頻度情報のみを用いる手法
提案手法:
統計的情報を用いて常識として
不適切な用言を削除する手法
付与される用言の違い (スコア順上位 10 件)
名詞:道路
提案手法 ベースライン 1 ベースライン 2 提案手法
を-生き抜く が-分断 が-分断 が-分断
で-起こる に-関連 に-関連 を-走る
に-存在 を-走る を-走る に-面す
に-広める に-面す に-面す を-挟む
に-必要 を-使う を-使う を-直進
に-送り出す を-挟む を-挟む から-出入り
の-役に立つ を-直進 を-直進 に-接す
に-役立つ を-利用 を-利用 を-横断
に-貢献 から-出入り から-出入り を-渡る
を-動かす に-ある に-接す が-整備
名詞:議員
提案手法 ベースライン 1 ベースライン 2 提案手法
を-飼う に-なる に-なる に-当選
が-死ぬ が-いる が-いる に-立候補
と-暮らす に-当選 に-当選 から-反対
を-連れる に-立候補 に-立候補 が-提出
言の違い (スコア順上位 10 件)
名詞:道路
ースライン 1 ベースライン 2 提案手法
が-分断 が-分断 が-分断
に-関連 に-関連 を-走る
を-走る を-走る に-面す
に-面す に-面す を-挟む
を-使う を-使う を-直進
を-挟む を-挟む から-出入り
を-直進 を-直進 に-接す
を-利用 を-利用 を-横断
から-出入り から-出入り を-渡る
に-ある に-接す が-整備
名詞:議員
ースライン 1 ベースライン 2 提案手法
に-なる に-なる に-当選
が-いる が-いる に-立候補
に-当選 に-当選 から-反対
に-立候補 に-立候補 が-提出
• “にー関連”,“をー使う”といった汎用的な用言を削除
• “をー横断”,“をー渡る”といった頻度が高くてかつ常識とな
る用言が上位に位置
35,852個の
概念ー常識対を獲得
16
- 28. 概念間の類似度計算
1/2
と-‐走る
が-‐歩く
を-‐飼う
が-‐鳴く
が-‐可愛い
と-‐遊ぶ
と-‐寝る
が-‐噛む
・・・
が-‐吠える
が-‐歩く
を-‐飼う
と-‐寝る
を-‐叱る
が-‐可愛い
と-‐遊ぶ
と-‐寝る
が-‐噛む
・・・
概念“猫”と概念“犬”に
付与される常識
(※頻度で降順に並び替え)
常識集合の類似度を計算
常識集合の類似度が高い
→
類似した概念対
※常識集合の類似度計算に用いる
関数については,後ほど説明する
猫
犬
19
- 32. 正解セットの作成方法
• 日本語語彙大系中における名詞間の距離を
類似度として用いる
(Resnik
et
al.
1995)
– 距離が近いほど類似度が高くなる
– 概念
を持つ名詞 と概念 を持つ
名詞
の類似度計算式
度集合の相関係数を求める.両者の相関が高いほど正しく名詞同士の類似度を
いることになる.正解セットとして,日本語語彙大系中における名詞間の距離
距離が近いほど類似度が高く,距離が離れているほど類似度が低いとした.シ
での距離が類似度の指標として有用であるということは,Resnik et al.40)
にお
られている.
本語語彙大系中においては,1 つの名詞に対し複数の概念が定義されている.
名詞同士の類似度を計算するということは,その名詞が持つ概念集合同士の類
することになる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞 wj の
下の式で計算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
ーラス中において複数概念を持つ名詞同士の類似度計算の式は,Jiang et al.
になる.正解セットとして,日本語語彙大系中における名詞間
いほど類似度が高く,距離が離れているほど類似度が低いとし
が類似度の指標として有用であるということは,Resnik et al.
る.
大系中においては,1 つの名詞に対し複数の概念が定義されて
の類似度を計算するということは,その名詞が持つ概念集合同
になる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞
計算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
ほど類似度が高く,距離が離れているほど類似度が低いと
類似度の指標として有用であるということは,Resnik et a
る.
大系中においては,1 つの名詞に対し複数の概念が定義され
類似度を計算するということは,その名詞が持つ概念集合
になる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名
計算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
なる.正解セットとして,日本語語彙大系中における名詞間の
ほど類似度が高く,距離が離れているほど類似度が低いとした
類似度の指標として有用であるということは,Resnik et al.40)
.
系中においては,1 つの名詞に対し複数の概念が定義されてい
類似度を計算するということは,その名詞が持つ概念集合同士
なる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞
算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
おける名詞間の距離を計算
度が低いとした.シソーラ
Resnik et al.40)
においても
が定義されている.そのた
つ概念集合同士の類似度を
Y を持つ名詞 wj の類似度
wj,y)
wj,y)
(7.1)
23
- 33. 概念同士の類似度計算式
• 概念 を持つ名詞 と概念 を持
つ名詞
の類似度計算式
.
系中においては,1 つの名詞に対し複数の概念が定義されてい
類似度を計算するということは,その名詞が持つ概念集合同士
なる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞
算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
おいて複数概念を持つ名詞同士の類似度計算の式は,Jiang e
いた.ここで d(wi) とは,根から wi までの深さ,d(wi, wj) と
.
系中においては,1 つの名詞に対し複数の概念が定義され
類似度を計算するということは,その名詞が持つ概念集合
になる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名
算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
において複数概念を持つ名詞同士の類似度計算の式は,Jia
用いた.ここで d(wi) とは,根から wi までの深さ,d(wi, w
る.
大系中においては,1 つの名詞に対し複数の概念が定義されてい
の類似度を計算するということは,その名詞が持つ概念集合同士
になる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞
計算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
において複数概念を持つ名詞同士の類似度計算の式は,Jiang
用いた.ここで d(wi) とは,根から wi までの深さ,d(wi, wj) と
wj が共有する上位概念までの深さを表している.名詞 wi と名
Resnik et al. においても
が定義されている.そのた
つ概念集合同士の類似度を
Y を持つ名詞 wj の類似度
wj,y)
(wj,y)
(7.1)
)
)
(7.2)
の式は,Jiang et al.24)
の定
図 7.3 β 値を-8 から 8 まで変化させた場合の正解
7.2.2 評価結果
以下に示す式を用いて,概念 x ∈ X を持つ名詞 wi
似度を計算する (Jac: Jaccard 係数,Simp: Simpson
数,freq(wi, p): 名詞 wi に係る用言 p の出現頻度.仮
場合,freq(wi, p) の値は 0 となる).
: 名詞
に係る用言 の出現頻度
図 7.3 β 値を-8 から 8 まで変化させた場合の正解セッ
7.2.2 評価結果
以下に示す式を用いて,概念 x ∈ X を持つ名詞 wi と,
似度を計算する (Jac: Jaccard 係数,Simp: Simpson 係数
数,freq(wi, p): 名詞 wi に係る用言 p の出現頻度.仮に用
場合,freq(wi, p) の値は 0 となる).
32 第 7 章 概念同士の類似
位 90 %を占める 1,617 個の名詞を用いて,評価セットと正解セットにおける各名
類似度集合の相関係数を求める.両者の相関が高いほど正しく名詞同士の類似度
きていることになる.正解セットとして,日本語語彙大系中における名詞間の距
し,距離が近いほど類似度が高く,距離が離れているほど類似度が低いとした.
ス中での距離が類似度の指標として有用であるということは,Resnik et al.40)
に
述べられている.
日本語語彙大系中においては,1 つの名詞に対し複数の概念が定義されている
め,名詞同士の類似度を計算するということは,その名詞が持つ概念集合同士の
計算することになる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞 wj の
は以下の式で計算される.
2 評価結果
下に示す式を用いて,概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞
を計算する (Jac: Jaccard 係数,Simp: Simpson 係数,WJac: 重み付き Jac
freq(wi, p): 名詞 wi に係る用言 p の出現頻度.仮に用言 p が名詞 wi に係らな
,freq(wi, p) の値は 0 となる).
Jac(wi, wj) =
|X ∪ Y |
|X ∩ Y |
Simp(wi, wj) =
|X ∪ Y |
min(|X|, |Y |)
WJac(wi, wj) =
p min(freq(wi, p), freq(wj, p))
p max(freq(wi, p), freq(wj, p))
ースラインと提案手法に付与される用言のトップ 10 の例を,表 7.1 に示す.
案手法では,すべての用言がそれぞれの名詞に対する常識となっている.ベー
士を比較すると,どちらも上位にランク付けされる名詞にほとんど違いがな
24
- 34. 評価結果
ave
.
max
.
ave
.
max
.
ave
.
max
.
Jac
0.443
0.451
0.48
0.481
0.607
0.591
Simp
0.326
0.335
0.442
0.446
0.499
0.461
WJac
0.378
0.376
0.371
0.364
0.582
0.558
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
ベースライン1
ベースライン2
提案手法
25
- 35. 概念に付与される常識の例
26
犬
世の中
議員
窓
をー飼う
をー生き抜く
にー当選
をー開ける
がー死ぬ
でー起こる
にー立候補
をー設置
とー暮らす
にー存在
からー反対
からー見える
をー連れる
にー広める
がー提出
からー眺める
がー大好き
にー必要
がー著作
をー閉める
をー散歩
にー送り出す
がー誕生
からー入る
にー噛む
のー役に立つ
にー聞く
からー出る
とー遊ぶ
にー役立つ
をー半減
にー入力
をー愛す
にー貢献
をー落選
からー覗く
とー生活
をー動かす
をー辞職
にー貼る
- 37. 名詞と名詞が格付きで係る用言の組を抽出
1/2
• 概念と常識を抽出するデータ源
– Web日本語Nグラム
(7グラム)
• 200億文から,出現頻度20回以上のNグラムを抽出
– 7グラム総数:
570,204,252個
Nグラム
私は猫が好きです
→
私 は 猫 が 好き です
2グラム: [私は]
[は猫]
[猫が]
[が好き]
[好きです]
3グラム: [私は猫]
[は猫が]
[猫が好き]
[が好きです]
- 39. 常識として不適切な用言の除外
0
5000
10000
15000
20000
25000
30000
35000
40000
0
2000
4000
6000
8000
10000
疎な分布となる範囲
=削除用言
用
言
異
数
用言の係り元となる概念の数
係り元となる概念の数別に見た場合の用言の出現分布
- 42. と-‐走る
が-‐歩く
を-‐飼う
が-‐鳴く
が-‐可愛い
と-‐遊ぶ
と-‐寝る
を-‐噛む
・・・
と-‐一緒
が-‐歩く
へ-‐あげる
と-‐寝る
を-‐叱る
が-‐可愛い
と-‐帰る
と-‐散歩
が-‐噛む
・・・
共通する
常識
概念“猫”
における
削除常識
概念“犬”
における
削除常識
共通する
常識のうち
最も頻度が低い
猫
犬
※各常識は
頻度で降順
に並び替え済
• 概念対ごとに低頻度の常識を除外
– 係り受け解析誤り等によって付与された低頻度
常識の影響を抑える
- 44. 常識知識ベースの評価
2/2
大学生
中学生
インド
イラク
ビジネスマン
サラリーマン
プロデューサー
キャスター
アイドル
芸能人
水着
下着
遺体
死体
チョコ
プリン
素肌
鳥肌
資材
機材
自民党
民主党
悪魔
モンスター
常識集合の類似度が
高い概念対
作成した常識知識ベース
35,852個の
概念ー常識対を獲得
ConceptNet
14,546個の
概念ー常識対を保有
2〜3倍の規模の
常識知識ベースを構築