More Related Content
Similar to 大規模常識知識ベース構築のための常識表現の自動獲得 (13)
More from 長岡技術科学大学 自然言語処理研究室 (20)
大規模常識知識ベース構築のための常識表現の自動獲得
- 3. 研究の背景
2/2
• 自然言語処理研究における既存語彙資源
– 辞書:ipadic,JUMAN辞書
– シソーラス:WordNet,日本語語彙体系
→ 常識は得られない
多くの研究者が注目:
-‐
大量の常識を収集した常識知識ベースを
構築する研究
-‐
常識知識ベースを自然言語処理のタスクで
利用しやすい形で提供する研究
2
- 4. 関連研究
• 既存の上位オントロジー(e.g.
CYC,
SUMO)
– 多くの一般的な概念を含むオントロジー
– 厳密に定義された常識を利用できるが,知識表
現が実際の言語表現に対応出来ない
• ConceptNet(常識知識ベース)
– 単語や短い文で常識を定義しており,自然言語
処理タスクでの利用が容易
– 常識の大半が人手で集められており,網羅性が
低い(日本語版:14,546)
3
- 5. 本研究における概念と常識の定義
名詞
→
概念
名詞が格付きで係る用言
→
常識
概念“犬”が持つ常識
動詞: をーしつける,がー吠える,
がー走る
形容詞: がー可愛い,がー楽しい,がー愛しい
サ変名詞: とー散歩,がー病気,をー訓練,をー飼育
4
- 6. 研究の目的
• 自然言語処理で利用可能な大規模常識知識
ベースを自動的に構築
猫
はー鳴く
はー散歩
はー可愛い
動物
はー可愛い
がー鳴く
類似度
計算
子犬
はー鳴く
・・・・
犬
はーほえる
はー散歩
はー可愛い
常識同士を
比較
5
上位概念と
結びつける
- 9. 概念として適切な名詞の選定
• 日本語語彙大系中の具体名詞12,042語
– 具体名詞
• 道路,犬,団扇,シリンダー
等
日本語語彙大系
大規模な日本語シソーラス
各名詞は階層的なカテゴリに分類される
e.g.
道路:
名詞
-‐
具体
-‐
場所
-‐
施設
-‐
公共施設
-‐
交通路
-‐
道路
犬:
名詞
-‐
具体
-‐
具体物
-‐
生物
-‐
動物
-‐
動物(個体)
-‐獣
7
- 11. 常識のもつ性質についての仮説
• 特定の概念が高頻度で係る用言は,その概
念の常識として適切である
– E.g.
「道路を横断する」が高い頻度で出現
→ 「をー横断」は「道路」の常識
• 多くの概念が係る用言(=汎用的に利用され
る用言)は常識として不適切である
– E.g.
「道路」に対する「をー使う」
• 用言が概念の常識として適切か否かは,概
念が係る用言数に依存する
9
- 12. 常識のもつ性質についての仮説
• 特定の概念が高頻度で係る用言は,その概
念の常識として適切である
– E.g.
「道路を横断する」が高い頻度で出現
→ 「をー横断」は「道路」の常識
• 多くの概念が係る用言(=汎用的に利用され
る用言)は常識として不適切である
– E.g.
「道路」に対する「をー使う」
• 用言が概念の常識として適切か否かは,概
念が係る用言数に依存する
9
- 13. 常識を集める上での課題
与される用言の違い(スコア順上位10 件)
名詞:道路
案手法ベースライン1 ベースライン2 提案手法
生き抜くが-分断が-分断が-分断
-起こるに-関連に-関連を-走る
に-存在を-走るを-走るに-面す
-広めるに-面すに-面すを-挟む
に-必要を-使うを-使うを-直進
送り出すを-挟むを-挟むから-出入り
役に立つを-直進を-直進に-接す
-役立つを-利用を-利用を-横断
に-貢献から-出入りから-出入りを-渡る
-動かすに-あるに-接すが-整備
上位に位置する格ー用言
ほど,概念“道路”の常識
として適切
名詞:議員
「道路」が係る
出現頻度上位10件の格-‐用言
常識として適切
常識として不適切
10
- 14. 常識を集める上での課題
与される用言の違い(スコア順上位10 件)
名詞:道路
案手法ベースライン1 ベースライン2 提案手法
生き抜くが-分断が-分断が-分断
-起こるに-関連に-関連を-走る
に-存在を-走るを-走るに-面す
-広めるに-面すに-面すを-挟む
に-必要を-使うを-使うを-直進
送り出すを-挟むを-挟むから-出入り
役に立つを-直進を-直進に-接す
-役立つを-利用を-利用を-横断
に-貢献から-出入りから-出入りを-渡る
-動かすに-あるに-接すが-整備
名詞:議員
「道路」が係る
出現頻度上位10件の格-‐用言
出現頻度は高いが
概念を特徴づけない
常識として不適切な語
・ 汎用的な語
・ 多くの概念の係り先
10
- 15. 常識のもつ性質についての仮説
• 特定の概念が高頻度で係る用言は,その概
念の常識として適切である
– E.g.
「道路を横断する」が高い頻度で出現
→ 「をー横断」は「道路」の常識
• 多くの概念が係る用言(=汎用的に利用され
る用言)は常識として不適切である
– E.g.
「道路」に対する「をー使う」
• 用言が概念の常識として適切か否かは,概
念が係る用言数に依存する
11
- 16. 常識のもつ性質についての仮説
• 特定の概念が高頻度で係る用言は,その概
念の常識として適切である
– E.g.
「道路を横断する」が高い頻度で出現
→ 「をー横断」は「道路」の常識
• 多くの概念が係る用言(=汎用的に利用され
る用言)は常識として不適切である
– E.g.
「道路」に対する「をー使う」
• 用言が概念の常識として適切か否かは,概
念が係る用言数に依存する
集めた常識集合の中から除外
11
- 21. 常識のもつ性質についての仮説
• 特定の概念が高頻度で係る用言は,その概
念の常識として適切である
– E.g.
「道路を横断する」が高い頻度で出現
→ 「をー横断」は「道路」の常識
• 多くの概念が係る用言(=汎用的に利用され
る用言)は常識として不適切である
– E.g.
「道路」に対する「をー使う」
• 用言が概念の常識として適切か否かは,概
念が係る用言数に依存する
13
- 22. 係り先の
用言数の
降順に
並び替え
情報
人
商品
・
・
・
ランナー
データベース
ピアノ
用言“がー走る”は
概念“人”を
特徴づけない
用言“がー走る”は
概念“ランナー”を
特徴づける
14
多くの概念が係る用言でも,係り先の用言数が少ない概念に対
しては常識となる場合がある
→ 係り先の用言数が多い概念ほど,削除用言数が多くなる
と予想される
- 24. 7 章概念同士の類似度計算
第7 章概念同士の類似度計算
用言の選定結果
第言の違い(スコア順上位10 件)
付与される用言の違い(スコア順上位10 件)
「道路」に付与される上位10件の常識
ベースライン:
頻度情報のみを用いる手法
提案手法:
統計的情報を用いて常識として
不適切な用言を削除する手法
名詞:道路
名詞:道路
提案手法ベースライン1 ベースライン2 提案手法
を-生き抜くが-分断が-分断が-分断
で-起こるに-関連に-関連を-走る
に-存在を-走るを-走るに-面す
に-広めるに-面すに-面すを-挟む
に-必要を-使うを-使うを-直進
に-送り出すを-挟むを-挟むから-出入り
の-役に立つを-直進を-直進に-接す
に-役立つを-利用を-利用を-横断
に-貢献から-出入りから-出入りを-渡る
を-動かすに-あるに-接すが-整備
ースライン1 2 提案手法
が-分断が-分断
に関連を-走る
を-走るに-面す
面すを-挟む
を-使うを-直進
を-挟むから-出入り
を-直進に-接す
を利用を-横断
から-出入りを-渡る
にある接すが-整備
名詞:議員
名詞:議員
• “にー関連”,“をー使う”といった汎用的な用言を削除
• “をー横断”,“をー渡る”といった頻度が高くてかつ常識とな
提案手法ベースライン1 ベースライン2 提案手法
を-飼うに-なるに-なるに-当選
が-死ぬが-いるが-いるに-立候補
と-暮らすに-当選に-当選から-反対
を-連れるに-立候補に-立候補が-提出
ースライン1 2 提案手法
に-なるに-当選
が-いるに当選る用言が上位に位に-から置
立候補
反対
に-立候補が提出
35,852個の
概念ー常識対を獲得
16
- 28. 概念間の類似度計算
1/2
猫
犬
と-‐走る
が-‐歩く
を-‐飼う
が-‐鳴く
が-‐可愛い
と-‐遊ぶ
と-‐寝る
が-‐噛む
・・・
が-‐吠える
が-‐歩く
を-‐飼う
と-‐寝る
を-‐叱る
が-‐可愛い
と-‐遊ぶ
と-‐寝る
が-‐噛む
・・・
概念“猫”と概念“犬”に
付与される常識
(※頻度で降順に並び替え)
常識集合の類似度を計算
常識集合の類似度が高い
→
類似した概念対
※常識集合の類似度計算に用いる
関数については,後ほど説明する
19
- 30. 概念間の類似度計算
2/2
常識集合の
類似度計算
猫
犬
電車
概念“猫”と概念“犬”の
類似度集合の相関係数を求める
猫と犬が類似
猫とうさぎが類似
→
犬とうさぎも類似
猫と犬が類似
猫と電車が相違
→
犬と電車も相違
電車
うさぎ
とり
モニタ
うさぎ
とり
モニタ
概念同士が類似
=他概念との類似度集合が相関をもつ
→
概念同士の類似度として扱う
21
- 31. 類似度計算の評価
• 出現頻度の高い上位1,617個の名詞について,
各手法によって求められた類似度集合と,正
解セットの類似度集合の相関を計算
– 比較手法
• 用言の削除は行わず,出現頻度で重み付けした用言
を用いる手法(ベースライン1)
• 自己相互情報量のスコアが閾値以下の用言を削除す
る手法(ベースライン2)(相澤法)
– 提案手法
22
- 32. なる.正解セットとして,日本語語彙大系中における名詞ほど類似度が高く,距離が離れているほど類似度が低いと類似度の指標として有用であるということは,Resnik et al.る.
大系中においては,1 つの名詞に対し複数の概念が定義され類似度を計算するということは,その名詞が持つ概念集合になる.概念x ∈ X を持つ名詞と,概念y ∈ Y を持つ名計算される.
ーラス中において複数概念を持つ名詞同士の類似度計算の式は,Jiang et al.たものを用いた.ここでd(wi) とは,根からwi までの深さ,d(wi, wj) とは,になる.正解セットとして大系中における名詞間いほど類似度が高く,距離ほど類似度が低いとしが類似度の指標として有用ことは,Resnik et al.る.
大系中においては,1 つのの概念が定義されての類似度を計算するという名詞が持つ概念集合同になる.概念x ∈ X を持wi 概念y ∈ Y を持つ名詞計算される.
おいて複数概念を持つ名詞同士の類似度計算の式は,お度な集る合.の相正関解係セ数ッを求トめとるし.て両者,の日相本関語が語高い彙ほ大ど系正中しくに名お詞け同る士名の類詞似間度のをいほるどこ類とに似な度るが.高正解くセ,ッ距トとして,日本語語彙大系中における名詞間の距離距離が近いほど類正似度が解高くセ離がッ離トれているほど類似度が低いとした類似度の指標として有用,距で離あがのる離れ作てい成というるこほとど方法
は類似,度が低いとした.40)シでの距離が類似度の指標として有用であるということは,Resnik et Resnik et al.40)al.におら.
れて• い日る.
本語語彙大系中における名詞間の距離を
本系語中語彙に類大お系似い中て度にはおとい,して1 てはつ用,の1 い名つのる
詞名に(詞Resnik
対にし対し複複数et
数ののal.
概概1995)
念念がが定定義義さされてれいてるい.名類詞似同度士のを– 類計距似算離度すをが計る近算といすいほるうとどいこ類うと似こはと度,はがそ,高そのくの名な名詞る
詞が持つつ概概念念集集合同合士同の士類すなるること.に概– な概念る念
.x 概∈ 念X x を∈ 持をX 持つを持つ名つ名詞名詞wi 詞 wi と と,と,概概概念念念 y y ∈ ∈ Y Y ををを持持持つつ
名つ詞名wj 詞の下の式で計算される.
名詞
の類似度計算式
ave sim(wi, wj) =
1
|XY |
!
x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
"
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
#
ave sim(wi, wj) =
1
XY !
x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
"
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
#
ave sim(wi, wj) =
1
|XY |
!
x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
"
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
#
れる.
ave sim(wi, wj) =
1
|XY |
!
x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
"
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
#
ける名詞間の距離を計算
度が低いとした.シソーラ
Resnik et al.40)においても
が定義されている.そのた
つ概念集合同士の類似度を
Y を持つ名詞wj の類似度
wj,y)
wj,y)
(7.1)
#
(7.2)
23
- 33. et al.においても
が共有する上位概念までの深さを表している.名詞wi と名Resnik 複数概念を持つ名詞同士の類似度計算の式は,Jiang et ここでd(wi) とは,根からwi までの深さ,d(wi, wj) と有する上位概念までの深さを表している.名詞wi と名.
.
大系中においては,1 つの名詞に対し複数の概念が定義されていの類似度を計算するということは,その名詞が持つ概念集合同士になる.X を持つ名詞wi と,概念y ∈ Y を持つ名詞計算さる24
ースラインと提案手法に付与される用言のトップ10 の例を,表7.1 に示す.
案手法では,すべての用言がそれぞれの名詞に対する常識となっている.ベー士をが比共較す有るすとる,ど上ち位ら概も上念位まにでラのンク深付さけをされ表るし名て詞にいほると.んど名違詞いがなwi と系中におおいい概てては念は,,同1 1 つつ士のの名の名詞詞に類に対似対しし複度数複の計数概の算念概が念式
定が義定さ義れさてれいが類定似義度さををれ計計算て算すいするるると.といそいうのうこた
こととはは,,そその名の詞名が詞持がつ持概つ念概集念合集同合士につな概る念.集概概合念念同x 士∈ のX 類をを似持度持つを
x ∈ X つ名名詞詞wi wi とと,概,念概念y ∈ y Y ∈ をY 持をつ持名つ詞名算Y さをれ持るつる.
名.
詞wj の類似度
• 第章概念同士の類似概念 を持つ名詞 と概念 7 を持
つ名詞
の類似度計算式
位図7.3 β 値を-8 から8 まで変化させた場合の正解7.2.2 ave sim(wi, wj) =
ave sim(wi, wj) =
1
|XY |
1
|XY |
!
!
7.3 β 値を-8 から8 まで変化させた場合の正解セッx∈x∈X,X,y∈y∈Y
Y
7.2.2 2d(wi,x, wj,y)
d(wi,x)d(wj,y)
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max max (7.1)
評価結果
sim(wi, wj) = max
sim(wi, wj) = max
"
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
"
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
#
#
ave wj) =
1
|XY |
!
x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
"
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
#
wj,y)
d(wj,y)
y)
y)
#
以下に示す式を用いて,概念x ∈ X を持つ名詞wi 似度を計算する(Jac: Jaccard 係数,Simp: Simpson 数,freq(wi, p): 名詞wi に係る用言p の出現頻度.仮場合,freq(wi, p) 0 となる).
において複数概念を持つ(7.2)
名詞同士の類似度計算の式は,Jiang 用いた.ここでd(wi) とは,根からwi までの深さ,d(wi, wj) とwj において複数概念持つ名詞同士の類似度計算の式は,Jiang 用いた.ここでd(wi) とは,根からwi までの深さ,d(wi, wj) wj の式は,Jiang et al.24)の定
さ,d(wi, wj) とは,根から
: 名詞
に係る用言 の出現頻度
図評価結果
以下に示す式を用いて,概念x ∈ X を持つ名詞wi と,似度を計算する(Jac: Jaccard 係数,Simp: Simpson 係数数,freq(wi, p): に係る用言p の出現頻度.仮に用場合,freq(wi, p) の値は0 となる).
32 90 %を占める1,617 個の名詞を用いて,評価セットと正解セットにおける各名類似度集合の相関係数を求める.両者の相関が高いほど正しく名詞同士の類似度きていることになる.正解セットとして,日本語語彙大系中における名詞間の距し,距離が近いほど類似度が高く,距離が離れているほど類似度が低いとした.ス中での距離が類似度の指標として有用であるということは,Resnik et al.40)に述べられている.
日本語語彙大系中においては,1 つの名詞に対し複数の概念が定義されているめ,名詞同士の類似度を計算するということは,その名詞が持つ概念集合同士の計算することになる.概念x ∈ X を持つと,概念y ∈ Y を持つ名詞wj のは以下の式で計算される.
1
!
2d(wi,x, wj,y)
7.2.2 評価結果
下に示す式を用いて,概念x ∈ X を持つ名詞wi と,概念y ∈ Y を持つ名詞を計算する(Jac: Jaccard 係数,Simp: Simpson 係数,WJac: 重み付きJaccard freq(wi, p): 名詞wi に係る用言p の出現頻度.仮に用言p が名詞wi に係らな,freq(wi, p) の値は0 となる).
Jac(wi, wj) = |X ∪ Y |
|X ∩ Y |
Simp(wi, wj) = |X ∪ Y |
min(|X|, |Y |)
WJac(wi, wj) =
!
p min(freq(wi, p), freq(wj, p)) !
p max(freq(wi, p), freq(wj, p))
- 34. 評価結果
ave
.
max
.
ave
.
max
.
ave
.
max
.
0.7
0.6
0.5
0.4
0.3
0.2
0.1
Jac
0.443
0.451
0.48
0.481
0.607
0.591
Simp
0.326
0.335
0.442
0.446
0.499
0.461
WJac
0.378
0.376
0.371
0.364
0.582
0.558
0
ベースライン1
ベースライン2
提案手法
25
- 35. 概念に付与される常識の例
26
犬
世の中
議員
窓
をー飼う
をー生き抜く
にー当選
をー開ける
がー死ぬ
でー起こる
にー立候補
をー設置
とー暮らす
にー存在
からー反対
からー見える
をー連れる
にー広める
がー提出
からー眺める
がー大好き
にー必要
がー著作
をー閉める
をー散歩
にー送り出す
がー誕生
からー入る
にー噛む
のー役に立つ
にー聞く
からー出る
とー遊ぶ
にー役立つ
をー半減
にー入力
をー愛す
にー貢献
をー落選
からー覗く
とー生活
をー動かす
をー辞職
にー貼る
- 36. 結論
• 言語処理で利用可能な大規模常識知識ベー
スを自動的に構築
– 35,852個の概念ー常識対を自動的に獲得
– 統計情報を利用し常識として適切な用言を選定
→ 多くの概念の係り先となる用言は常識として
不適切であり,またある用言が常識として適切か
否かは常識付与の対象である概念に依存
– 常識集合の類似度に基づき概念の類似度計算
→ ベースラインと比較して類似度計算の精度が高く,
一般的な名詞の類似度計算タスクにも有用
27
- 37. 名詞と名詞が格付きで係る用言の組を抽出
1/2
• 概念と常識を抽出するデータ源
– Web日本語Nグラム
(7グラム)
• 200億文から,出現頻度20回以上のNグラムを抽出
– 7グラム総数:
570,204,252個
Nグラム
私は猫が好きです
→
私 は 猫 が 好き です
2グラム: [私は]
[は猫]
[猫が]
[が好き]
[好きです]
3グラム: [私は猫]
[は猫が]
[猫が好き]
[が好きです]
- 38. 名詞と名詞が格付きで係る用言の組を抽出
2/2
• 7グラムデータを係り受け解析し,名詞と名詞
が格付きで係る用言の組を抽出
抽出した名詞と格ー用言の組
– 14,240,242,840対
• 名詞の異なり数:298,976語
• 格ー用言の異なり数:30,434語
概念となる名詞
常識となる格ー用言
を選定
- 42. • 概念対ごとに低頻度の常識を除外
– 係り受け解析誤り等によって付与された低頻度
常識の影響を抑える
と-‐走る
が-‐歩く
を-‐飼う
が-‐鳴く
が-‐可愛い
と-‐遊ぶ
と-‐寝る
を-‐噛む
・・・
と-‐一緒
が-‐歩く
へ-‐あげる
と-‐寝る
を-‐叱る
が-‐可愛い
と-‐帰る
と-‐散歩
が-‐噛む
・・・
共通する
常識
概念“猫”
における
削除常識
共通する
常識のうち
最も頻度が低い
概念“犬”
における
削除常識
猫
犬
※各常識は
頻度で降順
に並び替え済
- 44. 常識知識ベースの評価
2/2
常識集合の類似度が
高い概念対
大学生
中学生
インド
イラク
ビジネスマン
サラリーマン
プロデューサー
キャスター
アイドル
芸能人
水着
下着
遺体
死体
チョコ
プリン
素肌
鳥肌
資材
機材
自民党
民主党
悪魔
モンスター
作成した常識知識ベース
35,852個の
概念ー常識対を獲得
ConceptNet
14,546個の
概念ー常識対を保有
2〜3倍の規模の
常識知識ベースを構築