SlideShare a Scribd company logo
1 of 44
Download to read offline
大規模常識知識ベース構築の
ための常識表現の自動獲得 	
自然言語処理研究室	
  
10321189	
  
真嘉比 愛
研究の背景	
  1/2	
言葉の意味を理解するコンピュータの実現	
  
– 言語の文法的知識	
  
– 大量の常識	
e.g.	
  会話応答システム	
愛犬と遊んでいました	
犬を飼っているの
ですか?	
  
可愛いですか?	
→	
  愛犬とは	
  
  	
  飼い犬のことである	
  
→	
  愛犬は	
  
  可愛がられている	
1
研究の背景	
  2/2	
•  自然言語処理研究における既存語彙資源	
  
– 辞書:ipadic,JUMAN辞書	
  
– シソーラス:WordNet,日本語語彙体系	
  
                 → 常識は得られない	
  多くの研究者が注目:	
  
	
  	
   	
  	
  	
  	
  -­‐	
  大量の常識を収集した常識知識ベースを	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  構築する研究	
  
	
  	
   	
  	
  	
  	
  -­‐	
  常識知識ベースを自然言語処理のタスクで	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  利用しやすい形で提供する研究	
  
2
関連研究	
•  既存の上位オントロジー(e.g.	
  CYC,	
  SUMO)	
  
– 多くの一般的な概念を含むオントロジー	
  
– 厳密に定義された常識を利用できるが,知識表
現が実際の言語表現に対応出来ない	
  
•  ConceptNet(常識知識ベース)	
  
– 単語や短い文で常識を定義しており,自然言語
処理タスクでの利用が容易	
  
– 常識の大半が人手で集められており,網羅性が
低い(日本語版:14,546)	
  
3
本研究における概念と常識の定義	
名詞 	
   	
   	
   	
   	
   	
  	
  	
  →	
  概念	
  
名詞が格付きで係る用言	
  →	
  常識	
  
概念“犬”が持つ常識	
動詞: をーしつける,がー吠える,	
  	
  がー走る	
形容詞: がー可愛い,がー楽しい,がー愛しい	
サ変名詞: とー散歩,がー病気,をー訓練,をー飼育	
4
研究の目的	
•  自然言語処理で利用可能な大規模常識知識
ベースを自動的に構築	
猫	
はー鳴く	
  
はー散歩	
  
はー可愛い	
  
はー可愛い	
  
がー鳴く	
動物	
類似度	
  
計算	
  
子犬	
はー鳴く	
  
	
  	
  	
  	
  	
  	
  ・・・・	
  
	
  
はーほえる	
  
はー散歩	
  
はー可愛い	
  
犬	
常識同士を	
  
比較	
上位概念と	
  
結びつける	
  
5
常識知識ベース構築の流れ	
1.  概念として適切な名詞の選定	
  
2.  常識として適切な格ー用言の選定	
  
3.  概念同士の類似度計算	
  
猫	
はー鳴く	
  
はー可愛い	
  
はー可愛い	
  
がー鳴く	
動物	
子犬	
はー鳴く	
  
	
  	
  	
  	
  	
  	
  ・・・・	
  
はーほえる	
  
はー散歩	
  
犬	
6
常識知識ベース構築の流れ	
1.  概念として適切な名詞の選定	
  
2.  常識として適切な格ー用言の選定	
  
3.  概念同士の類似度計算	
  
猫	
はー鳴く	
  
はー可愛い	
  
はー可愛い	
  
がー鳴く	
動物	
子犬	
はー鳴く	
  
	
  	
  	
  	
  	
  	
  ・・・・	
  
はーほえる	
  
はー散歩	
  
犬	
6
概念として適切な名詞の選定	
•  日本語語彙大系中の具体名詞12,042語	
  
– 具体名詞	
  
•  道路,犬,団扇,シリンダー 	
  	
  	
  	
  等    	
  
日本語語彙大系 	
大規模な日本語シソーラス	
  
各名詞は階層的なカテゴリに分類される	
  
e.g.	
  道路:	
  名詞	
  -­‐	
  具体	
  -­‐	
  場所	
  -­‐	
  施設	
  -­‐	
  公共施設	
  -­‐	
  交通路	
  -­‐	
  道路	
  
	
  	
  	
  	
  	
  	
  	
  	
  犬:	
  名詞	
  -­‐	
  具体	
  -­‐	
  具体物	
  -­‐	
  生物	
  -­‐	
  動物	
  -­‐	
  動物(個体)	
  -­‐獣	
7
常識知識ベース構築の流れ	
1.  概念として適切な名詞の選定	
  
2.  常識として適切な格ー用言の選定	
  
3.  概念同士の類似度計算	
  
猫	
はー鳴く	
  
はー可愛い	
  
はー可愛い	
  
がー鳴く	
動物	
子犬	
はー鳴く	
  
	
  	
  	
  	
  	
  	
  ・・・・	
  
はーほえる	
  
はー散歩	
  
犬	
8
常識のもつ性質についての仮説	
•  特定の概念が高頻度で係る用言は,その概
念の常識として適切である	
  
– E.g.	
  「道路を横断する」が高い頻度で出現	
  
	
   	
   	
  → 「をー横断」は「道路」の常識	
  
•  多くの概念が係る用言(=汎用的に利用され
る用言)は常識として不適切である	
  
– E.g.	
  「道路」に対する「をー使う」	
  
•  用言が概念の常識として適切か否かは,概
念が係る用言数に依存する	
  
9
常識のもつ性質についての仮説	
•  特定の概念が高頻度で係る用言は,その概
念の常識として適切である	
  
– E.g.	
  「道路を横断する」が高い頻度で出現	
  
	
   	
   	
  → 「をー横断」は「道路」の常識	
  
•  多くの概念が係る用言(=汎用的に利用され
る用言)は常識として不適切である	
  
– E.g.	
  「道路」に対する「をー使う」	
  
•  用言が概念の常識として適切か否かは,概
念が係る用言数に依存する	
  
9
常識を集める上での課題	
与される用言の違い (スコア順上位 10 件)
名詞:道路
案手法 ベースライン 1 ベースライン 2 提案手法
生き抜く が-分断 が-分断 が-分断
-起こる に-関連 に-関連 を-走る
に-存在 を-走る を-走る に-面す
-広める に-面す に-面す を-挟む
に-必要 を-使う を-使う を-直進
送り出す を-挟む を-挟む から-出入り
役に立つ を-直進 を-直進 に-接す
-役立つ を-利用 を-利用 を-横断
に-貢献 から-出入り から-出入り を-渡る
-動かす に-ある に-接す が-整備
名詞:議員
「道路」が係る	
  
出現頻度上位10件の格-­‐用言	
常識として適切	
常識として不適切	
上位に位置する格ー用言	
  
ほど,概念“道路”の常識	
  
として適切	
10
常識を集める上での課題	
与される用言の違い (スコア順上位 10 件)
名詞:道路
案手法 ベースライン 1 ベースライン 2 提案手法
生き抜く が-分断 が-分断 が-分断
-起こる に-関連 に-関連 を-走る
に-存在 を-走る を-走る に-面す
-広める に-面す に-面す を-挟む
に-必要 を-使う を-使う を-直進
送り出す を-挟む を-挟む から-出入り
役に立つ を-直進 を-直進 に-接す
-役立つ を-利用 を-利用 を-横断
に-貢献 から-出入り から-出入り を-渡る
-動かす に-ある に-接す が-整備
名詞:議員
「道路」が係る	
  
出現頻度上位10件の格-­‐用言	
出現頻度は高いが	
  
概念を特徴づけない	
常識として不適切な語	
  
 ・ 汎用的な語	
  
 ・ 多くの概念の係り先	
10
常識のもつ性質についての仮説	
•  特定の概念が高頻度で係る用言は,その概
念の常識として適切である	
  
– E.g.	
  「道路を横断する」が高い頻度で出現	
  
	
   	
   	
  → 「をー横断」は「道路」の常識	
  
•  多くの概念が係る用言(=汎用的に利用され
る用言)は常識として不適切である	
  
– E.g.	
  「道路」に対する「をー使う」	
  
•  用言が概念の常識として適切か否かは,概
念が係る用言数に依存する	
  
11
常識のもつ性質についての仮説	
•  特定の概念が高頻度で係る用言は,その概
念の常識として適切である	
  
– E.g.	
  「道路を横断する」が高い頻度で出現	
  
	
   	
   	
  → 「をー横断」は「道路」の常識	
  
•  多くの概念が係る用言(=汎用的に利用され
る用言)は常識として不適切である	
  
– E.g.	
  「道路」に対する「をー使う」	
  
•  用言が概念の常識として適切か否かは,概
念が係る用言数に依存する	
  
集めた常識集合の中から除外	
11
常識として不適切な用言の除外	
用
言
異
数
	
用言の係り元となる概念の数	
係り元となる概念の数別に見た場合の用言の出現分布	
12	
累乗近似曲線
常識として不適切な用言の除外	
用
言
異
数
	
用言の係り元となる概念の数	
係り元となる概念がほとんどない	
  
ような用言が35,000個以上ある	
  
(e.g.	
  にー閉塞,からー持ち出せる)	
係り元となる概念の数別に見た場合の用言の出現分布	
係り元となる概念が	
  
8000個以上あるような	
  
用言は少数	
  
(e.g.	
  がーある,にーいる)	
12
常識として不適切な用言の除外	
用
言
異
数
	
用言の係り元となる概念の数	
係り元となる概念の数別に見た場合の用言の出現分布	
常識として	
  
適切な用言	
常識として	
  
不適切な用言	
12
常識として不適切な用言の除外	
近似曲線から	
  
外れる範囲	
  
=削除用言	
用
言
異
数
	
用言の係り元となる概念の数	
係り元となる概念の数別に見た場合の用言の出現分布	
12
常識のもつ性質についての仮説	
•  特定の概念が高頻度で係る用言は,その概
念の常識として適切である	
  
– E.g.	
  「道路を横断する」が高い頻度で出現	
  
	
   	
   	
  → 「をー横断」は「道路」の常識	
  
•  多くの概念が係る用言(=汎用的に利用され
る用言)は常識として不適切である	
  
– E.g.	
  「道路」に対する「をー使う」	
  
•  用言が概念の常識として適切か否かは,概
念が係る用言数に依存する	
  
13
係り先の	
  
用言数の	
  
降順に	
  
並び替え	
  
情報	
  
人	
  
商品	
  
・	
  
・	
  
・	
  
ランナー	
  
データベース	
ピアノ	
  
用言“がー走る”は	
  
概念“人”を	
  
特徴づけない	
用言“がー走る”は	
  
概念“ランナー”を	
  
特徴づける	
多くの概念が係る用言でも,係り先の用言数が少ない概念に対
しては常識となる場合がある	
  
 → 係り先の用言数が多い概念ほど,削除用言数が多くなる  	
  
    と予想される	
  
14
y	
  =	
  13135x-­‐0.583	
0	
  
50	
  
100	
  
150	
  
200	
  
250	
  
300	
  
1000	
   10000	
  
削	
  
除	
  
用	
  
言	
  
数	
多くの用言の係り元となる概念上位N件	
係り先用言数が多い概念上位N=1000〜12042件	
  
における削除用言数の変化	
・・・各概念に対する	
  
削除用言数を導出	
N<1000の概念:	
  N=1000で削除される234語を削除	
15
用言の選定結果	
「道路」に付与される上位10件の常識	
  
ベースライン:	
  
頻度情報のみを用いる手法	
  
	
  
提案手法:	
  
統計的情報を用いて常識として
不適切な用言を削除する手法	
  
付与される用言の違い (スコア順上位 10 件)
名詞:道路
提案手法 ベースライン 1 ベースライン 2 提案手法
を-生き抜く が-分断 が-分断 が-分断
で-起こる に-関連 に-関連 を-走る
に-存在 を-走る を-走る に-面す
に-広める に-面す に-面す を-挟む
に-必要 を-使う を-使う を-直進
に-送り出す を-挟む を-挟む から-出入り
の-役に立つ を-直進 を-直進 に-接す
に-役立つ を-利用 を-利用 を-横断
に-貢献 から-出入り から-出入り を-渡る
を-動かす に-ある に-接す が-整備
名詞:議員
提案手法 ベースライン 1 ベースライン 2 提案手法
を-飼う に-なる に-なる に-当選
が-死ぬ が-いる が-いる に-立候補
と-暮らす に-当選 に-当選 から-反対
を-連れる に-立候補 に-立候補 が-提出
言の違い (スコア順上位 10 件)
名詞:道路
ースライン 1 ベースライン 2 提案手法
が-分断 が-分断 が-分断
に-関連 に-関連 を-走る
を-走る を-走る に-面す
に-面す に-面す を-挟む
を-使う を-使う を-直進
を-挟む を-挟む から-出入り
を-直進 を-直進 に-接す
を-利用 を-利用 を-横断
から-出入り から-出入り を-渡る
に-ある に-接す が-整備
名詞:議員
ースライン 1 ベースライン 2 提案手法
に-なる に-なる に-当選
が-いる が-いる に-立候補
に-当選 に-当選 から-反対
に-立候補 に-立候補 が-提出
•  “にー関連”,“をー使う”といった汎用的な用言を削除	
  
•  “をー横断”,“をー渡る”といった頻度が高くてかつ常識とな
る用言が上位に位置	
  
35,852個の	
  
概念ー常識対を獲得	
16
常識知識ベース構築の流れ	
1.  概念として適切な名詞の選定	
  
2.  常識として適切な格ー用言の選定	
  
3.  概念同士の類似度計算	
  
猫	
はー鳴く	
  
はー可愛い	
  
はー可愛い	
  
がー鳴く	
動物	
子犬	
はー鳴く	
  
	
  	
  	
  	
  	
  	
  ・・・・	
  
はーほえる	
  
はー散歩	
  
犬	
17
概念間に現れる性質についての仮説	
•  概念対が類似している場合,両者に付与され
る常識集合同士も類似している	
  
•  概念c1と概念c2が類似しており,かつ概念c2
と概念c3も類似している場合は,概念c1と概
念c3もまた類似している(推移律)	
  
18
概念間に現れる性質についての仮説	
•  概念対が類似している場合,両者に付与され
る常識集合同士も類似している	
  
•  概念c1と概念c2が類似しており,かつ概念c2
と概念c3も類似している場合は,概念c1と概
念c3もまた類似している(推移律)	
  
18
概念間の類似度計算	
  1/2	
と-­‐走る	
  
が-­‐歩く	
  
を-­‐飼う	
  
が-­‐鳴く	
  
が-­‐可愛い	
  
と-­‐遊ぶ	
  
と-­‐寝る	
  
が-­‐噛む	
  
 ・・・	
  
が-­‐吠える	
  
が-­‐歩く	
  
を-­‐飼う	
  
と-­‐寝る	
  
を-­‐叱る	
  
が-­‐可愛い	
  
と-­‐遊ぶ	
  
と-­‐寝る	
  
が-­‐噛む	
  
 ・・・	
  
概念“猫”と概念“犬”に	
  
付与される常識	
  
(※頻度で降順に並び替え)	
常識集合の類似度を計算	
  
	
  
常識集合の類似度が高い	
  
  →	
  類似した概念対	
※常識集合の類似度計算に用いる	
  
関数については,後ほど説明する	
猫	
 犬	
19
概念間に現れる性質についての仮説	
•  概念対が類似している場合,両者に付与され
る常識集合同士も類似している	
  
•  概念c1と概念c2が類似しており,かつ概念c2
と概念c3も類似している場合は,概念c1と概
念c3もまた類似している(推移律)	
  
20
概念間の類似度計算	
  2/2	
概念“猫”と概念“犬”の	
  
類似度集合の相関係数を求める	
猫	
 犬	
猫と犬が類似	
  
猫とうさぎが類似	
  
	
  →	
  犬とうさぎも類似	
  
	
  
猫と犬が類似	
  
猫と電車が相違	
  
	
  →	
  犬と電車も相違	
  
うさぎ	
電車	
とり	
モニタ	
うさぎ	
電車	
とり	
モニタ	
概念同士が類似	
  
=他概念との類似度集合が相関をもつ	
  
 →	
  概念同士の類似度として扱う	
常識集合の	
  
類似度計算	
21
類似度計算の評価	
•  出現頻度の高い上位1,617個の名詞について,
各手法によって求められた類似度集合と,正
解セットの類似度集合の相関を計算	
  
– 比較手法	
  
•  用言の削除は行わず,出現頻度で重み付けした用言
を用いる手法(ベースライン1)	
  
•  自己相互情報量のスコアが閾値以下の用言を削除す
る手法(ベースライン2)(相澤法)	
  
– 提案手法	
  
22
正解セットの作成方法	
•  日本語語彙大系中における名詞間の距離を
類似度として用いる	
  (Resnik	
  et	
  al.	
  1995)	
  
– 距離が近いほど類似度が高くなる	
  
– 概念 	
  	
  を持つ名詞  と概念     を持つ
名詞 	
  	
  	
  の類似度計算式	
度集合の相関係数を求める.両者の相関が高いほど正しく名詞同士の類似度を
いることになる.正解セットとして,日本語語彙大系中における名詞間の距離
距離が近いほど類似度が高く,距離が離れているほど類似度が低いとした.シ
での距離が類似度の指標として有用であるということは,Resnik et al.40)
にお
られている.
本語語彙大系中においては,1 つの名詞に対し複数の概念が定義されている.
名詞同士の類似度を計算するということは,その名詞が持つ概念集合同士の類
することになる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞 wj の
下の式で計算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
ーラス中において複数概念を持つ名詞同士の類似度計算の式は,Jiang et al.
になる.正解セットとして,日本語語彙大系中における名詞間
いほど類似度が高く,距離が離れているほど類似度が低いとし
が類似度の指標として有用であるということは,Resnik et al.
る.
大系中においては,1 つの名詞に対し複数の概念が定義されて
の類似度を計算するということは,その名詞が持つ概念集合同
になる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞
計算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
ほど類似度が高く,距離が離れているほど類似度が低いと
類似度の指標として有用であるということは,Resnik et a
る.
大系中においては,1 つの名詞に対し複数の概念が定義され
類似度を計算するということは,その名詞が持つ概念集合
になる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名
計算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
なる.正解セットとして,日本語語彙大系中における名詞間の
ほど類似度が高く,距離が離れているほど類似度が低いとした
類似度の指標として有用であるということは,Resnik et al.40)
.
系中においては,1 つの名詞に対し複数の概念が定義されてい
類似度を計算するということは,その名詞が持つ概念集合同士
なる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞
算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
おける名詞間の距離を計算
度が低いとした.シソーラ
Resnik et al.40)
においても
が定義されている.そのた
つ概念集合同士の類似度を
Y を持つ名詞 wj の類似度
wj,y)
wj,y)
(7.1)
23
概念同士の類似度計算式	
•  概念 を持つ名詞  と概念    を持
つ名詞 	
  	
  	
  の類似度計算式	
.
系中においては,1 つの名詞に対し複数の概念が定義されてい
類似度を計算するということは,その名詞が持つ概念集合同士
なる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞
算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
おいて複数概念を持つ名詞同士の類似度計算の式は,Jiang e
いた.ここで d(wi) とは,根から wi までの深さ,d(wi, wj) と
.
系中においては,1 つの名詞に対し複数の概念が定義され
類似度を計算するということは,その名詞が持つ概念集合
になる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名
算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
において複数概念を持つ名詞同士の類似度計算の式は,Jia
用いた.ここで d(wi) とは,根から wi までの深さ,d(wi, w
る.
大系中においては,1 つの名詞に対し複数の概念が定義されてい
の類似度を計算するということは,その名詞が持つ概念集合同士
になる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞
計算される.
ave sim(wi, wj) =
1
|XY | x∈X,y∈Y
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
max sim(wi, wj) = max
2d(wi,x, wj,y)
d(wi,x)d(wj,y)
において複数概念を持つ名詞同士の類似度計算の式は,Jiang
用いた.ここで d(wi) とは,根から wi までの深さ,d(wi, wj) と
wj が共有する上位概念までの深さを表している.名詞 wi と名
Resnik et al. においても
が定義されている.そのた
つ概念集合同士の類似度を
Y を持つ名詞 wj の類似度
wj,y)
(wj,y)
(7.1)
)
)
(7.2)
の式は,Jiang et al.24)
の定
図 7.3 β 値を-8 から 8 まで変化させた場合の正解
7.2.2 評価結果
以下に示す式を用いて,概念 x ∈ X を持つ名詞 wi
似度を計算する (Jac: Jaccard 係数,Simp: Simpson
数,freq(wi, p): 名詞 wi に係る用言 p の出現頻度.仮
場合,freq(wi, p) の値は 0 となる).
: 名詞 	
  に係る用言  の出現頻度	
図 7.3 β 値を-8 から 8 まで変化させた場合の正解セッ
7.2.2 評価結果
以下に示す式を用いて,概念 x ∈ X を持つ名詞 wi と,
似度を計算する (Jac: Jaccard 係数,Simp: Simpson 係数
数,freq(wi, p): 名詞 wi に係る用言 p の出現頻度.仮に用
場合,freq(wi, p) の値は 0 となる).
32 第 7 章 概念同士の類似
位 90 %を占める 1,617 個の名詞を用いて,評価セットと正解セットにおける各名
類似度集合の相関係数を求める.両者の相関が高いほど正しく名詞同士の類似度
きていることになる.正解セットとして,日本語語彙大系中における名詞間の距
し,距離が近いほど類似度が高く,距離が離れているほど類似度が低いとした.
ス中での距離が類似度の指標として有用であるということは,Resnik et al.40)
に
述べられている.
日本語語彙大系中においては,1 つの名詞に対し複数の概念が定義されている
め,名詞同士の類似度を計算するということは,その名詞が持つ概念集合同士の
計算することになる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞 wj の
は以下の式で計算される.
2 評価結果
下に示す式を用いて,概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞
を計算する (Jac: Jaccard 係数,Simp: Simpson 係数,WJac: 重み付き Jac
freq(wi, p): 名詞 wi に係る用言 p の出現頻度.仮に用言 p が名詞 wi に係らな
,freq(wi, p) の値は 0 となる).
Jac(wi, wj) =
|X ∪ Y |
|X ∩ Y |
Simp(wi, wj) =
|X ∪ Y |
min(|X|, |Y |)
WJac(wi, wj) =
p min(freq(wi, p), freq(wj, p))
p max(freq(wi, p), freq(wj, p))
ースラインと提案手法に付与される用言のトップ 10 の例を,表 7.1 に示す.
案手法では,すべての用言がそれぞれの名詞に対する常識となっている.ベー
士を比較すると,どちらも上位にランク付けされる名詞にほとんど違いがな
24
評価結果	
ave	
  
.	
  
max	
  
.	
  
ave	
  
.	
  
max	
  
.	
  
ave	
  
.	
  
max	
  
.	
  
Jac	
   0.443	
   0.451	
   0.48	
   0.481	
   0.607	
   0.591	
  
Simp	
   0.326	
   0.335	
   0.442	
   0.446	
   0.499	
   0.461	
  
WJac	
   0.378	
   0.376	
   0.371	
   0.364	
   0.582	
   0.558	
  
0	
  
0.1	
  
0.2	
  
0.3	
  
0.4	
  
0.5	
  
0.6	
  
0.7	
  
ベースライン1	
 ベースライン2	
  提案手法 	
25
概念に付与される常識の例	
26	
犬	
 世の中	
 議員	
 窓	
をー飼う	
 をー生き抜く	
 にー当選	
 をー開ける	
がー死ぬ	
 でー起こる	
 にー立候補	
 をー設置	
とー暮らす	
 にー存在	
 からー反対	
 からー見える	
をー連れる	
 にー広める	
 がー提出	
 からー眺める	
がー大好き	
 にー必要	
 がー著作	
 をー閉める	
をー散歩	
 にー送り出す	
 がー誕生	
 からー入る	
にー噛む	
 のー役に立つ	
 にー聞く	
 からー出る	
とー遊ぶ	
 にー役立つ	
 をー半減	
 にー入力	
をー愛す	
 にー貢献	
 をー落選	
 からー覗く	
とー生活	
 をー動かす	
 をー辞職	
 にー貼る
結論	
•  言語処理で利用可能な大規模常識知識ベー
スを自動的に構築	
  
– 35,852個の概念ー常識対を自動的に獲得	
  
– 統計情報を利用し常識として適切な用言を選定	
  
→ 多くの概念の係り先となる用言は常識として	
  
   不適切であり,またある用言が常識として適切か 	
  
   否かは常識付与の対象である概念に依存	
  
– 常識集合の類似度に基づき概念の類似度計算	
  
→ ベースラインと比較して類似度計算の精度が高く,
	
  一般的な名詞の類似度計算タスクにも有用	
  
27
名詞と名詞が格付きで係る用言の組を抽出	
  1/2	
•  概念と常識を抽出するデータ源	
  
– Web日本語Nグラム	
  (7グラム)	
  
•  200億文から,出現頻度20回以上のNグラムを抽出	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
– 7グラム総数:	
  570,204,252個	
  
	
  
Nグラム 	
私は猫が好きです	
  →	
  私 は 猫 が 好き です	
2グラム: [私は]	
  [は猫]	
  [猫が]	
  [が好き]	
  [好きです]	
3グラム: [私は猫]	
  [は猫が]	
  [猫が好き]	
  [が好きです]
名詞と名詞が格付きで係る用言の組を抽出	
  2/2	
•  7グラムデータを係り受け解析し,名詞と名詞
が格付きで係る用言の組を抽出	
  
	
  	
  抽出した名詞と格ー用言の組	
  
– 14,240,242,840対	
  
•  名詞の異なり数:298,976語	
  
•  格ー用言の異なり数:30,434語	
概念となる名詞	
  
常識となる格ー用言	
  
を選定
常識として不適切な用言の除外	
0	
  
5000	
  
10000	
  
15000	
  
20000	
  
25000	
  
30000	
  
35000	
  
40000	
  
0	
   2000	
   4000	
   6000	
   8000	
   10000	
  
疎な分布となる範囲	
  
=削除用言	
用
言
異
数
	
用言の係り元となる概念の数	
係り元となる概念の数別に見た場合の用言の出現分布
常識として不適切な用言の除外	
係り元となる概念の数別に見た場合の用言の出現分布
Nの増加に伴い,削除される用言数が少なくなる	
疎な分布	
N=1,000	
 N=10,000	
横軸:用言の係り元となる概念の数	
縦軸:用言の異なり数	
係り先用言数が多い概念上位N件における用言の出現分布	
=係り先の用言数が多い概念ほど,削除用言数が多くなる
と-­‐走る	
  
が-­‐歩く	
  
を-­‐飼う	
  
が-­‐鳴く	
  
が-­‐可愛い	
  
と-­‐遊ぶ	
  
と-­‐寝る	
  
	
  	
  
を-­‐噛む	
  
  ・・・	
  
と-­‐一緒	
  
が-­‐歩く	
  
へ-­‐あげる	
  
と-­‐寝る	
  
を-­‐叱る	
  
が-­‐可愛い	
  	
  
と-­‐帰る	
  
と-­‐散歩	
  
が-­‐噛む	
  
  ・・・	
  
共通する	
  
常識	
概念“猫”	
  
における	
  
削除常識	
概念“犬”	
  
における	
  
削除常識	
共通する	
  
常識のうち	
  
最も頻度が低い	
猫	
 犬	
※各常識は	
  
頻度で降順	
  
に並び替え済	
•  概念対ごとに低頻度の常識を除外	
  
– 係り受け解析誤り等によって付与された低頻度
常識の影響を抑える	
  
自己相互情報量の閾値の決定	
β=0の場合,正解セットとの相関が最も高くなる	
  
 →	
  自己相互情報量のスコアがβ=0以下の用言を削除
常識知識ベースの評価	
  2/2	
大学生 	
   	
   	
  中学生	
  
インド 	
   	
   	
  イラク	
  
ビジネスマン	
   	
  サラリーマン	
  
プロデューサー 	
  キャスター	
  
アイドル	
   	
   	
  芸能人	
  
水着 	
   	
   	
  下着	
  
遺体 	
   	
   	
  死体	
  
チョコ 	
   	
   	
  プリン	
  
素肌 	
   	
   	
  鳥肌	
  
資材 	
   	
   	
  機材	
  
自民党 	
   	
   	
  民主党	
  
悪魔 	
   	
   	
  モンスター	
  
常識集合の類似度が	
  
高い概念対	
作成した常識知識ベース	
  
35,852個の	
  
概念ー常識対を獲得	
  
	
  
ConceptNet	
  
14,546個の	
  
概念ー常識対を保有	
2〜3倍の規模の	
  
常識知識ベースを構築	
  

More Related Content

Viewers also liked

110623 mophology 04_slides
110623 mophology 04_slides110623 mophology 04_slides
110623 mophology 04_slidesTomonari Kuroda
 
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定Tatsuya Coike
 
Ngữ pháp trong tiếng Nhật 1 - 2
Ngữ pháp trong tiếng Nhật 1 - 2Ngữ pháp trong tiếng Nhật 1 - 2
Ngữ pháp trong tiếng Nhật 1 - 2Japanese Club
 
日本企業における外国人への日本語教育
日本企業における外国人への日本語教育日本企業における外国人への日本語教育
日本企業における外国人への日本語教育Kei Koike
 
Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Japanese Club
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化Kodaira Tomonori
 
Kanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnameseKanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnameseShinichi Kudo
 
検索と自然言語処理
検索と自然言語処理検索と自然言語処理
検索と自然言語処理Wataru ONO
 
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房Takehiko Ito
 

Viewers also liked (12)

普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討
 
110623 mophology 04_slides
110623 mophology 04_slides110623 mophology 04_slides
110623 mophology 04_slides
 
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
 
Ngữ pháp trong tiếng Nhật 1 - 2
Ngữ pháp trong tiếng Nhật 1 - 2Ngữ pháp trong tiếng Nhật 1 - 2
Ngữ pháp trong tiếng Nhật 1 - 2
 
日本企業における外国人への日本語教育
日本企業における外国人への日本語教育日本企業における外国人への日本語教育
日本企業における外国人への日本語教育
 
Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9
 
国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化国語辞典を使った放送ニュースの名詞の平易化
国語辞典を使った放送ニュースの名詞の平易化
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
Kanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnameseKanzen master 1kyuu_grammar_vietnamese
Kanzen master 1kyuu_grammar_vietnamese
 
検索と自然言語処理
検索と自然言語処理検索と自然言語処理
検索と自然言語処理
 
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
R034 伊藤武彦・田原俊司・朴 媛淑 (1993). 文の理解にはたす助詞の働き:日本語と韓国語を中心に 風間書房
 

Similar to 大規模常識知識ベース構築のための常識表現の自動獲得

言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPTnlab_utokyo
 
論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得swenbe
 
文献紹介:An Empirical Study on the Effect of Negation words on Sentiment
文献紹介:An Empirical Study on the Effect of Negation words on Sentiment文献紹介:An Empirical Study on the Effect of Negation words on Sentiment
文献紹介:An Empirical Study on the Effect of Negation words on SentimentShohei Okada
 
言語モデル入門 (第二版)
言語モデル入門 (第二版)言語モデル入門 (第二版)
言語モデル入門 (第二版)Yoshinari Fujinuma
 
LS for Reinforcement Learning
LS for Reinforcement LearningLS for Reinforcement Learning
LS for Reinforcement Learningimlschedules
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
20150415 automatic retirieval_and_clustering_of_similar_words
20150415 automatic retirieval_and_clustering_of_similar_words20150415 automatic retirieval_and_clustering_of_similar_words
20150415 automatic retirieval_and_clustering_of_similar_wordsKanji Takahashi
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1sekizawayuuki
 
大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化奈良先端大 情報科学研究科
 
吉田プロジェクト2019_人工知能のプロセス
吉田プロジェクト2019_人工知能のプロセス吉田プロジェクト2019_人工知能のプロセス
吉田プロジェクト2019_人工知能のプロセスWhiramine
 
読解支援プレゼン 4 28
読解支援プレゼン 4 28読解支援プレゼン 4 28
読解支援プレゼン 4 28kentshioda
 
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...Akira Taniguchi
 

Similar to 大規模常識知識ベース構築のための常識表現の自動獲得 (15)

大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得
 
文献紹介:An Empirical Study on the Effect of Negation words on Sentiment
文献紹介:An Empirical Study on the Effect of Negation words on Sentiment文献紹介:An Empirical Study on the Effect of Negation words on Sentiment
文献紹介:An Empirical Study on the Effect of Negation words on Sentiment
 
言語モデル入門 (第二版)
言語モデル入門 (第二版)言語モデル入門 (第二版)
言語モデル入門 (第二版)
 
LS for Reinforcement Learning
LS for Reinforcement LearningLS for Reinforcement Learning
LS for Reinforcement Learning
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
20150415 automatic retirieval_and_clustering_of_similar_words
20150415 automatic retirieval_and_clustering_of_similar_words20150415 automatic retirieval_and_clustering_of_similar_words
20150415 automatic retirieval_and_clustering_of_similar_words
 
読解支援@2015 08-10-1
読解支援@2015 08-10-1読解支援@2015 08-10-1
読解支援@2015 08-10-1
 
大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化
 
吉田プロジェクト2019_人工知能のプロセス
吉田プロジェクト2019_人工知能のプロセス吉田プロジェクト2019_人工知能のプロセス
吉田プロジェクト2019_人工知能のプロセス
 
読解支援プレゼン 4 28
読解支援プレゼン 4 28読解支援プレゼン 4 28
読解支援プレゼン 4 28
 
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
論文紹介 A Bayesian framework for word segmentation: Exploring the effects of con...
 

More from 長岡技術科学大学 自然言語処理研究室

More from 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 

Recently uploaded

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 

Recently uploaded (12)

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 

大規模常識知識ベース構築のための常識表現の自動獲得

  • 2. 研究の背景  1/2 言葉の意味を理解するコンピュータの実現   – 言語の文法的知識   – 大量の常識 e.g.  会話応答システム 愛犬と遊んでいました 犬を飼っているの ですか?   可愛いですか? →  愛犬とは      飼い犬のことである   →  愛犬は     可愛がられている 1
  • 3. 研究の背景  2/2 •  自然言語処理研究における既存語彙資源   – 辞書:ipadic,JUMAN辞書   – シソーラス:WordNet,日本語語彙体系                    → 常識は得られない   多くの研究者が注目:               -­‐  大量の常識を収集した常識知識ベースを                        構築する研究               -­‐  常識知識ベースを自然言語処理のタスクで                        利用しやすい形で提供する研究   2
  • 4. 関連研究 •  既存の上位オントロジー(e.g.  CYC,  SUMO)   – 多くの一般的な概念を含むオントロジー   – 厳密に定義された常識を利用できるが,知識表 現が実際の言語表現に対応出来ない   •  ConceptNet(常識知識ベース)   – 単語や短い文で常識を定義しており,自然言語 処理タスクでの利用が容易   – 常識の大半が人手で集められており,網羅性が 低い(日本語版:14,546)   3
  • 5. 本研究における概念と常識の定義 名詞                →  概念   名詞が格付きで係る用言  →  常識   概念“犬”が持つ常識 動詞: をーしつける,がー吠える,    がー走る 形容詞: がー可愛い,がー楽しい,がー愛しい サ変名詞: とー散歩,がー病気,をー訓練,をー飼育 4
  • 6. 研究の目的 •  自然言語処理で利用可能な大規模常識知識 ベースを自動的に構築 猫 はー鳴く   はー散歩   はー可愛い   はー可愛い   がー鳴く 動物 類似度   計算   子犬 はー鳴く              ・・・・     はーほえる   はー散歩   はー可愛い   犬 常識同士を   比較 上位概念と   結びつける   5
  • 7. 常識知識ベース構築の流れ 1.  概念として適切な名詞の選定   2.  常識として適切な格ー用言の選定   3.  概念同士の類似度計算   猫 はー鳴く   はー可愛い   はー可愛い   がー鳴く 動物 子犬 はー鳴く              ・・・・   はーほえる   はー散歩   犬 6
  • 8. 常識知識ベース構築の流れ 1.  概念として適切な名詞の選定   2.  常識として適切な格ー用言の選定   3.  概念同士の類似度計算   猫 はー鳴く   はー可愛い   はー可愛い   がー鳴く 動物 子犬 はー鳴く              ・・・・   はーほえる   はー散歩   犬 6
  • 9. 概念として適切な名詞の選定 •  日本語語彙大系中の具体名詞12,042語   – 具体名詞   •  道路,犬,団扇,シリンダー        等       日本語語彙大系 大規模な日本語シソーラス   各名詞は階層的なカテゴリに分類される   e.g.  道路:  名詞  -­‐  具体  -­‐  場所  -­‐  施設  -­‐  公共施設  -­‐  交通路  -­‐  道路                  犬:  名詞  -­‐  具体  -­‐  具体物  -­‐  生物  -­‐  動物  -­‐  動物(個体)  -­‐獣 7
  • 10. 常識知識ベース構築の流れ 1.  概念として適切な名詞の選定   2.  常識として適切な格ー用言の選定   3.  概念同士の類似度計算   猫 はー鳴く   はー可愛い   はー可愛い   がー鳴く 動物 子犬 はー鳴く              ・・・・   はーほえる   はー散歩   犬 8
  • 11. 常識のもつ性質についての仮説 •  特定の概念が高頻度で係る用言は,その概 念の常識として適切である   – E.g.  「道路を横断する」が高い頻度で出現        → 「をー横断」は「道路」の常識   •  多くの概念が係る用言(=汎用的に利用され る用言)は常識として不適切である   – E.g.  「道路」に対する「をー使う」   •  用言が概念の常識として適切か否かは,概 念が係る用言数に依存する   9
  • 12. 常識のもつ性質についての仮説 •  特定の概念が高頻度で係る用言は,その概 念の常識として適切である   – E.g.  「道路を横断する」が高い頻度で出現        → 「をー横断」は「道路」の常識   •  多くの概念が係る用言(=汎用的に利用され る用言)は常識として不適切である   – E.g.  「道路」に対する「をー使う」   •  用言が概念の常識として適切か否かは,概 念が係る用言数に依存する   9
  • 13. 常識を集める上での課題 与される用言の違い (スコア順上位 10 件) 名詞:道路 案手法 ベースライン 1 ベースライン 2 提案手法 生き抜く が-分断 が-分断 が-分断 -起こる に-関連 に-関連 を-走る に-存在 を-走る を-走る に-面す -広める に-面す に-面す を-挟む に-必要 を-使う を-使う を-直進 送り出す を-挟む を-挟む から-出入り 役に立つ を-直進 を-直進 に-接す -役立つ を-利用 を-利用 を-横断 に-貢献 から-出入り から-出入り を-渡る -動かす に-ある に-接す が-整備 名詞:議員 「道路」が係る   出現頻度上位10件の格-­‐用言 常識として適切 常識として不適切 上位に位置する格ー用言   ほど,概念“道路”の常識   として適切 10
  • 14. 常識を集める上での課題 与される用言の違い (スコア順上位 10 件) 名詞:道路 案手法 ベースライン 1 ベースライン 2 提案手法 生き抜く が-分断 が-分断 が-分断 -起こる に-関連 に-関連 を-走る に-存在 を-走る を-走る に-面す -広める に-面す に-面す を-挟む に-必要 を-使う を-使う を-直進 送り出す を-挟む を-挟む から-出入り 役に立つ を-直進 を-直進 に-接す -役立つ を-利用 を-利用 を-横断 に-貢献 から-出入り から-出入り を-渡る -動かす に-ある に-接す が-整備 名詞:議員 「道路」が係る   出現頻度上位10件の格-­‐用言 出現頻度は高いが   概念を特徴づけない 常識として不適切な語    ・ 汎用的な語    ・ 多くの概念の係り先 10
  • 15. 常識のもつ性質についての仮説 •  特定の概念が高頻度で係る用言は,その概 念の常識として適切である   – E.g.  「道路を横断する」が高い頻度で出現        → 「をー横断」は「道路」の常識   •  多くの概念が係る用言(=汎用的に利用され る用言)は常識として不適切である   – E.g.  「道路」に対する「をー使う」   •  用言が概念の常識として適切か否かは,概 念が係る用言数に依存する   11
  • 16. 常識のもつ性質についての仮説 •  特定の概念が高頻度で係る用言は,その概 念の常識として適切である   – E.g.  「道路を横断する」が高い頻度で出現        → 「をー横断」は「道路」の常識   •  多くの概念が係る用言(=汎用的に利用され る用言)は常識として不適切である   – E.g.  「道路」に対する「をー使う」   •  用言が概念の常識として適切か否かは,概 念が係る用言数に依存する   集めた常識集合の中から除外 11
  • 18. 常識として不適切な用言の除外 用 言 異 数 用言の係り元となる概念の数 係り元となる概念がほとんどない   ような用言が35,000個以上ある   (e.g.  にー閉塞,からー持ち出せる) 係り元となる概念の数別に見た場合の用言の出現分布 係り元となる概念が   8000個以上あるような   用言は少数   (e.g.  がーある,にーいる) 12
  • 21. 常識のもつ性質についての仮説 •  特定の概念が高頻度で係る用言は,その概 念の常識として適切である   – E.g.  「道路を横断する」が高い頻度で出現        → 「をー横断」は「道路」の常識   •  多くの概念が係る用言(=汎用的に利用され る用言)は常識として不適切である   – E.g.  「道路」に対する「をー使う」   •  用言が概念の常識として適切か否かは,概 念が係る用言数に依存する   13
  • 22. 係り先の   用言数の   降順に   並び替え   情報   人   商品   ・   ・   ・   ランナー   データベース ピアノ   用言“がー走る”は   概念“人”を   特徴づけない 用言“がー走る”は   概念“ランナー”を   特徴づける 多くの概念が係る用言でも,係り先の用言数が少ない概念に対 しては常識となる場合がある    → 係り先の用言数が多い概念ほど,削除用言数が多くなる         と予想される   14
  • 23. y  =  13135x-­‐0.583 0   50   100   150   200   250   300   1000   10000   削   除   用   言   数 多くの用言の係り元となる概念上位N件 係り先用言数が多い概念上位N=1000〜12042件   における削除用言数の変化 ・・・各概念に対する   削除用言数を導出 N<1000の概念:  N=1000で削除される234語を削除 15
  • 24. 用言の選定結果 「道路」に付与される上位10件の常識   ベースライン:   頻度情報のみを用いる手法     提案手法:   統計的情報を用いて常識として 不適切な用言を削除する手法   付与される用言の違い (スコア順上位 10 件) 名詞:道路 提案手法 ベースライン 1 ベースライン 2 提案手法 を-生き抜く が-分断 が-分断 が-分断 で-起こる に-関連 に-関連 を-走る に-存在 を-走る を-走る に-面す に-広める に-面す に-面す を-挟む に-必要 を-使う を-使う を-直進 に-送り出す を-挟む を-挟む から-出入り の-役に立つ を-直進 を-直進 に-接す に-役立つ を-利用 を-利用 を-横断 に-貢献 から-出入り から-出入り を-渡る を-動かす に-ある に-接す が-整備 名詞:議員 提案手法 ベースライン 1 ベースライン 2 提案手法 を-飼う に-なる に-なる に-当選 が-死ぬ が-いる が-いる に-立候補 と-暮らす に-当選 に-当選 から-反対 を-連れる に-立候補 に-立候補 が-提出 言の違い (スコア順上位 10 件) 名詞:道路 ースライン 1 ベースライン 2 提案手法 が-分断 が-分断 が-分断 に-関連 に-関連 を-走る を-走る を-走る に-面す に-面す に-面す を-挟む を-使う を-使う を-直進 を-挟む を-挟む から-出入り を-直進 を-直進 に-接す を-利用 を-利用 を-横断 から-出入り から-出入り を-渡る に-ある に-接す が-整備 名詞:議員 ースライン 1 ベースライン 2 提案手法 に-なる に-なる に-当選 が-いる が-いる に-立候補 に-当選 に-当選 から-反対 に-立候補 に-立候補 が-提出 •  “にー関連”,“をー使う”といった汎用的な用言を削除   •  “をー横断”,“をー渡る”といった頻度が高くてかつ常識とな る用言が上位に位置   35,852個の   概念ー常識対を獲得 16
  • 25. 常識知識ベース構築の流れ 1.  概念として適切な名詞の選定   2.  常識として適切な格ー用言の選定   3.  概念同士の類似度計算   猫 はー鳴く   はー可愛い   はー可愛い   がー鳴く 動物 子犬 はー鳴く              ・・・・   はーほえる   はー散歩   犬 17
  • 26. 概念間に現れる性質についての仮説 •  概念対が類似している場合,両者に付与され る常識集合同士も類似している   •  概念c1と概念c2が類似しており,かつ概念c2 と概念c3も類似している場合は,概念c1と概 念c3もまた類似している(推移律)   18
  • 27. 概念間に現れる性質についての仮説 •  概念対が類似している場合,両者に付与され る常識集合同士も類似している   •  概念c1と概念c2が類似しており,かつ概念c2 と概念c3も類似している場合は,概念c1と概 念c3もまた類似している(推移律)   18
  • 28. 概念間の類似度計算  1/2 と-­‐走る   が-­‐歩く   を-­‐飼う   が-­‐鳴く   が-­‐可愛い   と-­‐遊ぶ   と-­‐寝る   が-­‐噛む    ・・・   が-­‐吠える   が-­‐歩く   を-­‐飼う   と-­‐寝る   を-­‐叱る   が-­‐可愛い   と-­‐遊ぶ   と-­‐寝る   が-­‐噛む    ・・・   概念“猫”と概念“犬”に   付与される常識   (※頻度で降順に並び替え) 常識集合の類似度を計算     常識集合の類似度が高い     →  類似した概念対 ※常識集合の類似度計算に用いる   関数については,後ほど説明する 猫 犬 19
  • 29. 概念間に現れる性質についての仮説 •  概念対が類似している場合,両者に付与され る常識集合同士も類似している   •  概念c1と概念c2が類似しており,かつ概念c2 と概念c3も類似している場合は,概念c1と概 念c3もまた類似している(推移律)   20
  • 30. 概念間の類似度計算  2/2 概念“猫”と概念“犬”の   類似度集合の相関係数を求める 猫 犬 猫と犬が類似   猫とうさぎが類似    →  犬とうさぎも類似     猫と犬が類似   猫と電車が相違    →  犬と電車も相違   うさぎ 電車 とり モニタ うさぎ 電車 とり モニタ 概念同士が類似   =他概念との類似度集合が相関をもつ    →  概念同士の類似度として扱う 常識集合の   類似度計算 21
  • 31. 類似度計算の評価 •  出現頻度の高い上位1,617個の名詞について, 各手法によって求められた類似度集合と,正 解セットの類似度集合の相関を計算   – 比較手法   •  用言の削除は行わず,出現頻度で重み付けした用言 を用いる手法(ベースライン1)   •  自己相互情報量のスコアが閾値以下の用言を削除す る手法(ベースライン2)(相澤法)   – 提案手法   22
  • 32. 正解セットの作成方法 •  日本語語彙大系中における名詞間の距離を 類似度として用いる  (Resnik  et  al.  1995)   – 距離が近いほど類似度が高くなる   – 概念    を持つ名詞  と概念     を持つ 名詞      の類似度計算式 度集合の相関係数を求める.両者の相関が高いほど正しく名詞同士の類似度を いることになる.正解セットとして,日本語語彙大系中における名詞間の距離 距離が近いほど類似度が高く,距離が離れているほど類似度が低いとした.シ での距離が類似度の指標として有用であるということは,Resnik et al.40) にお られている. 本語語彙大系中においては,1 つの名詞に対し複数の概念が定義されている. 名詞同士の類似度を計算するということは,その名詞が持つ概念集合同士の類 することになる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞 wj の 下の式で計算される. ave sim(wi, wj) = 1 |XY | x∈X,y∈Y 2d(wi,x, wj,y) d(wi,x)d(wj,y) max sim(wi, wj) = max 2d(wi,x, wj,y) d(wi,x)d(wj,y) ーラス中において複数概念を持つ名詞同士の類似度計算の式は,Jiang et al. になる.正解セットとして,日本語語彙大系中における名詞間 いほど類似度が高く,距離が離れているほど類似度が低いとし が類似度の指標として有用であるということは,Resnik et al. る. 大系中においては,1 つの名詞に対し複数の概念が定義されて の類似度を計算するということは,その名詞が持つ概念集合同 になる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞 計算される. ave sim(wi, wj) = 1 |XY | x∈X,y∈Y 2d(wi,x, wj,y) d(wi,x)d(wj,y) max sim(wi, wj) = max 2d(wi,x, wj,y) d(wi,x)d(wj,y) ほど類似度が高く,距離が離れているほど類似度が低いと 類似度の指標として有用であるということは,Resnik et a る. 大系中においては,1 つの名詞に対し複数の概念が定義され 類似度を計算するということは,その名詞が持つ概念集合 になる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名 計算される. ave sim(wi, wj) = 1 |XY | x∈X,y∈Y 2d(wi,x, wj,y) d(wi,x)d(wj,y) max sim(wi, wj) = max 2d(wi,x, wj,y) d(wi,x)d(wj,y) なる.正解セットとして,日本語語彙大系中における名詞間の ほど類似度が高く,距離が離れているほど類似度が低いとした 類似度の指標として有用であるということは,Resnik et al.40) . 系中においては,1 つの名詞に対し複数の概念が定義されてい 類似度を計算するということは,その名詞が持つ概念集合同士 なる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞 算される. ave sim(wi, wj) = 1 |XY | x∈X,y∈Y 2d(wi,x, wj,y) d(wi,x)d(wj,y) max sim(wi, wj) = max 2d(wi,x, wj,y) d(wi,x)d(wj,y) おける名詞間の距離を計算 度が低いとした.シソーラ Resnik et al.40) においても が定義されている.そのた つ概念集合同士の類似度を Y を持つ名詞 wj の類似度 wj,y) wj,y) (7.1) 23
  • 33. 概念同士の類似度計算式 •  概念 を持つ名詞  と概念    を持 つ名詞      の類似度計算式 . 系中においては,1 つの名詞に対し複数の概念が定義されてい 類似度を計算するということは,その名詞が持つ概念集合同士 なる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞 算される. ave sim(wi, wj) = 1 |XY | x∈X,y∈Y 2d(wi,x, wj,y) d(wi,x)d(wj,y) max sim(wi, wj) = max 2d(wi,x, wj,y) d(wi,x)d(wj,y) おいて複数概念を持つ名詞同士の類似度計算の式は,Jiang e いた.ここで d(wi) とは,根から wi までの深さ,d(wi, wj) と . 系中においては,1 つの名詞に対し複数の概念が定義され 類似度を計算するということは,その名詞が持つ概念集合 になる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名 算される. ave sim(wi, wj) = 1 |XY | x∈X,y∈Y 2d(wi,x, wj,y) d(wi,x)d(wj,y) max sim(wi, wj) = max 2d(wi,x, wj,y) d(wi,x)d(wj,y) において複数概念を持つ名詞同士の類似度計算の式は,Jia 用いた.ここで d(wi) とは,根から wi までの深さ,d(wi, w る. 大系中においては,1 つの名詞に対し複数の概念が定義されてい の類似度を計算するということは,その名詞が持つ概念集合同士 になる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞 計算される. ave sim(wi, wj) = 1 |XY | x∈X,y∈Y 2d(wi,x, wj,y) d(wi,x)d(wj,y) max sim(wi, wj) = max 2d(wi,x, wj,y) d(wi,x)d(wj,y) において複数概念を持つ名詞同士の類似度計算の式は,Jiang 用いた.ここで d(wi) とは,根から wi までの深さ,d(wi, wj) と wj が共有する上位概念までの深さを表している.名詞 wi と名 Resnik et al. においても が定義されている.そのた つ概念集合同士の類似度を Y を持つ名詞 wj の類似度 wj,y) (wj,y) (7.1) ) ) (7.2) の式は,Jiang et al.24) の定 図 7.3 β 値を-8 から 8 まで変化させた場合の正解 7.2.2 評価結果 以下に示す式を用いて,概念 x ∈ X を持つ名詞 wi 似度を計算する (Jac: Jaccard 係数,Simp: Simpson 数,freq(wi, p): 名詞 wi に係る用言 p の出現頻度.仮 場合,freq(wi, p) の値は 0 となる). : 名詞  に係る用言  の出現頻度 図 7.3 β 値を-8 から 8 まで変化させた場合の正解セッ 7.2.2 評価結果 以下に示す式を用いて,概念 x ∈ X を持つ名詞 wi と, 似度を計算する (Jac: Jaccard 係数,Simp: Simpson 係数 数,freq(wi, p): 名詞 wi に係る用言 p の出現頻度.仮に用 場合,freq(wi, p) の値は 0 となる). 32 第 7 章 概念同士の類似 位 90 %を占める 1,617 個の名詞を用いて,評価セットと正解セットにおける各名 類似度集合の相関係数を求める.両者の相関が高いほど正しく名詞同士の類似度 きていることになる.正解セットとして,日本語語彙大系中における名詞間の距 し,距離が近いほど類似度が高く,距離が離れているほど類似度が低いとした. ス中での距離が類似度の指標として有用であるということは,Resnik et al.40) に 述べられている. 日本語語彙大系中においては,1 つの名詞に対し複数の概念が定義されている め,名詞同士の類似度を計算するということは,その名詞が持つ概念集合同士の 計算することになる.概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞 wj の は以下の式で計算される. 2 評価結果 下に示す式を用いて,概念 x ∈ X を持つ名詞 wi と,概念 y ∈ Y を持つ名詞 を計算する (Jac: Jaccard 係数,Simp: Simpson 係数,WJac: 重み付き Jac freq(wi, p): 名詞 wi に係る用言 p の出現頻度.仮に用言 p が名詞 wi に係らな ,freq(wi, p) の値は 0 となる). Jac(wi, wj) = |X ∪ Y | |X ∩ Y | Simp(wi, wj) = |X ∪ Y | min(|X|, |Y |) WJac(wi, wj) = p min(freq(wi, p), freq(wj, p)) p max(freq(wi, p), freq(wj, p)) ースラインと提案手法に付与される用言のトップ 10 の例を,表 7.1 に示す. 案手法では,すべての用言がそれぞれの名詞に対する常識となっている.ベー 士を比較すると,どちらも上位にランク付けされる名詞にほとんど違いがな 24
  • 34. 評価結果 ave   .   max   .   ave   .   max   .   ave   .   max   .   Jac   0.443   0.451   0.48   0.481   0.607   0.591   Simp   0.326   0.335   0.442   0.446   0.499   0.461   WJac   0.378   0.376   0.371   0.364   0.582   0.558   0   0.1   0.2   0.3   0.4   0.5   0.6   0.7   ベースライン1 ベースライン2  提案手法  25
  • 35. 概念に付与される常識の例 26 犬 世の中 議員 窓 をー飼う をー生き抜く にー当選 をー開ける がー死ぬ でー起こる にー立候補 をー設置 とー暮らす にー存在 からー反対 からー見える をー連れる にー広める がー提出 からー眺める がー大好き にー必要 がー著作 をー閉める をー散歩 にー送り出す がー誕生 からー入る にー噛む のー役に立つ にー聞く からー出る とー遊ぶ にー役立つ をー半減 にー入力 をー愛す にー貢献 をー落選 からー覗く とー生活 をー動かす をー辞職 にー貼る
  • 36. 結論 •  言語処理で利用可能な大規模常識知識ベー スを自動的に構築   – 35,852個の概念ー常識対を自動的に獲得   – 統計情報を利用し常識として適切な用言を選定   → 多くの概念の係り先となる用言は常識として      不適切であり,またある用言が常識として適切か       否かは常識付与の対象である概念に依存   – 常識集合の類似度に基づき概念の類似度計算   → ベースラインと比較して類似度計算の精度が高く,  一般的な名詞の類似度計算タスクにも有用   27
  • 37. 名詞と名詞が格付きで係る用言の組を抽出  1/2 •  概念と常識を抽出するデータ源   – Web日本語Nグラム  (7グラム)   •  200億文から,出現頻度20回以上のNグラムを抽出                 – 7グラム総数:  570,204,252個     Nグラム 私は猫が好きです  →  私 は 猫 が 好き です 2グラム: [私は]  [は猫]  [猫が]  [が好き]  [好きです] 3グラム: [私は猫]  [は猫が]  [猫が好き]  [が好きです]
  • 38. 名詞と名詞が格付きで係る用言の組を抽出  2/2 •  7グラムデータを係り受け解析し,名詞と名詞 が格付きで係る用言の組を抽出      抽出した名詞と格ー用言の組   – 14,240,242,840対   •  名詞の異なり数:298,976語   •  格ー用言の異なり数:30,434語 概念となる名詞   常識となる格ー用言   を選定
  • 39. 常識として不適切な用言の除外 0   5000   10000   15000   20000   25000   30000   35000   40000   0   2000   4000   6000   8000   10000   疎な分布となる範囲   =削除用言 用 言 異 数 用言の係り元となる概念の数 係り元となる概念の数別に見た場合の用言の出現分布
  • 42. と-­‐走る   が-­‐歩く   を-­‐飼う   が-­‐鳴く   が-­‐可愛い   と-­‐遊ぶ   と-­‐寝る       を-­‐噛む     ・・・   と-­‐一緒   が-­‐歩く   へ-­‐あげる   と-­‐寝る   を-­‐叱る   が-­‐可愛い     と-­‐帰る   と-­‐散歩   が-­‐噛む     ・・・   共通する   常識 概念“猫”   における   削除常識 概念“犬”   における   削除常識 共通する   常識のうち   最も頻度が低い 猫 犬 ※各常識は   頻度で降順   に並び替え済 •  概念対ごとに低頻度の常識を除外   – 係り受け解析誤り等によって付与された低頻度 常識の影響を抑える  
  • 44. 常識知識ベースの評価  2/2 大学生      中学生   インド      イラク   ビジネスマン    サラリーマン   プロデューサー  キャスター   アイドル      芸能人   水着      下着   遺体      死体   チョコ      プリン   素肌      鳥肌   資材      機材   自民党      民主党   悪魔      モンスター   常識集合の類似度が   高い概念対 作成した常識知識ベース   35,852個の   概念ー常識対を獲得     ConceptNet   14,546個の   概念ー常識対を保有 2〜3倍の規模の   常識知識ベースを構築