More Related Content
More from 長岡技術科学大学 自然言語処理研究室
More from 長岡技術科学大学 自然言語処理研究室 (20)
クエリと説明文の関係を表す記述要素辞書の構築
- 8. 辞書構築上の課題
8
要職, 出来, 系譜, 街並み, きっかけ, つづり方, 雇人, コンサルティ
ング, 作意, 縁, 便法, 生いさき, 原義, 戸長, 理解, つき合い, 民業,
家宝, 薬種, 認定, 捨値, 身構え, 性分, 縁由, ご利益, 絵柄, 演題,
曾祖父, 伝達, もの言い, 経閉期, 足代 , 測度, 縁者, 収集, 感性,
棟梁, 加減, 頻度, アイテム , 矛先, オーナー, 近況, レベル, 倅,
確度, 設題, 終期, 機運, 基本給, 帰結, 身の上, 有り金 , 礼儀, 感
想, 父君, 標目, 社風, 作り方, 案件, 景品, 積載, 仮名, 染上り, 音
響, 大姉, 光量, 浮き名, 嫁御, 潮位, 工数, 需給, 意訳, さじ加減,
リスク, 延日数, 歳費, 原由, 精粗, 基底, フレーバー, 要領, …
課題:これらの語だけが満たす性質とは?
適当に選んだ名詞群から記述要素を選ぶとして……
- 12. p 一名の人手作業により、名詞群から記述要素にな
り得る語を選別
1.IPADICから記述要素になり得る名詞群にあたる品詞
の細分類を選択
(IPADICが日本語の言語処理で一般的に使われる辞書で
あるため、網羅性を期待してこれを用いた)
Step 1
12
名詞の細分類
一般, 数, 固有名詞, 形容動詞語幹, 非自立, サ
変接続, 副詞可能, 代名詞, ナイ形容詞語幹
今回は一般, サ変接続, ナイ形容詞語幹の
3種類を用いることにした
- 14. Step 1
14
種類
語数
抽出語数
名詞-一般
60818
3230(5%)
名詞-サ変接続
12146
437(4%)
名詞-ナイ形容詞語幹
42
7(16%)
合計
73006
3674(5%)
結論:記述要素になり得る語数が少ない事から、記述要
素になる語は何らかの条件を持った特定の語群である
p 一名の人手作業により、名詞群から記述要素にな
り得る語を選別
分類結果
- 27. l 性質判定結果
p 非該当=上記いずれにも分類されない名詞
Ø 純粋に記述要素と言えたのは1664個だった
Ø 非安定要素、抽象要素、具体要素、純粋属性
「記述要素に対して余分な性質を持つその他の要素」を設定
記述要素辞書
27
包含性
文接続性
実在性
固有性
抽象性
非安定性
個数
記述要素
●
●
×
×
×
×
1664(45%)
非安定要素
●
●
×
×
×
●
222(6%)
抽象要素
●
●
×
×
●
-
140(4%)
具体要素
●
●
●
×
×
-
47(1%)
純粋属性
●
-
×
●
×
-
795(22%)
全語数
3674
非該当
806(22%)
- 28. 記述要素
28
包含性
文接続性
実在性
固有性
抽象性
非安定性
個数
記述要素
●
●
×
×
×
×
1664
アーキテクチャ, 因習, 原因, 客層, 業務, 国柄, オリジナリティ, 外
観, 会規, 外形, 剪定, 外見, 戒告, 解決, 外需, 会則, 解除, 害毒,
解消, 改正, 解析, 外聞, 涯分, 解法, 改定, 役目, …
u 記述要素の果たす必要最低限の性質を持ち、かつ曖昧な語
を取り除いたもの=記述要素の核となる語群
u このような性質をもつ語は元々の名詞群73006語の2%
(話題語) ローパスフィルター
(記述要素)役目
(例文)ローパスフィルターの役目は、モアレや偽色の原因となる細
かい模様を、撮像素子に入射してくる前にある程度ぼかしてしまお
うというものです
- 29. u 記述要素に対して非安定性の性質を持つもの
u ここに属する語は説明文中に記述要素を確定させる特定
の語=キーワードを持ちにくいため、キーワードを用いて
記述要素を付与する先行研究とは別の手法が必要
非安定要素
29
工夫 , 悪因 , 悪材料 , 悪条件 , アウトプット , 悪例 , 出力 ,塩梅,
言い回し, 言回し, 印象, 言いよう, 言い様, 意趣, 異説, 意想, …
包含性
文接続性
実在性
固有性
抽象性
非安定性
個数
非安定要素
●
●
×
×
×
●
222
(話題語) 日本
(記述要素)印象
(例文)日本の印象は、住空間の狭さと、物価の高さをマイナスに感
じているということが伺える。
- 30. u 記述要素のうちでも話題語に対する説明範囲が広い
u ここに属する語はいずれも話題語が決まればその話題語
における説明であればまず付与できてしまい「どんな説明
がされているのか」を知りたい時は利用価値が低い
抽象要素
30
含意, 考え方, 局面, プラン, 基軸, 基調, 基本, 言説, 言論, 梗概,
講説, 意, 細則, 雑題, 実質, 主意, 概説, 総論, 主旨, 主題, …
包含性
文接続性
実在性
固有性
抽象性
非安定性
個数
抽象要素
●
●
×
×
●
-
140(4%)
(話題語) オリンピック
(記述要素)主旨
(例文)オリンピックの主旨はスポーツを通じて心身の成長を促し、
世界の相互交流と平和を目指す―ということになってはいるが、近
代に入ると打って変わり、一大ビジネスチャンスとしての側面が強
まっている。
- 31. u 記述要素の性質を満たしつつも実在性を保有する語群
u ここに属する語は、話題語の性質でなく「話題語+具体要
素=別話題語」となる
具体要素
31
資財, 下地, ターゲット, 対価, 蓄え, 貯え, 着衣, 直系, 付き物, 取り
分, 取分, 標的, 物証, 核, ボーナス, 基礎, 骨組, 土台, 的, …
包含性
文接続性
実在性
固有性
抽象性
非安定性
個数
具体要素
●
●
●
×
×
-
47(1%)
(話題語)釈迦
(記述要素)着衣
(例文)釈迦の着衣は截金文様 (きりかねもんよう)で装飾され、画
面中央に光が集まる効果的手法がとられている。
- 32. u 属性として最低限の要件を満たした語
u 記述要素と区別することで
「語と語の関係を表す純粋属性」
「語と文の関係を表す記述要素」
という性質の違いで関係付与手法を分けて構築可能
純粋属性
32
音調, 公課, 呼び名, 色つや, カロリー, 本名, 学力, 春期, 課目, け
た数, 兵員, 戸数, 定年, 常得意, 年産, 原価, 当字 , 国籍, …
包含性
文接続性
実在性
固有性
抽象性
非安定性
個数
純粋属性
●
-
×
●
×
-
795(22%)
(話題語)豆腐
(記述要素)カロリー
(例文)豆腐のカロリーは100gで72kcal、特に絹ごし豆腐のカロリー
は100gでなんと56kcal
- 38. 抽出数対比-品詞分類
38
種類
語数
抽出語数
記述要素
名詞-一般
60818
3230(-57588)
1340(-1890)
名詞-サ変接続
12146
437(-11709)
319(-118)
名詞-ナイ形容詞語
幹
42
7(-35)
5(-2)
合計
73006
3674(-69332)
1664(-2010)