SlideShare a Scribd company logo
1 of 16
Download to read offline
常識表現となり得る用言の	
  
自動選定の検討	
真嘉比 愛,山本 和英	
  
長岡技術科学大学 電気系
研究の概要	
•  常識知識ベース構築にあたり,常識として適
切な用言の選定方法を提案	
  
– 名詞と共起する用言の異なり数に着目	
  
– 用言の出現頻度上位N件毎に,名詞に対する削
除用言を決定	
  
– ベースラインと比較して,適切な用言が付与され
ていることを確認	
  
•  [課題]	
  共起する用言の少ない名詞に対して
の常識付与方法
研究の目的	
•  自然言語処理で利用可能な常識知識ベースを構築	
名詞と共起する用言	
  
 →	
  常識と定義	
  
	
  
	
  ・ 動詞	
  	
  
	
  ・ 形容詞	
  
	
  ・ サ変名詞	
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
名詞“犬”が持つ常識	
動詞	
  
吠える	
  
しつける	
  
走る	
  
サ変名詞	
  
散歩,病気,訓練,飼育	
形容詞	
  
かわいい	
  
たのしい	
  
いとしい
既存知識ベースとの違い	
既存の	
  
上位オントロジー	
  
 e.g.	
  SUMO,	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  OpenCyc	
  
利点:	
  厳密に定義された常識
を利用できる	
  
	
  
欠点:	
  実際の語彙表現との乖
離が激しい	
各Conceptに対し,	
  
様々な関係で結
ばれる語や文を
付与	
  
 e.g.	
  ConceptNet	
  
利点:	
  自然言語処理のタス
クに適用しやすい	
  
	
  
欠点:	
  大半が人手で集めら
れているため,網羅性が低
い
常識がもつ性質	
次の3つの性質を仮定:	
  
	
  
1.  	
  用言aと名詞nとの共起頻度が高いほど,用
言aは名詞nの常識である可能性が高い	
  
2.  	
  どのような名詞とも共起する用言aは,常識
として不適切	
  
3.  	
  用言aが名詞nの常識として適切か否かは,
その名詞と共起する用言の異なり数に依存
する	
  	
  
常識の自動選定	
Step.1	
• Web日本語Nグラム中で共起する名詞と用言のペ
アを抽出	
Step.2	
• 共起する用言の異なり数が多い順に名詞をソート	
• 上位N件毎に用言の出現分布を調査	
Step.3	
• 出現名詞数が多い用言を常識として不適切とみな
し削除
名詞と用言のペアを抽出	
•  Web日本語Nグラム	
  
– 200億文中から,出現頻度20回以上の文を抽出	
  
– 7グラム総数:	
  570,204,252個	
  
•  抽出した用言と名詞のペア	
  
– 605,363,630対	
  (異なり数:	
  29,434,191対)	
  
•  名詞の異なり数:	
  655,038語	
  
•  用言の異なり数:	
  26,455語	
  
名詞と共起する用言の異なり数	
  
上位 N	
  件における用言の出現分布 	
出現名詞数が多い	
出現名詞数が少ない	
用言の出現名詞数	
  (N=1000)	
用言の異なり数
名詞と共起する用言の異なり数	
  
上位 N	
  件における用言の出現分布 	
Nの増加に伴い,	
  
出現名詞数の多い	
  
用言が少なくなる	
用言の出現名詞数	
  (N=10000)	
用言の異なり数
用言の出現分布に基づく	
  
削除範囲の決定	
出現名詞数が多い場合,用言の異なり数が加速度的に増加	
  
 =その範囲内の用言を除外の対象とする
Nの変化に伴う削除用言数の変化	
削除される用言数は階段状に変化	
グラフの特異点から,	
  
名詞ごとの削除用言数を決定	
  
(N=700,1100,1600,	
  
2500,3600)	
Nの値は1000〜4500まで100刻みに変化
各名詞に対する削除用言数	
	
  
•  削除用言	
  
–  わかる,もつ,みる,なる,ない,とる,できる,つく,しる,くる,おもう,
おおい,いる,いう,ある,良い,入る,でる,つくる,つかう,きく,かく,
おこなう,紹介,よい,ゆく,たつ,たかい,おる,いい,関係,やる,か
ける	
1: 各名詞に対する削除用言数 (N=共起する用言の
なり数)
対象となる名詞の範囲 削除数
N≤700 427
700<N≤1,100 267
1,100<N≤1,600 143
1,600<N≤2,500 73
それ以外 33
例えば,N=1,000 の名詞については 227 個の用言が
除対象となる.ただし N=3,600 の際に削除される
個の用言は,対象となる名詞を選ばない用言が多
4
4.1
付
する.
(1)
(2)
(3)
N=3600における	
  
33個の用言は,対
象となる名詞を選
ばない	
  
=常識として不適切
各名詞に対する常識の付与	
•  名詞nに対する用言aを,Harman正規化した
TF値で重み付け	
TF(a,n) =
log2 (na,n +1)
log2 ( nk,nk
∑ )
以下の3つのbaselineと比較	
  
 ・ 用言は削除せず,Harman正規化したTFで重み付けした場合	
  
 ・	
  TF-­‐IDFに則って重み付けした場合	
  
 ・	
  N≦700で削除される用言をすべて削除した場合	
:名詞	
  
:用言	
  
:名詞に対する	
  
用言の出現回数	
n
a
na,n
名詞に付与される用言の例	
  (1/2)	
表 2: 名詞に対して付与される用言の違い
名詞:いぬ
baseline1 baseline2 baseline3 提案手法 baseline1
かう かう 喰わない 散歩 入学
なる 一緒 飼わない しつける 教育
いる 生活 かみころす 病気 ある
ある 販売 吠えない つれる なる
生活 たのしい 薬殺 くらす 卒業
みる やすい 繋留 訓練 授業
ない わかる 訓練 ほえる 受験
いう 登録 やせこける かわいい かよう
一緒 大きい かまない 介護 学習
できる かんがえる 代参 飼育 指導
名詞に付与される用言の例	
  (2/2)	
→	
  提案手法は,常識として適切な用言が付与されている	
付与される用言の違い (スコア順上位 10 件)
名詞:小学校
提案手法 baseline1 baseline2 baseline3 提案手法
散歩 入学 就学 離任 入学
しつける 教育 入学 訓導 教育
病気 ある 付属 めざめない 卒業
つれる なる 参観 さかしい 授業
くらす 卒業 給食 加減乗除 受験
訓練 授業 受験 そばだつ かよう
ほえる 受験 授業 歌わす 学習
かわいい かよう 担任 やり直さない 指導
介護 学習 卒業 のびゆく 依頼
飼育 指導 かよう 実験 就学
付与失敗例について	
•  文中で名詞と共起しても,ほとんど関係がない	
  
–  名詞に係っている用言のみを利用	
  
•  接尾辞的な使われ方をする名詞(e.g.月)	
  
•  曖昧性のある名詞	
  
–  文中で共起する他名詞との関係性を考慮	
  
•  名詞同士の関係性を定義する名詞(e.g.	
  原因)	
  
–  常識を付与する対象として適切かどうか議論する必
要がある	
  
  → 常識を付与する対象の名詞をどのように	
  
	
   	
  	
  制限していくか

More Related Content

Similar to 常識表現となり得る用言の自動選定の検討

スペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronamaスペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronama
Hiroyoshi Komatsu
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
 

Similar to 常識表現となり得る用言の自動選定の検討 (10)

4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
Sotsuken final
Sotsuken finalSotsuken final
Sotsuken final
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 
スペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronamaスペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronama
 
構文片の改善と評判分析・自動要約への適用
構文片の改善と評判分析・自動要約への適用構文片の改善と評判分析・自動要約への適用
構文片の改善と評判分析・自動要約への適用
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 

More from 長岡技術科学大学 自然言語処理研究室

More from 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 

Recently uploaded

Recently uploaded (12)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

常識表現となり得る用言の自動選定の検討