SlideShare a Scribd company logo
1 of 18
Download to read offline
高頻度語は平易なのか?
長岡技術科学大学
梶原智之 山本和英
背景 ー先行研究ー
•  小学生の読解支援に向けた語彙的換言 [梶原+ 13]
•  文脈の多様性に基づく名詞の換言 [梶原+ 14]
sim(nt, nc) = com(nt, nc) * log(N/var(nc))
 nt:換言対象の名詞、 nc:換言候補の名詞
 com(nt, nc):ntとncが共通して用いられる文脈の種類数
 N:文脈の総数、 var(nc):ncが用いられる文脈の種類数
2
仮説 相関の強さ 単語の分布
平易なほど頻度が高い 強い相関なし
高頻度語は平易
低頻度かつ平易な語も多い
頻度が高いほど文脈の種類数が多い 強い相関あり
頻度が高いほど
文脈の種類数も多い
平易な語ほど文脈の種類数が多い 強い相関なし
文脈の種類数が多い語は平易
文脈が少なくても平易な語は多い
•  比較手法(共起頻度・PMI)よりも高精度で換言できた
•  腰への【負担】を軽減する
– 比較手法:費用、経費、実費、・・・
– 提案手法:負荷、ストレス、ダメージ、・・・
換言はできた。そのまま平易化もできるのか?
頻度や文脈の種類数と、難易度の関係を調べる。
3
語の難易度
•  単語親密度
–  単語のなじみの度合いを1から7までの実数値で表現
–  新聞記事の難解語を平易な表現へ
変換する手法の提案 [芋野+ 13]
–  文章の難易度判定のための単語親密
度チェッカーの開発 [川村+ 08]
•  JLPT出題基準(Japanese Language Proficiency Test)
–  日本語能力試験の級別の語彙(1級から4級まで)
–  日本語読解支援のための語義ごとの
用例抽出システムの構築 [水野+ 08]
–  放送ニュースの動詞連用形
名詞の平易化 [美野+ 11]
単語 単語親密度
あいさつ 6.594
お世辞 5.906
返す返す 4.562
鴛鴦(オシドリ) 1.312
単語 JLPT出題基準
作る 4 級
理由 3 級
精神 2 級
4
実験設定
コーパス 記事数 単語数 異なり単語数
新聞記事 2,479,065 703,761,303 151,514
Wikipedia 853,134 357,761,882 158,971
論文 4,082 14,787,129 37,282
文脈の定義
ある名詞と係り受け関係にある文節内の内容語
5
空港への アクセスを 調べる
内容語 内容語 内容語
スピアマンの順位相関係数
新聞記事 Wikipedia 論文
単語親密度 JLPT出題基準 0.25 0.25 0.27
単語親密度 頻度 0.65 0.57 0.30
単語親密度 前文脈種類数 0.61 0.53 0.23
単語親密度 後文脈種類数 0.64 0.55 0.28
JLPT出題基準 頻度 -0.02 -0.02 0.03
JLPT出題基準 前文脈種類数 -0.04 -0.06 0.01
JLPT出題基準 後文脈種類数 0.00 -0.01 0.03
頻度 前文脈種類数 0.96 0.96 0.84
頻度 後文脈種類数 0.98 0.99 0.91
前文脈種類数 後文脈種類数 0.97 0.96 0.87
6
まとめ
•  たしかに、頻度が高い語は平易である。
•  同様に、文脈の種類数が多い語は平易である。
•  しかし、頻度が低くても平易な語は多い。
•  文脈の種類数が少なくても平易な語は多い。
•  換言候補が持つ文脈の種類数が多いほど
換言可能性を下げるという換言手法 [梶原+ 14]
の仮定は、必ずしも平易化を妨げない。
文脈の種類数に注目して語彙を平易化していきます
12
新聞記事(横:単語親密度)
縦:対数頻度 縦:対数後文脈数
Wikipedia(横:単語親密度)
縦:対数頻度 縦:対数後文脈数
論文(横:単語親密度)
縦:対数頻度 縦:対数後文脈数
新聞記事(横:JLPT出題基準)
縦:対数頻度 縦:対数後文脈数
Wikipedia(横:JLPT出題基準)
縦:対数頻度 縦:対数後文脈数
論文(横:JLPT出題基準)
縦:対数頻度 縦:対数後文脈数

More Related Content

More from Tomoyuki Kajiwara

20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システムTomoyuki Kajiwara
 
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical SimplificationTomoyuki Kajiwara
 
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案Tomoyuki Kajiwara
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築Tomoyuki Kajiwara
 
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換えTomoyuki Kajiwara
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会Tomoyuki Kajiwara
 
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向Tomoyuki Kajiwara
 
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築Tomoyuki Kajiwara
 
日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築Tomoyuki Kajiwara
 
日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価Tomoyuki Kajiwara
 
文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価Tomoyuki Kajiwara
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案Tomoyuki Kajiwara
 
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討Tomoyuki Kajiwara
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenTomoyuki Kajiwara
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法Tomoyuki Kajiwara
 
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価Tomoyuki Kajiwara
 
小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言Tomoyuki Kajiwara
 

More from Tomoyuki Kajiwara (20)

20190315 nlp
20190315 nlp20190315 nlp
20190315 nlp
 
20180208公聴会
20180208公聴会20180208公聴会
20180208公聴会
 
tmu_science_cafe02
tmu_science_cafe02tmu_science_cafe02
tmu_science_cafe02
 
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
 
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
 
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
 
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
 
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向
 
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
 
日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築
 
日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価
 
文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言
 

高頻度語は平易なのか?