Submit Search
Upload
高頻度語は平易なのか?
•
1 like
•
2,463 views
Tomoyuki Kajiwara
Follow
梶原智之, 山本和英. 高頻度語は平易語なのか?. NLP若手の会第9回シンポジウム, 発表P02. September 2014.
Read less
Read more
Science
Report
Share
Report
Share
1 of 18
Download now
Download to read offline
Recommended
Pylm public
Pylm public
Kei Uchiumi
基礎攻略講座 導入編 刑法入門
基礎攻略講座 導入編 刑法入門
r-takagi
joint_seminar
joint_seminar
Tomoyuki Kajiwara
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
Tomoyuki Kajiwara
Noun Paraphrasing Based on a Variety of Contexts
Noun Paraphrasing Based on a Variety of Contexts
Tomoyuki Kajiwara
文章読解支援のための語彙平易化
文章読解支援のための語彙平易化
Tomoyuki Kajiwara
文献紹介:Simple English Wikipedia: A New Text Simplification Task
文献紹介:Simple English Wikipedia: A New Text Simplification Task
Tomoyuki Kajiwara
Evaluation Dataset and System for Japanese Lexical Simplification
Evaluation Dataset and System for Japanese Lexical Simplification
Tomoyuki Kajiwara
Recommended
Pylm public
Pylm public
Kei Uchiumi
基礎攻略講座 導入編 刑法入門
基礎攻略講座 導入編 刑法入門
r-takagi
joint_seminar
joint_seminar
Tomoyuki Kajiwara
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
Tomoyuki Kajiwara
Noun Paraphrasing Based on a Variety of Contexts
Noun Paraphrasing Based on a Variety of Contexts
Tomoyuki Kajiwara
文章読解支援のための語彙平易化
文章読解支援のための語彙平易化
Tomoyuki Kajiwara
文献紹介:Simple English Wikipedia: A New Text Simplification Task
文献紹介:Simple English Wikipedia: A New Text Simplification Task
Tomoyuki Kajiwara
Evaluation Dataset and System for Japanese Lexical Simplification
Evaluation Dataset and System for Japanese Lexical Simplification
Tomoyuki Kajiwara
20190315 nlp
20190315 nlp
Tomoyuki Kajiwara
20180208公聴会
20180208公聴会
Tomoyuki Kajiwara
tmu_science_cafe02
tmu_science_cafe02
Tomoyuki Kajiwara
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
Tomoyuki Kajiwara
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
Tomoyuki Kajiwara
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
Tomoyuki Kajiwara
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
Tomoyuki Kajiwara
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え
Tomoyuki Kajiwara
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
Tomoyuki Kajiwara
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向
Tomoyuki Kajiwara
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
Tomoyuki Kajiwara
日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築
Tomoyuki Kajiwara
日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価
Tomoyuki Kajiwara
文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価
Tomoyuki Kajiwara
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
Tomoyuki Kajiwara
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討
Tomoyuki Kajiwara
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
Tomoyuki Kajiwara
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
Tomoyuki Kajiwara
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
Tomoyuki Kajiwara
小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言
Tomoyuki Kajiwara
More Related Content
More from Tomoyuki Kajiwara
20190315 nlp
20190315 nlp
Tomoyuki Kajiwara
20180208公聴会
20180208公聴会
Tomoyuki Kajiwara
tmu_science_cafe02
tmu_science_cafe02
Tomoyuki Kajiwara
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
Tomoyuki Kajiwara
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
Tomoyuki Kajiwara
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
Tomoyuki Kajiwara
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
Tomoyuki Kajiwara
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え
Tomoyuki Kajiwara
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
Tomoyuki Kajiwara
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向
Tomoyuki Kajiwara
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
Tomoyuki Kajiwara
日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築
Tomoyuki Kajiwara
日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価
Tomoyuki Kajiwara
文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価
Tomoyuki Kajiwara
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
Tomoyuki Kajiwara
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討
Tomoyuki Kajiwara
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
Tomoyuki Kajiwara
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
Tomoyuki Kajiwara
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
Tomoyuki Kajiwara
小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言
Tomoyuki Kajiwara
More from Tomoyuki Kajiwara
(20)
20190315 nlp
20190315 nlp
20180208公聴会
20180208公聴会
tmu_science_cafe02
tmu_science_cafe02
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文献紹介:言い換え技術に関する研究動向
文献紹介:言い換え技術に関する研究動向
日本語の語彙平易化評価セットの構築
日本語の語彙平易化評価セットの構築
日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築
日本語の語彙的換言知識の質的評価
日本語の語彙的換言知識の質的評価
文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた語釈文による換言
小学生の読解支援に向けた語釈文による換言
高頻度語は平易なのか?
1.
高頻度語は平易なのか? 長岡技術科学大学 梶原智之 山本和英
2.
背景 ー先行研究ー • 小学生の読解支援に向けた語彙的換言 [梶原+
13] • 文脈の多様性に基づく名詞の換言 [梶原+ 14] sim(nt, nc) = com(nt, nc) * log(N/var(nc)) nt:換言対象の名詞、 nc:換言候補の名詞 com(nt, nc):ntとncが共通して用いられる文脈の種類数 N:文脈の総数、 var(nc):ncが用いられる文脈の種類数 2
3.
仮説 相関の強さ 単語の分布 平易なほど頻度が高い
強い相関なし 高頻度語は平易 低頻度かつ平易な語も多い 頻度が高いほど文脈の種類数が多い 強い相関あり 頻度が高いほど 文脈の種類数も多い 平易な語ほど文脈の種類数が多い 強い相関なし 文脈の種類数が多い語は平易 文脈が少なくても平易な語は多い • 比較手法(共起頻度・PMI)よりも高精度で換言できた • 腰への【負担】を軽減する – 比較手法:費用、経費、実費、・・・ – 提案手法:負荷、ストレス、ダメージ、・・・ 換言はできた。そのまま平易化もできるのか? 頻度や文脈の種類数と、難易度の関係を調べる。 3
4.
語の難易度 • 単語親密度 – 単語のなじみの度合いを1から7までの実数値で表現 –
新聞記事の難解語を平易な表現へ 変換する手法の提案 [芋野+ 13] – 文章の難易度判定のための単語親密 度チェッカーの開発 [川村+ 08] • JLPT出題基準(Japanese Language Proficiency Test) – 日本語能力試験の級別の語彙(1級から4級まで) – 日本語読解支援のための語義ごとの 用例抽出システムの構築 [水野+ 08] – 放送ニュースの動詞連用形 名詞の平易化 [美野+ 11] 単語 単語親密度 あいさつ 6.594 お世辞 5.906 返す返す 4.562 鴛鴦(オシドリ) 1.312 単語 JLPT出題基準 作る 4 級 理由 3 級 精神 2 級 4
5.
実験設定 コーパス 記事数 単語数
異なり単語数 新聞記事 2,479,065 703,761,303 151,514 Wikipedia 853,134 357,761,882 158,971 論文 4,082 14,787,129 37,282 文脈の定義 ある名詞と係り受け関係にある文節内の内容語 5 空港への アクセスを 調べる 内容語 内容語 内容語
6.
スピアマンの順位相関係数 新聞記事 Wikipedia 論文 単語親密度
JLPT出題基準 0.25 0.25 0.27 単語親密度 頻度 0.65 0.57 0.30 単語親密度 前文脈種類数 0.61 0.53 0.23 単語親密度 後文脈種類数 0.64 0.55 0.28 JLPT出題基準 頻度 -0.02 -0.02 0.03 JLPT出題基準 前文脈種類数 -0.04 -0.06 0.01 JLPT出題基準 後文脈種類数 0.00 -0.01 0.03 頻度 前文脈種類数 0.96 0.96 0.84 頻度 後文脈種類数 0.98 0.99 0.91 前文脈種類数 後文脈種類数 0.97 0.96 0.87 6
7.
8.
9.
10.
11.
12.
まとめ • たしかに、頻度が高い語は平易である。 • 同様に、文脈の種類数が多い語は平易である。 •
しかし、頻度が低くても平易な語は多い。 • 文脈の種類数が少なくても平易な語は多い。 • 換言候補が持つ文脈の種類数が多いほど 換言可能性を下げるという換言手法 [梶原+ 14] の仮定は、必ずしも平易化を妨げない。 文脈の種類数に注目して語彙を平易化していきます 12
13.
新聞記事(横:単語親密度) 縦:対数頻度 縦:対数後文脈数
14.
Wikipedia(横:単語親密度) 縦:対数頻度 縦:対数後文脈数
15.
論文(横:単語親密度) 縦:対数頻度 縦:対数後文脈数
16.
新聞記事(横:JLPT出題基準) 縦:対数頻度 縦:対数後文脈数
17.
Wikipedia(横:JLPT出題基準) 縦:対数頻度 縦:対数後文脈数
18.
論文(横:JLPT出題基準) 縦:対数頻度 縦:対数後文脈数
Download now