SlideShare a Scribd company logo
1 of 19
意味の加法性に基づく
複単語表現平易化に関する研究
ビッグデータ工学講座(鬼塚研究室)
08D14003 芦原和樹
研究背景
• 英語の教育現場では、学習者に合わせて
提示する英文の難易度を調整することがある
• 手作業で行われているため大きな負担となっている
2
平易化の自動化が望まれる
平易化に対する現状の課題
単語の平易化に関する研究は活発だが
複単語表現の平易化に関する研究はされていない
• 複単語表現の一部のため言い換えができない
hit the hay → hit the (言い換えられない)
• 構成単語は簡単だが難解な複単語表現が存在する
cry over spilled milk (後悔する)
• 難解な複単語表現は約10%の文に含まれる
3
複単語表現の平易化が必要
研究目的
• 構成単語の意味を足し合わせて複単語表現を扱う
• 複単語表現はcompositionalityを有さないものがある
• take advantage(利点を生かす) → compositional
• pop the question(結婚を申し込む) → non-compositional
• 平易化におけるcompositionalityの影響を分析
英語教育における教材準備支援
難解な複単語表現を平易な単語へ言い換える
hit the hay → sleep
cry over spilled milk → regret
4
複単語表現平易化のプロセス
3.候補語のランク付け
2.言い換え先候補(候補語)の選定
pop the questionの類義語:propose,court,ask
1.言い換え対象となる表現(対象表現)の検索
I pop the question to you.
入力文
I pop the question to you.
出力
対象表現 :pop the question
候補語 :1.propose,2.ask
5
候補語のランク付け
• 単語ベクトルの利用
• 対象表現と候補語の類似度を用いたランク付け
• 複単語表現を一つのベクトルで表すことが必要
1. 𝑆𝑢𝑚
• word2vecを用いて単語ベクトルを学習
• 単語ベクトルを意味として用いる
• 構成単語を足し合わせることで対象表現のベクトルを得る
[take advantage] = [take] + [advantage]
2. 𝐶𝑜𝑛𝑐𝑎𝑡
• 複単語表現をアンダーバー(_)で連結してword2vecで学習
• 複単語表現を1つのベクトルで表す
take advantage → take_advantage
6
評価実験
評価データの作成
• 言語学の研究者と協議してデータ作成
• Rice大学の公開教科書データを使用
• 対象表現と各候補語が言い換え可能か判定
• 対象表現のcompositionalityを判定
• 正解の候補語を1つ以上含む対象表現が評価データ
評価指標
Targetベースの適合率
出力した候補語中に1つ以上正解が
含まれている割合
評価データ
対象表現 81
compositional 44
non-
compositional
24
判定不能 13
候補語 778
正解の候補語 168
• 教育者にとって提示された候補語の
正誤判定は容易
• 正解の候補語を少なくとも一つは含むことが重要
7
結果
Targetベースの適合率
n 𝑹𝒂𝒏𝒅𝒐𝒎 𝑺𝒖𝒎 𝑪𝒐𝒏𝒄𝒂𝒕
1 0.358 0.543 0.654
2 0.539 0.765 0.778
3 0.658 0.840 0.840
• nは出力数
• 𝑅𝑎𝑛𝑑𝑜𝑚はランダムで出力した際の期待値
• 高い精度でのランク付けを実現
• 𝐶𝑜𝑛𝑐𝑎𝑡で高い精度が出ている
8
結果
9
• 否定語は、足し合わせでの意味の付与は難しい
• 連結して学習すれば否定の意味を付与できる
入力文
It‘s against the law to rob a bank , …
対象表現 :against the low
𝑺𝒖𝒎 :legal (不正解)
𝑪𝒐𝒏𝒄𝒂𝒕 :illegal (正解)
結果
• compositionalityの観点から比較
𝑆𝑢𝑚と𝐶𝑜𝑛𝑐𝑎𝑡のTargetベースの適合率の比較(n = 1)
手法 compositional non-compositional
𝑆𝑢𝑚 0.500 0.500
𝐶𝑜𝑛𝑐𝑎𝑡 0.614 0.708
• compositionalityの観点からも構成単語を連結し一つの
ベクトルを生成する手法が有効
• non-compositionalな場合はより顕著に表れている
10
まとめ
難解な複単語表現を平易な単語に言い換える手法の検討
• ベクトルを用いた候補語のランク付け
• 高い精度での言い換えが実現
• 複単語表現のベクトル化は構成単語のベクトルを足し合わせる
のではなく、連結して一つのベクトルを生成することが有効
• 今後の課題
• 評価データを増やしてより詳細な分析
• 入力文を考慮した平易化による精度向上
11
文脈を意味とする
• CBOWのword2vecでは周辺単語からある単語の
学習を行う
12
• 文脈の学習
• 文脈を単語の「意味」として扱う
[king] – [man] + [woman] = [queen]が成立
𝑆𝑢𝑚の精度が低い考察
• compositionalであっても、構成単語別に
重みが存在する。[9]
• climate change = [4.90 ± 0.30] [4.83 ± 0.38]
• polo shirt = [1.73 ± 1.41] [5.00 ± 0.00]
• 重みを考慮した足し合わせが必要
• 幅広い意味を持つ単語が存在する
• haveやtake等
• 語義(品詞)別に異なったベクトルで表すことで精度の向上
が望める
13[9] An Empirical Study on Compositionality in Compound Nouns (S.reddy et al. IJCNLP 2011)
人手でアノテーション
non-compositionalな複単語表現
• non-compositionalな複単語表現であっても、構成単語
の意味の重みづけ[9]で意味の類推が可能
• snail mail = [0.60 ± 0.80] [4.59 ± 1.10]
• カタツムリのように遅い郵便→普通郵便
• mailに重みを置ければ言い換えが可能かもしれない
14
人手でアノテーション
[9] An Empirical Study on Compositionality in Compound Nouns (S.reddy et al. IJCNLP 2011)
候補語の単語を対象語が含む場合
15
• ()内はコサイン類似度
• 足し合わせではcourseとのコサイン類似度が高くなる
• 𝐶𝑜𝑛𝑐𝑎𝑡では構成単語であっても正しい出力ができている
入力文
… before choosing a course of action and moving
forward .
対象表現 : course of action
𝑺𝒖𝒎 :course(0.638)、approach(0.472)
𝑪𝒐𝒏𝒄𝒂𝒕 :approach(0.413)、…、course(0.156)
入力文
In the 1980s , inflation rates came down in the United
States and in Europe and have largely stayed down .
対象表現 :come down
候補語 :decrease, fail, fall, reduce, improve …
出力 :fail
come downはfailの意味を含
むが主語がinflation ratesの
ため不正解
入力文の文脈考慮の言い換えが必要
16
文脈考慮の必要性
両手法で正解を出力できなかった
17
When most people think of taxes levied by the federal government ,
the first tax that comes to mind is the individual income tax that is
due every year on April 15 (or the first business day after) .
対象表現 : come to mind
𝑺𝒖𝒎 :touch、look、get
𝑪𝒐𝒏𝒄𝒂𝒕 : seem、inspire、touch
正解はregisterのみ
• registerはperceiveの意味を含む
• ほとんど使われない意味
• 頻度が少ない意味は平易な単語に不適
• 語義別の難易度辞書が必要
𝑆𝑢𝑛のみで正解
18
入力文
All along the budget set , giving up one burger means gaining four
bus tickets .
対象表現 : all along
𝑺𝒖𝒎 :throughout (正解)
𝑪𝒐𝒏𝒄𝒂𝒕 :meanwhile (不正解)
𝑆𝑢𝑚のみの正解はcompositionalな表現に多い
• compositional 4つ(𝐶𝑜𝑛𝑐𝑎𝑡 9)
• noncompositional 2 (𝐶𝑜𝑛𝑐𝑎𝑡 7)
文中に含まれる難易な表現の割合
文ベース(全1635文)
• 難解な単語 :1.61個/文
• 難解な複単語表現 :0.10個/文
対象表現数(EVPにおいて難易度B2以上)
単語 :2707個
複単語表現 :1035個
実際にはさらに多くの難解な複単語表現が存在する
19
• 調査対象はRice大学のテキスト
• 難易度はEnglish Vocabulary Profileより
• CEFR準拠の難易度[2]
CEFRレベル A1 A2 B1 B2 C1 C2
難易度 易 難
[2] The CEFR and the Need for More Research (Charles et al. The Modern Language Journal 2007)

More Related Content

What's hot

[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word EmbeddingMakoto Takenaka
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsMakoto Takenaka
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Naoaki Okazaki
 
Naacl2015unsupervised morph
Naacl2015unsupervised morphNaacl2015unsupervised morph
Naacl2015unsupervised morphAce12358
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shiftMakoto Takenaka
 
語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]Kodaira Tomonori
 
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試みHitomi Yanaka
 
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換えTomoyuki Kajiwara
 
はじめての生成文法・前編 - #tokyonlp 5
はじめての生成文法・前編 - #tokyonlp 5はじめての生成文法・前編 - #tokyonlp 5
はじめての生成文法・前編 - #tokyonlp 5Shuyo Nakatani
 
読解支援7 10
読解支援7 10読解支援7 10
読解支援7 10kentshioda
 

What's hot (13)

[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
 
合格圏突破ゼミ文法総まとめ集
合格圏突破ゼミ文法総まとめ集合格圏突破ゼミ文法総まとめ集
合格圏突破ゼミ文法総まとめ集
 
Naacl2015unsupervised morph
Naacl2015unsupervised morphNaacl2015unsupervised morph
Naacl2015unsupervised morph
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shift
 
語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセット改良[ブースター]
 
2課
2課2課
2課
 
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
 
文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え文献紹介:格フレームの対応付けに基づく用言の言い換え
文献紹介:格フレームの対応付けに基づく用言の言い換え
 
はじめての生成文法・前編 - #tokyonlp 5
はじめての生成文法・前編 - #tokyonlp 5はじめての生成文法・前編 - #tokyonlp 5
はじめての生成文法・前編 - #tokyonlp 5
 
読解支援7 10
読解支援7 10読解支援7 10
読解支援7 10
 
Conquest2012 1
Conquest2012 1Conquest2012 1
Conquest2012 1
 

Recently uploaded

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 

Recently uploaded (9)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 

Graduation thesis

Editor's Notes

  1. 意味の加法性に基づく複単語表現平易化に関する研究 と題しましてビッグデータ工学講座鬼塚研究室の芦原が発表します
  2. 研究背景として、 英語の教育現場では、学習者に合わせて 提示する英文の難易度を調整することがあります これらは手作業で行われてあり、教育者にとって大きな負担となっている そのため、平易化の自動化が望まれています
  3. 複数の単語で一つの意味を構成する 言語教育に与える影響は大きいといえる という点があげられます。 そこからいくつかの問題点があげられる 平易化手法の研究として、近年、単語の平易化に関する研究が活発に行われています。 しかし、いくつか問題点が存在します まず、言い換えができない場合が存在するという点があげられます 難解な単語であるflatteryは言い換え対象となりますが、 dish out flattery 3つ単語で1つの意味を表すため、のみを言い換えることはできない 単語からその意味を読み取ることが難しい表現として使用されて入り 10%の文に含まれることが分かったが単語の平易化では言い換え対象とならない
  4. 調整することがあり教育者にとっては負担となっている 複単語表現の平易化に関する研究はほとんどされていない 複単語表現は見つけるの自体が難しい 文中から正確に複単語表現を検索 言い換えの精度重要
  5. 複単語表現平易化は以下の3つのプロセスで行っています。 辞書を用いた 1~3の流れを説明 1、辞書を使ってマッチング、非連続な検索も行っているが時間の都合上省略。 ランク付けを行い、結果を出力します 本発表では連続に現れる複単語表現のみを対象 2つ目においては類義語辞書と難易度辞書を用いてCandidteの選定 3、適切な順に候補語を並び替えを行いランク付けを行う 課題 1、非連続な検索も行っているが時間の都合上省略 3、適切な候補語を出力することが課題 ここをメインで説明します
  6. 候補語のランク付けについて、単語ベクトルの類似度を利用した手法を用います。 既存研究 研究がされています。 この手法を複単語表現に応用し、候補語のランク付けを行います。 ここで、複単語表現
  7. nは Randomは ランダムと比較しても提案手法は 望ましい結果を得られた
  8. その原因を一つ紹介します
  9. 事前にアノテーションしてもらってる
  10. ネイティブであってもcompositionalityの判定は難しい 全体として何をしたのか 構文解析を用いた非連続なTargetの検索 複単語表現のベクトル化による候補語のランク付け 今後の課題 より詳細な分析を行う。 今回はTarget部にしか着目していないため。今後は文脈を考慮した平易化ができるように手法を拡張する予定である。