Successfully reported this slideshow.
Your SlideShare is downloading. ×

Detecting Learner Errors in the Choice of Content Words Using Compositional Distributional Semantics

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Introducing AKKO Sept 2011
Introducing AKKO Sept 2011
Loading in …3
×

Check these out next

1 of 18 Ad

Detecting Learner Errors in the Choice of Content Words Using Compositional Distributional Semantics

Download to read offline

Slides about introducing a paper "Detecting Learner Errors in the Choice of Content Words Using Compositional Distributional Semantics" by Ekaterina Kochmar and Ted Briscoe presented at COLING 2014 reading group at Tokyo Metropolitan University, Japan.

Slides about introducing a paper "Detecting Learner Errors in the Choice of Content Words Using Compositional Distributional Semantics" by Ekaterina Kochmar and Ted Briscoe presented at COLING 2014 reading group at Tokyo Metropolitan University, Japan.

Advertisement
Advertisement

More Related Content

More from Mamoru Komachi (13)

Recently uploaded (20)

Advertisement

Detecting Learner Errors in the Choice of Content Words Using Compositional Distributional Semantics

  1. 1. Detecting Learner Errors in the Choice of Content Words Using Compositional Distributional Semantics Ekaterina Kochmar and Ted Briscoe, ACL 2014 ※スライド中の図表は全て論文から引用されたもの 小町守 <komachi@tmu.ac.jp> COLING 2014 読み会@首都大学東京 2014/11/06
  2. 2. Detecting Learner Errors in the Choice of Adjective-Noun Combinations Using Compositional Distributional Semantics Ekaterina Kochmar and Ted Briscoe, ACL 2014 ※スライド中の図表は全て論文から引用されたもの 小町守 <komachi@tmu.ac.jp> COLING 2014 読み会@首都大学東京 2014/11/06
  3. 3. 英語学習者は形容詞-名詞 の組み合わせをよく間違える  意味が似ているので間違えて使ってしまう  *big/large quantity  *big/great importance  よくある形容詞を間違えて使ってしまう  *big/long history  *greatest/highest revenue  *bigger/wider variety  *large/broad knowledge  一般的でない形容詞を使ってしまう  *classic/classical dance  *economical/economic crisis 3
  4. 4. 内容語の誤り検出は機能語と 比べてチャレンジングなタスク  機能語(前置詞・冠詞)はclosed set なので、 confusion set と誤り分布は学習者テキストから 学習可能(Rozovskaya and Roth, ACL 2011)  内容語はopen set なのでconfusion set を作 るのが難しい(ため多クラス分類タスクに落と せない) →言語学習者の文章には(文法・意味的には正しく ても)低頻度語が含まれるので、共起のみに基づく 手法はうまく行かない。cf. appropriate concern vs proper concern 4
  5. 5. 本論文の主要な貢献  学習者コーパスから抽出した形容詞-名詞の誤り アノテーションつきデータを作成する  構成的分布意味モデル(compositional distributional semantic models)が意味の誤り の検出にどのように適用できるのかを示す  形容詞-名詞の組み合わせの誤り検出の素性とし てこれらの意味モデルの出力がどのように使え るかを示す 5
  6. 6. 内容語の誤りは3番目に多いが、 難しく取り組まれてこなかった  内容語はopen set なのでconfusion set を作 るのが難しい 1. 誤り箇所は同定済みで、候補選択するタスク 同義語・同音語・母語に関する言い換えから候 補選択(Dahlmeier and Ng, EMNLP 2011) 2. 誤り箇所も分からないタスク 言語学習者の文章には(文法・意味的には正し くても)低頻度語が含まれるので、共起のみに 基づく手法はうまく行かない。cf. appropriate concern vs proper concern  →後者のタスクでは、データスパースネスを解 消する必要がある 6
  7. 7. スパースネスのため、分布仮説 から構成的分布意味モデルへ  単純な分布仮説に基づく手法 共起する文脈からなる高次元ベクトル →スパースなので内容語誤り検出には向かない  構成的分布意味モデルに基づく手法 構成される単語の分布ベクトルをなんらかの関数に よって合成してベクトルを作る  形容詞-名詞の意味モデルに利用(Vecchi et al., DISCO 2011; Kochmar and Briscoe, RANLP 2013)  統語的曖昧性の解消に利用(Lazaridou et al., EMNLP 2013) 7
  8. 8. 英語学習者の形容詞-名詞 誤りのアノテーション  文脈非依存(OOC: out-of-context)と文脈依 存(IC: in-context)のアノテーションを区別。 classic dance は文脈によってはOK だが、ほ とんどの場合誤りとみなしてもよい。  They performed a classic Ceilidh dance.  I have tried a rock’n’roll dance and a *classic/classical dance already.  文脈を無視するかどうかはシステムやアプリ ケーションで決めればよいので、文脈情報は有 用。 8
  9. 9. CLC-FCE データセット に対するアノテーション  61種類の間違えやすい形容詞を抽出  798種類の形容詞-名詞誤りがタグ付け(専門家)  correct/incorrect  どこが間違っているか(形容詞・名詞・両方)  誤りの種類(同義語・形の類似・それ以外)  正例(訂正するとした場合の結果) 9 ※LB = lower bound; UB = upper bound 一致率 κ = 0.65 (OOC) かなりいけてる κ = 0.49 (IC) まぁまぁいけてる
  10. 10. 誤り検出のための意味モデル 意味モデル(Mitchell and Lapata, ACL 2008; Baroni and Zamparelli, EMNLP 2010) Mitchell and Lapata (2008) のモデルは対称なの で、形容詞-名詞のような方向性がある意味関係の モデルには不適→Baroni and Zamperelli (2010) の 形容詞特化線形マップ  加法的(add: additive) モデルpi = ui + vi  乗法的(mult: multiplicative) モデルpi = ui * vi  形容詞特化線形マップ(alm: adjective-specific linear maps) p = Bv 10
  11. 11. 形容詞特化線形マップ p = Bv の共起行列構築  名詞は分布仮説に基づくベクトル、形容詞は名 詞のベクトルを変化させる重み行列で、形容詞- 名詞の意味合成は行列・ベクトルの乗算で定義 1万文脈要素=コーパス中の最頻出名詞・形容詞・動詞 (コーパスはBNCでRASPによって解析して用いた) 11 8,000 名詞 4,000 形容詞 64,000 形容詞 名詞ペア N A AN 行列の要素は local mutual informaiton N A A N SVDで次元圧縮して300次元に 行列の重みは形容詞ごとに 多変量PLS回帰で学習
  12. 12. 意味に基づく素性(1) 先行研究の再実装 1. ベクトル長 2. 入力名詞に対するcos 類似度 3. 入力形容詞に対するcos 類似度 4. 出力に対する10近傍における近傍の密度 5. 入力に対する10近傍における近傍の密度 6. 近傍のランクつき密度 7. 近傍の数 8. 入力に対する10近傍のオーバーラップ 12
  13. 13. 意味に基づく素性(2) 本研究の追加素性 9. 入力名詞に対する10近傍のオーバーラップ 10. 入力形容詞に対する10近傍のオーバーラップ 11. 出力に対する10近傍のオーバーラップ 12. 出力に対する入力名詞の10近傍のオーバーラッ プ 13. 出力に対する入力形容詞の10近傍のオーバー ラップ 13
  14. 14. 意味誤り検出にはcos 類似度と 単語オーバーラップが有効 先行研究 提 案 素 性 14
  15. 15. 共起手法は低頻度語に弱いが、 意味モデル+機械学習は頑健  ベースライン  ターゲットの単語に対するWordNet の同義語と 上位語からなるconfusion set の中で、元の単語 と比べてBNC における共起頻度(normalized pmi)が高い単語があれば誤りだと検出する。  提案手法  NLTK の決定木。素性は前掲の意味素性+単語。 15
  16. 16. まとめ: 形容詞-名詞の英語誤り 検出には、教師あり学習が有効  形容詞-名詞の英語学習者の誤りタグつきデータ をリリースした。  構成意味論に由来する素性を組み込んだ2値分類 器を用い、形容詞-名詞の誤り検出タスクに取り 組んだ。ベースラインとして、共起頻度に基づ く手法を実装して比較した。  決定木を用いた教師あり分類器がもっともよい 結果であった。 16
  17. 17. 参考文献(意味モデル)  Mitchell and Lapata. Vector-based models in semantic composition. ACL 2008.  Baroni and Zamparelli. Nouns are vectors, adjectives are matrices: Representing adjective-noun construction in semantic space. EMNLP 2010.  Lazaridou et al. Fish transporters and miracle homes: How compositional distributional semantics can help NP parsing. EMNLP 2013.  Kochmar and Briscoe Capturing Anomalies in the Choice of Content Words in Compositional Distributional Semantic 17 Space. RANLP 2013.
  18. 18. 参考文献(ESL 誤り訂正)  Rozovskaya and Roth. Algorithm Selection and Model Adaptation for ESL Correction Tasks. ACL 2011.  Yannakoudakis et al. A New Dataset and Method for Automatically Grading ESOL Texts. ACL 2011.  Dahlmeier and Ng. Correcting Semantic Collocation Errors with L1-induced Paraphrases. EMNLP 2011. 18

×