Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

EMNLP 2015 yomikai

11,564 views

Published on

A Graph-based Readability Assessment Method using Word Coupling

Published in: Engineering
  • Be the first to comment

EMNLP 2015 yomikai

  1. 1. EMNLP読み会 Graph-based Readability Assessment Method using Word Coupling 2015/10/24 @niam 1 Zhiwei Jiang, Gang Sun, Qing Gu∗, Tao Bai, Daoxu Chen
  2. 2. 自己紹介を兼ねて • 専門:自然言語処理,言語教育,NLP応用 数百語ぐらいの単語テストの結果を用いて,学習 者が知っている単語を当てるタスク 機械学習的な手法:ラベル伝搬法 sklearn.semi_supervised.LabelPropagation/LabelS preading関数あたり. • 去年のEMNLP 2014@カタールに,ラベル伝 搬+言語教育ネタで通しました. • この論文も,ラベル伝搬+言語教育なので 読みます. 2
  3. 3. タイトルを見る Graph-based Readability Assessment Method using Word Coupling • Graph-based : Gaussian Random Field (GRF, ICML 2003), scikit-learnでいうところの LabelPropagation関数使ったよ • Readability Assessment:昔からあるタスク. 例えば,与えられた英文テキストが,英検 何級レベルですか?というような識別問題 • Word Coupling:これが新しく,著者らが提 案している,単語間関係を考慮して識別す るための前処理 3
  4. 4. ラベル伝搬法 1/2 4 INPUT: 枝に重みが付いた グラフ ノードの一部への ラベル 枝の重みに従って ラベルを伝搬 OUTPUT: 全ノードのラベル 大敵:ハブノード [Zhu+, ICML 2003] Hubノードを省く話は日本では, Ikumi Suzukiで検索すると出てくる
  5. 5. ラベル伝搬法 2/2 簡単な半教師あり学習法.重要な手法は2つ • Gaussian Random Field – sklearnとこの論文ではLabel Propagationという名前 Zhu+, Technical Report CMU-CALD, 2002 Zhu+, ICML 2003←GRF.ICML 2013 classic paper prize – 出力を確率値とみなせる(全ノードの値を足すと1) • Learning with Local and Global Consistency – Zhou+, NIPS 2004 – 言語処理では,Komachi+, EMNLP 2008等で使用 – 出力は確率値とみなせない 5
  6. 6. この研究の全体像 6 1.単語-文書関係 (TF-IDF) 2.単語間の難易度の差 3.単語-文書関係 各文書に対して, 単語次元の 素性ベクトルが できる 4.グラフを 構築
  7. 7. 1. 単語-文書関係 7 普通のtf-idf行列. f(t,d): 語tが文書dに出てきた頻度
  8. 8. 2. 単語間の難易度の差 8 語tに関してi番目の要素が以下であるような確率ベクトルを作る 語tが現れる文の数ntのうち,l(s)=i(難しさがi程度)であるものの比率 l(s):文sに対して,この値が大きいほど難しいと みなせるような素性の値.非負の整数値に丸め.(後述) pは確率分布なので,下記の式でJensen-Shanon Divergence を計算.(ただし,JSDの名前は出てこない) 2単語間の関係を,下記のように定義
  9. 9. 3. 単語間の難易度の差を考慮した単 語-文書行列 9 単語-文書行列 単語-文書行列 TF-IDF 単語間 の難易度 の差を表す行列
  10. 10. 4. グラフの構築 10 単語-文書行列 単語-文書行列 TF-IDF 単語間 の難易度の差 を表す行列 N(di):diのk近傍 M:単語-文書行列. 各文書に対して 単語次元の素性ベクトル
  11. 11. 実際に,どのようなものを文sの難易 度としているか 11 語tを含む文sの難易度分布 を通じて,語の難易度差に変換
  12. 12. グラフのマージ 12 *をsurface, lexical, syntacticと変えることで, 3種類のグラフが出来る ラベル伝搬法はハブ(多くのノードと繋がるノード) があると性能が悪化する→ハブがなるべく出来ないようにマージ 1.ノードvに対し,3種のどのグラフでも k近傍になっているノード集合を, vと繋ぐ.Nc(v)=S(v)とする 2. |S(v)|<kの時,v’∈Nsur(v)∪Nlex(v)∪Nsyn(v)S(v)のうち, Nc(v)との共通k近傍が最も小さいv’から,Nc(v)に足していく (|Nc(v)|=kになるまで) S(v)=
  13. 13. 結果 1/3 使用したデータセット 中国語と英語の2言語で実験(Readability Assessment の研究ではちゃんとやっている方) CPT: Chinese Primary Textbook 中国語文書について6段階の難易度を人手でつけたもの ENCT: English New Concept Textbook 英語文書について4段階の難易度を人手でつけたもの 13
  14. 14. 結果 2/3 14 提案手法
  15. 15. 結果 3/3 15 ちゃんと,単語間難易度の差を考慮して 分類することには意味があるよ
  16. 16. まとめ • word couplingと言っているが,要するに,単語間 の難易度の差(近さ)を考慮した,Readability Assessmentの手法を提案した – これまでのReadability Assessment:教師あり学習&単 語間難易度の差などは未考慮. – 提案:半教師あり+単語間の難易度の差を考慮. • 単純に教師あり→半教師ありにしたら良いという 話でもない事は実験からも分かる. • ラベル伝搬性能を落とすハブが出来ないように考 慮しつつ,surface, lexical, syntacticな情報をすべ て入れて,ようやく,性能を上げている印象. 16

×