dont_count_predict_in_acl2014

  • 342 views
Uploaded on

 

More in: Engineering
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
342
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
0
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • predictive modelはneural language model,word embeddingとも呼ばれる
  • 理論的に何を表しているのか…みたいな話はしません
  • ここまで3分
  • 窓幅 n でどういう単語と共起しているかを集計します
  • 概念の説明はしません…ので,すみませんが…
    行列で共起頻度の高いものをまとめる(頻出要素をまとめる?)
    何をやっているかは説明しないですが,捉えられるものが違う
  • うーん,本当はdmとcwとの比較もやっているけど,それは記載しなくても良いか?(この論文の趣向がよく分からないけど,こんな感じか?)
    確かに36通り,
    ここまで7,8分くらいでいけると良い?
  • levied:(税を)課する
  • うーん,本当はdmとcwとの比較もやっているけど,それは記載しなくても良いか?(この論文の趣向がよく分からないけど,こんな感じか?)
    確かに36通り,
    評価対象について,図示しておいた方が分かりやすいのでは?感(文字で書いても分からない)
  • ここまでで12分くらい
  • word2vecをダウンロードしてコンパイルするだけでstate-of-the-artを達成可能!
    全タスクで最も良かったパラメータでの結果を記載
    synonymのstate-of-the-artはcount modelらしいぞ?
  • パラメータ固定での結果の比較
    semantic relatednessの一番左のデータを開発データとして,これで最も良い性能を出したベクトルの比較
  • selectional preferenceはマイナスにいく(相関を取っているので)
    酷い結果になることを示唆している
  • 各タスクに適用したときの順位が出るけど,その平均順位はmean rank
  • パラメータ調整を死ぬほど頑張らなくても良いので嬉しい
    16~17分の予定

Transcript

  • 1. Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors Marco Baroni, Georgiana Dinu, German Kruszewski ACL 2014 読む人:東北大学 D1 高瀬翔
  • 2. 単語の意味をどう表現する? • 分布仮説[Harris, 64] – 似た文脈で出現する単語は似た意味を持つ – 単語の意味を文脈の分布で表現できる • 様々な工夫 – 単語間の共起情報尺度(e.g., 共起頻度,PMI) – 次元圧縮(e.g., PCA,Matrix Factorization) 代表作 作家 陸上競技 文学賞 時速 筋肉 順位 書く フランツ・カフカ 1 1 0 1 0 0 0 1 大江健三郎 1 1 0 1 0 0 0 1 パオロ・バチガルピ 1 1 0 1 0 0 0 1 ウサイン・ボルト 0 0 1 0 1 1 1 0 カール・ルイス 0 0 1 0 1 1 1 0 作家 陸上 選手 作家
  • 3. 最近:predictiveモデルが流行 • 低次元,密な空間で単語のベクトルを予測(学習) – 利点1:既存手法(カウントモデル)を一つのモデルで表現 • カウントモデル:共起頻度カウント→PMI計算→次元圧縮 – 利点2:大規模データに対してもスケールする • 補足(個人の意見):火付け役はword2vec? – 実装が公開されていて,簡単に使用可能 • コンパイルしてコーパスを突っ込むだけ – ACL2014ではword2vecを引用した論文が大量に
  • 4. カウントモデル vs. predictiveモデル • どちらが良いのか気になるのが人情 • 個々のタスクでの比較は報告されている – 単語の類似度[Huang+ 12],フレーズの類似度[Blacoe+ 12], analogy[Mikolov+ 13] – タスク横断的に検証,報告したものはない • 本研究の目的:単語の意味表現の質について, カウントモデルとpredictiveモデルの性能を様々 な実験を通して比較 – 実質的にはカウントモデル vs. word2vec – (他のpredictiveモデルも載ってるが,ほぼ比較なし)
  • 5. 論文の概要図 コーパス 共起情報の集計 (頻度,PMI,…) 代表作 作家 … フランツ・カフカ 3.4 5.6 … 大江健三郎 3.8 4.2 … … … … … フランツ・カフカ 6.9 -3.2 大江健三郎 7.8 -2.8 … … … 次元圧縮 (NMF, SVD,…) フランツ・カフカ -5.8 1.7 大江健三郎 -6.9 1.2 … … …word2vec (CBOW) カウントモデル VS. predictiveモデル 様々なタスクで比較
  • 6. まずはカウントモデルの概要説明 コーパス 共起情報の集計 (頻度,PMI,…) 代表作 作家 … フランツ・カフカ 3.4 5.6 … 大江健三郎 3.8 4.2 … … … … … フランツ・カフカ 6.9 -3.2 大江健三郎 7.8 -2.8 … … … 次元圧縮 (NMF, SVD,…)
  • 7. 共起情報の集計 • 窓幅 n 以内の単語との • Pointwise Mutual Information(PMI) – 二単語(wi, wj)の相関の強さ – 片方が出現したとき必ずもう一方も出現で最大に • Local Mutual Information(LMI)[Evert+ 05] PMI(wi,wj ) = log( p(wi,wj ) p(wi )* p(wj ) ) LMI(wi,wj ) = p(wi,wj )*log( p(wi,wj ) p(wi )* p(wj ) ) In 1912, Kafka wrote the story… n n
  • 8. 次元圧縮 • 単語の文脈ベクトルの次元を k に圧縮 – 行列の圧縮テクニックを利用(SVD,NMF) • SVD(特異値分解) – UkとΣkから m × k の行列を作成 • NMF(Nonnegative Matrix Factorization)[Lee+ 00] – 行列を非負の要素からなる二つの行列で近似 U (m×m ) 行列 (m × n) = VT (n × n) Σ (m × n) k Uk k Σk 行列 (m × n) ≅ k m m m × k の行列を 圧縮結果とする
  • 9. word2vecの概要を説明 コーパス フランツ・カフカ -5.8 1.7 大江健三郎 -6.9 1.2 … … …word2vec (CBOW)
  • 10. word2vec(CBOW) • 周辺(窓幅 n)の単語から中央の単語ベクトルを予測 • skip-gram(周辺単語を予測するモデル)より高速,大規模 データでは高性能 • 高速化,精度向上のための様々な工夫 – Hierarchical softmax,negative sampling,subsampling – (時間の都合上今回は説明しません…) n n training time. The basic Skip-gram formulation defines p(wt + j |wt ) using the softmax fun p(wO |wI ) = exp v′ wO ⊤ vwI W w= 1 exp v′ w ⊤ vwI where vw and v′ w are the “input” and “output” vector representations of w, and W is ber of words in the vocabulary. This formulation is impractical because the cost of c ∇ logp(wO |wI ) is proportional to W, which is often large (105 –107 terms). 2.1 Hierarchical Softmax A computationally efficient approximation of the full softmax is the hierarchical softma context of neural network language models, it was first introduced by Morin and Bengio main advantage is that instead of evaluating W output nodes in the neural network to o probability distribution, it is needed to evaluate only about log2(W) nodes. The hierarchical softmax uses a binary tree representation of the output layer with the W its leaves and, for each node, explicitly represents the relative probabilities of its child nod define a random walk that assigns probabilities to words. More precisely, each word w can be reached by an appropriate path from the root of the n(w, j ) be the j -th node on the path from the root to w, and let L(w) be the length of thi wI wO ここの計算が大変(全単語対象) なので様々な工夫を行う
  • 11. カウントモデル vs. word2vec • 訓練コーパス(モデルの作成用):28億単語 – ukWaC,English Wikipedia,British National Corpusを結合 • 単語:頻出単語30万個 • 評価タスク:5種類のタスク,14個のデータセット(既存研究から) – Semantic relatedness – Synonym detection – Concept categorization – Selectional preference – Analogy • 評価対象 – パラメータを変えてタスクに適用,モデルの性能や頑健さを検証
  • 12. Semantic relatedness • 単語ペアについて人手で意味的に似ているか/関連があるかを 付与したデータを用意 – 単語間に人手による類似度付与 – king,queen:9 – tiger,cat:8 – drink,ear:1 – king,cabbage:0 • モデルから得たベクトルで計算した類似度と人手による類似度が 対応するか検証 – 類似度:コサイン類似度 – 相関の測定:類似度順に並べ,順位の一致率を見る • 5種類のデータセット king,queen:0.8 tiger,cat:0.6 king,cabbage:0.04 drink,ear:0.01 単語ベクトル間のコサイン類似度 順位の一致率を見る
  • 13. Synonym detection • 同義語を選ぶ4択問題 • 入力と最もコサイン類似度の高い候補を出力 • 正解率を測定 • 1種類のデータセット(TOEFL) 入力:levied 候補 imposed(正解) believed requested correlated
  • 14. Concept categorization • 単語とその意味カテゴリのデータを用意 – helicopters,motorcycles→vehicle – dogs,elephants→animal • モデルから得たベクトルに基づきクラスタリン グ,正確なクラスタができているか検証 – クラスタリング:CLUTOを利用 – Repeated bisectionでクラスタリング • データを二つのクラスタに分割,を繰り返す • 3種類のデータセット
  • 15. Selectional preference • ある動詞とその主語や目的語として典型的な名詞の ペアを集めたデータを用意 – personはeatの主語として典型的 – personはeatの目的語としては非典型的 • 動詞の主語/目的語に頻出の20単語のベクトルの平 均と対象の単語のコサイン類似度測定,データと比較 • 2種類のデータセット eat I He Animal …… 20単語 ↓ 単語ベクトルの平均personのベクトル 類似度測定
  • 16. Analogy • 単語対の意味的/統語的関係の類推テスト – 意味的関係 • man-woman,king-?(正解:queen) • brother-sister,grandson-? (正解:granddaughter) – 統語的関係 • work-works,speak-? (正解:speaks) • have-had,eat-? (正解:ate) • モデルから得たベクトルの足し引き結果と最も類似度 の高い単語 – v(man)-v(woman)+v(king)と最も近い単語は? • 3種類のデータセット – 統語のみ,意味のみ,両方
  • 17. カウントモデル vs. word2vec(再掲) • 訓練コーパス(モデルの作成用):28億単語 – ukWaC,English Wikipedia,British National Corpusを結合 • 単語:頻出単語30万個 • 評価タスク:5種類のタスク,14個のデータセット(既存研究から) – Semantic relatedness – Synonym detection – Concept categorization – Selectional preference – Analogy • 評価対象 – パラメータを変えてタスクに適用,モデルの性能や頑健さを検証
  • 18. 各手法でのパラメータ 窓幅 共起情報 次元圧縮 次元 2,5 PMI,LMI なし,SVD,NMF 300k(次元圧縮なし), 200,300,400,500 窓幅 hs negative sampling subsampling 次元 2,5 なし, あり なし(hsあり), 5,10 なし,あり 200,300,400,500 カウントモデルのパラメータ 2 * 2(次元圧縮なし) + 2 * 2 * 2 * 4(次元圧縮) = 36通り word2vecのパラメータ 2 * 3 * 2 * 4 = 48通り
  • 19. 各タスクで最も良い結果の比較 (各結果のパラメータが異なる) • word2vec(pre)はどのタスクでもカウントモデル(cnt) より良い性能 – カウントモデルもそれほど悪い訳ではない • 一部のタスクではword2vecはstate-of-the-artの結果 よりも高性能 – state-of-the-artは各タスクに特化した手法で得た値 • 知識の利用,人手のルール,大規模コーパスの利用… – state-of-the-artに勝てるword2vecはスゴい semantic relatedness concept categorization synonym detection analogy selectional preference
  • 20. Semantic relatednessに最適化 (パラメータ固定) • Semantic relatednessの一部のデータで最も性 能が良かったパラメータでの結果 – 開発データでチューニングした状況を想定 • カウントモデル,word2vecともにそこそこ高い値 – カウントモデルもきちんとチューニングすれば悪くな い結果を出せる semantic relatedness concept categorization synonym detection analogy selectional preference
  • 21. タスク横断で最も悪い結果 (パラメータ固定) • 全タスクに適用し,最も悪かったパラメータでの比較 • カウントモデルはボロボロ – パラメータ設定に失敗すると酷い結果になる • word2vecはそこそこ高い値 – カウントモデルのベスト時と同等の性能 • word2vecは非常に頑健 – パラメータの設定を誤ってもそこそこの結果が出せる semantic relatedness concept categorization synonym detection analogy selectional preference
  • 22. 各パラメータでのタスク横断の順位 • 各パラメータで作成したベクトルを全タスクに適用,性能の良い順 – 各タスクでの順位の平均が高い順 • word2vecの平均ランク>カウントモデルの平均ランク – 全体的にword2vec>カウントモデルという傾向 • カウントモデルではPMI,SVDを使用すると良い • word2vecではnegative sampling,subsamplingを利用すると良い カウントモデル word2vec
  • 23. まとめ • カウントモデルとpredictiveモデル(主にword2vec)を 様々な実験を通して比較 • 性能はword2vec>カウントモデル – word2vecで得た単語ベクトルはstate-of-the-artな性能 – パラメータに対して頑健 • 残る疑問:predictiveモデルの次元とは何なのか? – 潜在的な意味を表現しているのか? – カウントモデルで得られるベクトルとの表現力の差は? • Predictiveモデルの研究はまだ始まったばかりだ! – この先は君の目で確かめてみてくれ!