Successfully reported this slideshow.
Your SlideShare is downloading. ×

Deep neural models of semantic shift

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 22 Ad

Deep neural models of semantic shift

Download to read offline

本資料は第三者による論文紹介用スライドです。
誤り等のご指摘は竹中 takenaka-makoto_at_ed.tmu.ac.jp までご連絡ください。
本資料に関する内容について、著者に問い合わせはしないで下さい.

本資料は第三者による論文紹介用スライドです。
誤り等のご指摘は竹中 takenaka-makoto_at_ed.tmu.ac.jp までご連絡ください。
本資料に関する内容について、著者に問い合わせはしないで下さい.

Advertisement
Advertisement

More Related Content

Slideshows for you (20)

Advertisement

Recently uploaded (20)

Advertisement

Deep neural models of semantic shift

  1. 1. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 2018年6月21日 読み手 竹中誠(小町研) 特に断わりがない限り図表は論文より引用 NAACL2018
  2. 2. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 背景 • 単語の意味変化を捉えたい→Diachronic model(通時的モデル) • 従来手法では時間方向はある区間(time bin)で切っていた • time bin内では時刻非依存(synchronic model) • time binの問題点 • 区切り方が非自明 • 広くても分解能が悪い • かといって狭くするとデータが足りない(Data Issue) 1
  3. 3. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University この論文の貢献 • 通時的分散表現モデルとして、時刻方向に連続なモデルをつ くった • 単語の意味変化を評価するタスクをつくった • 単語の意味変化の速さ(速度)を捉えられることを示した (分散表現がtに関して微分可能なので解析的に速さが決まるこ とが嬉しい) 2
  4. 4. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 時間を連続的に扱えるとなにが嬉しいか • そもそも時間は連続だから • 単語の意味の変化は ”徐々に” 起きうるものなので、binに区切 るのではなく連続量として取り扱うことで意味の変化を”滑ら か”に表現したい 3
  5. 5. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 従来手法 • 従来手法は時間方向を time binで分割するモデル • 主な違いは bin 幅と bin 間(時間方向)の依存性の入れ方 • LargeBin (Hamilton et al., 2016b) • 10年区切りでSGNS(synchronic)で学習したモデル • bin 間に依存関係は入れない • SmallBinPreInit (Kim et al., 2014) • 1年区切りでSGNS(synchronic)で学習したモデル • Data issue への対策としてt=t’-1のモデルでt=t’のbinを事前学習する • SmallBinReg (Bamler and Mandt, 2017) • ターゲット単語と文脈単語をガウシアンの平均で点推定(MAP推定) • 一発目の事前分布:N(0, α1I) • bin間の依存関係はベイズ更新で入れる • t=t’-1の事後分布の平均を平均とするガウシアンをt=t’の事前分布に用いる • 分散は単位行列Iの定数α倍。αはハイパパラメタ。 4
  6. 6. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 提案手法:DiffTime • 基本的なアイデア • NNで連続空間に埋め込む • 時間空間と単語空間をがっちゃんこ • →時間依存の単語分散表現ができた。 Time Component Word Component Integration Component 5
  7. 7. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University DiffTimeのロス関数 • SGNSの拡張 • SGNSの正例 (w,c) • DiffTimeの正例 (w,c,t) • NegativeSamplingは同様にk個の負例を unigram 分布 Pd から ランダムサンプリング 6 普通のSGNSのロス(1単語)→
  8. 8. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Training • Google books ngram corpus 110年分 • English Fiction • 1900〜2009年 • 出版数で単語頻度を正規化(5倍違うので) • コーパスから(word, context, year, freq)のタプルを構成 • sub-sampling’ t = 10^-5 7
  9. 9. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Evaluation(Synchronic) • そもそも Synchronic な埋め込みができているかを Time 固定 で評価する • MEN Word Similarity タスク • 2単語と人手の類似度スコア • スピアマンの相関係数:ρ • 結果 • すべてのモデルで先行研究とコンパラ • →よさそう 8
  10. 10. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Evaluation(Diachronic) • そのままでは定量評価できない(goldがない) • そこで、単語の意味変化を捉えるタスクを提案 • →Synthetic Task • 2単語の合成語(Synthetic word)の意味の変化を考える • 合成語の意味が、片方の単語の意味からもう一方の単語の意味へ変化 したと考える • 変化の仕方をシグモイド曲線でモデル化 9
  11. 11. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Synthetic Word(合成語) • 実単語 r1,r2を単にくっつけた仮想的な単語r1○r2 • e.g. r1=banana, r2=lobster → r1○r2 = banana○lobster • r1,r2 は BLESS dataset の異なるクラスからランダムに選ぶ • r1○r2 と r1 or r2 の類似性を評価したい • どうやって評価するか? • r1 or r2 と同じ BLESS クラスに属する全単語の重心と、r1○r2の類 似度で評価する • →BLESSデータセットは単語にクラスがついていて嬉しい(次頁) 10
  12. 12. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Appendix. BLESS dataset • BLESSとは • (単語、単語クラス、関係)のタプルになったデータ • クラスがfruitの単語たち(下右図はオリジナルBLESS) • 本研究では10年区切りで頻度上位20000語のみ使う • →fruitクラスの単語は7個になった(下左図) 11
  13. 13. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University Sigmoidal Path • r1とr2 間の意味遷移のパスをシグモイドで定義 • パス(gold)はランダムに生成する • e.g. banana○lobster • bananaの意味とlobsterの意味間を遷移する • s=0.05 • 意味の変化の”どの程度徐々に“かを表す • m=1957 • bananaとlobsterの意味に等しい時点が1957年 s = m = s,mは下記の区間の一様分布から選ぶ ・s→∞ で step function ・shift(t=m) = 0.5 なので、 m は合成語 r1○r2が、r1とr2の両方の意味 を同程度に持つ時点であることを意味する。 12 time r1○r2 の r1 の意味成分量 r1○r2 の r2 の意味成分量 グラフ出典:https://ja.wikipedia.org/wiki/シグモイド
  14. 14. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 合成語をコーパスに組み込む • google books ngram →(word, context, year, freq)をつくったので、これに組み込む • word = r1 の全タプルに関して、下記の置換を実施 • w → r1○r2 • freq → freq x shift(t, r1○r2) • word = r2 の全タプルに関して、下記の置換を実施 • w → r1○r2 • freq → freq x (1-shift(t, r1○r2)) • 例えば、banana○lobster の場合 • (banana, Malaysia, year, freq) → banana○lobster, Malaysia, year,freq*(shift(year, banana○lobster) • (lobster, claws, year, freq) → banana○lobster, claws, year, freq*(1-shift(year, banana○lobster)) • 何をしていることになるのか? • r1 の意味として r1○r2 が出現し、r2 の意味として 1○r2 が出現するコーパスに改造している • 時刻tにおける r1○r2 の意味比率は、それぞれの頻度がコントロールするものとし、時刻tの r1○r2 の意味の偏りをあらわすshift と(1-shift)で元々の頻度を調整する • これにより、 r1○r2の意味を構成する意味比率が、時刻発展に伴い r1 の意味から r2 の意味へなめらかに(sigmoidal)に変化 していく様をモデル化することができる 13
  15. 15. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University モデルの定量評価 • 合成語を組み込んだコーパスでモデルを訓練する • モデルは r1○r2 や r1と同じクラスの他の単語の類似度を予測する • r1○r2 の r1 との類似度とr2への非類似度は、得られた分散表現で下記のように評価可能 • モデルの性能は、モデル予測とshift(gold)の二乗誤差を時間方向に積分したもので評価 r1○r2と、cls1の重心との類似度 14 ・cls1は、r1が属するBLESSのクラスの単語の集合 ・cls2は、r2が属するBLESSのクラスの単語の集合 r1○r2と、cls2の重心との類似度 gold
  16. 16. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University モデルの定量評価 • 15の合成語を3セット、合計45の合成語の平均 MSE の結果 • 提案手法(DiffTime)が先行研究を outperform • 合成語の意味の変化もなめらかに表現できた 15 提案手法 提案手法
  17. 17. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University モデルの限界 • 合成語を仮定している • 実世界は合成語だけではない • 二つの語義間の遷移だけの決め打ちモデル • gaining/losingやnarrowing/broadeningのような共通の変化を説明 できない • 意味変化の曲線を sigmoidal に限定している 16
  18. 18. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 意味変化のスピード • 通時分散表現 usew(w,t) が t に関して微分可能なモデルなので、 tで微分すればすなわちそれが意味変化のスピード • いくつかの単語に関して、近傍単語とのcos-simの変化と意味 変化のスピードを対応させてみた(次頁) 17
  19. 19. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University 18
  20. 20. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University いくつかの単語の意味の変化について • apple • Apple Inc.の意味に変化してそうだが、ずっとスピード一定で近傍単語も変化なし • コーパスのジャンルがフィクションだからかも • gay • 1950年ごろにドラスティックな変化がある • 1900年のmid〜lateにかけて(Harper2014と無矛盾) • mail • mailをおくる手段がかわったので変化している(email) • 変化しているものの、gayほどではないのは、sendとかreceiveとか共通している単語があるから • canadian • 近傍単語が地理的な意味の単語から civil な単語へシフトしている • 1900初頭にカナダ人のアイデンティティ形成な大きななんかがあったらしい(独立→WWⅠ?(Francis1997参 照とのこと) • cell • 1980にスパイク→近傍には、pagerやhandset、cell phoneの普及とマッチ • 予測に反して早い段階でスピード≠0になっているのは、時間を連続的に扱ったがための弱点(意図しない補 間) 19
  21. 21. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University time period の同定 • h1の活性化関数がtanhなので、h1の符号反転前後(h1=0の とき)を time pointと解釈 • time pointsをプロットしたのがFig5→ • 1940sまでは等間隔に分布 • 1950s-1956sは大きなバースト • 1980sは2つ存在 • モデルが意味変化の増大を捉えている • ただし、この解析は微妙 • 100ノードある h1 のうち 0 になるのは16% • ほとんどの h1 のノードは time periods 間の遷移に寄与しない 20
  22. 22. Natural Language Processing and Computational Linguistics Research Group at The Tokyo Metropolitan University まとめ • 通時的分散表現のモデルを構築した • 単語の意味変化をどれくらい正確にモデル化できているかを定 量化するための合成語のタスクをつくりモデル間の比較を可能 とした • モデルが微分可能であることをつかって意味の変化スピードを 示した 21

×