Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20170203The Effects of Data Size and Frequency Range on Distributional Semantic Models

163 views

Published on

The Effects of Data Size and Frequency Range on Distributional Semantic Models

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

20170203The Effects of Data Size and Frequency Range on Distributional Semantic Models

  1. 1. The Effects of Data Size and Frequency Range on Distributional Semantic Models Magnus Sahlgren and Alessandro Lenci, Proceedings of the 2016 Conference on EMNLP, pp.975-980, 2016 図や表は論⽂より引⽤ ⽂献紹介 2017.02.03 ⾃然⾔語処理研究室 修⼠2年 髙橋寛治
  2. 2. 概要 Distributional Semantic Models(DSMs)の調査 データサイズの異なるコーパス 処理対象の語の頻度 分かったこと ニューラルネットワークはデータ量が⼩さいと弱い データ量が⼩さい時は、特異値分解(SVD) 今後の課題として、モデルの組み合わせなどを考慮 The Effects of Data Size and Frequency Range on Distributional Semantic Models
  3. 3. はじめに DSMsは⾔語処理でよく使う⼿法 • 次元削減 • 類似度計算 モデルの選択は、あまり重要視されない 本稿で下記を調べる データ量に対する性能 低頻度語に対する性能 The Effects of Data Size and Frequency Range on Distributional Semantic Models
  4. 4. Distributional Semantic Models(DSM) 実験で⽤いるモデル • 単純な共起モデル(PMI) • ⾏列モデル(SVD) • ランダムインデクシング • ニューラルネットワークモデル(word2vec) The Effects of Data Size and Frequency Range on Distributional Semantic Models
  5. 5. 実験 ukWaCコーパス:16億語 共起:パラメータは揃える(±2単語) ukWaCの共起は400万×400万、まず5万次元に削減 TSVD:200次元,ISVD:2800次元(200-3000) RI:2000次元、CBOW,SGNS:200次元 ベンチマーク 同義語選択問題2種類(精度で評価) 類似度・関連度タスク3種類(スピアマンの順位相関係数) The Effects of Data Size and Frequency Range on Distributional Semantic Models
  6. 6. The Effects of Data Size and Frequency Range on Distributional Semantic Models データサイズによる⽐較 ⼩さいコーパス ニューラルネットが弱い 特異値分解が強い ※⼩さいコーパスは⽐較が難しい かもしれない 4択だとランダムでも25%
  7. 7. ISVDが全体的に良い 単純な共起以外では、劇的な差が あるわけではない ニューラルネット データサイズが⼤きくなればなる ほど性能が良くなる The Effects of Data Size and Frequency Range on Distributional Semantic Models データサイズによる⽐較 スコアの平均
  8. 8. 頻度による⽐較 頻度別で⽐較 ⾼頻度(1,387)、 中頻度(656) 、低頻度(350) 、混ぜたもの(3458) The Effects of Data Size and Frequency Range on Distributional Semantic Models スコアの平均。10億語ですべて学習
  9. 9. 頻度による⽐較 ISVD MEDIUM, MIXEDで良い The Effects of Data Size and Frequency Range on Distributional Semantic Models スコアの平均。10億語ですべて学習
  10. 10. 頻度による⽐較 ニューラルネットベースのモデル 頻度が⾼ければ⾼いほど良い The Effects of Data Size and Frequency Range on Distributional Semantic Models スコアの平均。10億語ですべて学習
  11. 11. 頻度による⽐較 中頻度に強い CO, PPMI, TSVD, ISVD The Effects of Data Size and Frequency Range on Distributional Semantic Models スコアの平均。10億語ですべて学習
  12. 12. 頻度による⽐較 ニューラルネットだが、低頻度に強い場合も CBOWが低頻度で最も強い The Effects of Data Size and Frequency Range on Distributional Semantic Models スコアの平均。10億語ですべて学習
  13. 13. まとめ DSMへのデータサイズおよび頻度の影響調査 ニューラルネットは⼩さいデータに弱い それ以外のDSMは⼩さいデータ向き ISVDが頑健であった モデルの使い⽅としての今後の課題 頻度ごとに別のモデルを⽤いる 頻度およびデータ量に合わせて、パラメータ調整 The Effects of Data Size and Frequency Range on Distributional Semantic Models

×