More Related Content
Similar to マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
Similar to マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析 (20)
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
- 2. 研究背景
• 動機
近年,人間との対話・応答システムが普及している
→ (例) Siri,会話ロボット,自動音声案内,音声カーナビシステム etc…
→ しかし,短文を一から生成するのは難しいので,応答はルールベースのものが多い
(例) ありがとう ⇔ どういたしまして
文書間類似度手法を応答検索システムに適用
→ コーパス(テキスト集合)から適切な応答文を探し出すシステム
今回はTwitterの日本語テキストデータのみを使用した類似度手法で,どこまで
応答精度を出すことができるかを調査した
2
返答の多様性を広げるため
- 3. 研究概要
• Short Text Conversation (STC)
本実験はNTCIRというプロジェクトが主催するタスク (STC) に参加
タスク内容:入力ポストに対して,適切な応答文を検索して出力する
→ 実際の評価形式は出力を応答文のランキングとして、そのランキングを評価
3
- 4. 研究概要(2)
• 一般的な文書間類似度計算
一般的に,文書間の類似度を測るには…
① 文を何かしらのベクトル表現に変換
② コサイン類似度などを使って類似度を測る
今回は①文書ベクトルの生成に,大別して3つの手法を採用
1. トピックモデル
2. WTMFモデル(行列分解モデル)
3. 単語(文書)分散表現
→ いずれの方法も文書や単語の潜在的な情報を加える目的(短文の疎性に対応するため)4
A: 今日 / も / いい / 天気 / です/ ね/ 。 = [1, 1, 0, 1, 0, 1, 1, 1, 0]
B: 今日/ は/ すばらしい/ 天気/ だ/ 。 = [1, 0, 1, 0, 1, 1, 0, 0, 1]
Cos(A, B) = 0.634
- 10. 実験(3)
• システム構成
以下の9通りの文書ベクトル生成方法でシステムを構築
① TF-IDF
② LDA →TF-IDF
③ HDP →TF-IDF
④ WTMF
⑤ Word2vec
⑥ Doc2vec
⑦ Word2vec →TF-IDF
⑧ Word2vec+TF-IDF(average)
⑨ Word2vec+TF-IDF(max)
⑧,⑨以外は生成されたベクトルに対し,コサイン類似度を類似度計算に使用
形態素解析器はMeCabを使用
10
出典:Unsupervised Sparse Vector Densification
for Short Text Similarity
- 12. 考察
• 考察
評価値がもっとも高かったものは①TF-IDF, ⑦word2vec→TF-IDF
→ Word2vecがノイズデータに対しフィルタリングのような役割(トピック分類)
②LDA →TF-IDFや③HDP →TF-IDF , ⑥doc2vecは数値が低かった
→ データの疎性のため,ベクトル空間のモデル化に失敗
⑤Word2vec, ⑧ Word2vec+TF-IDF(average),⑨Word2vec+TF-IDF(max)数値も低い
→ Word2vecによる単語ベクトルが大まかなトピックまでしか精度を出すことができなかった
④WTMF も予想外に数値が低い
→ TF-IDFでは重みの軽い単語がWTMFでは注目された可能性
→ ①TF-IDFに比べて精度が悪い原因
12
- 13. 結論
• まとめ
NTCIRタスクに参加 → 短文応答検索システムを実装
短文(Tweet)間の類似度計算に複数の手法を用いて結果の違いを観測
実験の結果,最も数値が良かったのはTF-IDF,word2vec→TF-IDF, 悪かったのは
LDA, HDP, doc2vec, word2vec の手法であった
原因として…
① TF-IDFでは重みの軽い単語がWTMFでは注目された可能性
② データの疎性によるベクトル空間のモデル化失敗
③ word2vecの精度が単語トピックの同定までが限界,短文分類には向かない
13
- 14. 補足
• WTMFモデルにおける非観測語の意義
𝑤 𝑚: 非観測語の重み
① 非観測語の影響を考慮させたい
→ 𝑤 𝑚 ≠ 0 (> 0)
② 次元縮退(トピック推定)は主に観測語の影響で縮退させたい
→ 𝑤 𝑚は小さい値を使用する(本実験では𝑤 𝑚 = 0.01 )
14出典:Modeling Sentences in the Latent Space
- 16. 補足(3)
16
• Distributed Memory Model
今回の実験ではParagraph Matrixを用いて,語順を情報に入れたことが逆にノ
イズになった可能性が考えられる
出典:Distributed Representations of Sentences and Documents
Editor's Notes
- 今回は,マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析というタイトルで発表させていただきます.
- まず研究背景として,近年,会話ロボットや自動音声案内などの自動応答システムが普及してきています.
しかし,現在実用化されている応答システムは意味が通じるような短文を一から生成が困難であることからルールベースに頼っているものが多いです.
従って,本研究では返答の多様性を広げるために,文書間類似度計算手法を用いてコーパスから適切な応答文を検索するシステムを実装しました.
- 今回の実験はNTCIRというプロジェクトが主催しているショートテキストカンバセーションというタスクに参加しています.
このタスクの内容は入力ポストに対して,コーパスから適切な応答文を探しだすというタスクになっています.
今回の実験ではシステムの出力を応答文のランキングとして,そのランキングを評価するという実験を行いました.
- しかし,今回扱うtwitterのテキストデータは短文であるため単語の共起頻度だけでは正確な類似度計算をするのが難しいので→①に3つの手法を採用しました.
いずれの方法も文書や単語の潜在的な情報を加える目的があります.
- それでは簡単にですが使用した三つの手法を紹介します.
トピックモデルとは単語の生起や単語トピックが確率分布に従うと仮定されたモデルであり,これを定義することで,実際に観測されたデータから元の言葉の分布を推定します.
利点として,図のように単語トピックをテキストデータのみで推定することができます.
今回はLDAとHDPを使用しました.
文書内に潜在トピック(複数)が存在→トピックから各単語が生成→潜在トピックを生データの単語から推定
LDAとHDPの大きな違いは,LDAは入力にトピック数をユーザ側で指定する必要があるが,HDPはシステム側が適当なトピック数を決定してくれる点です.
従って,HDPは適切なパラメータ調整を施したLDAと同じくらいの精度であるといわれています.
- ふたつ目にWTMFモデルを紹介します.
WTMFモデルは,行列分解を利用した短文ベクトルの低次元近似手法です.
具体的に各列が文書ベクトル,各セルがTF-IDF値の単語文書行列Xを作成して,このXを左の目的関数を最小化するように行列P,Qを設定します.
この行列Qの各列が文書ベクトルに対応した低次元ベクトルになっており,これを計算することで短文間のベクトルを計算することが出来ます.
w_mは非観測語の重み,これがゼロだと通常のsvdと同様(空白セルの補間),論文では非観測語に重みをつけることで
①観測語影響が減少するのを防ぐ
②次元縮退(トピックの推定)に関しては主に観測語を元に生成する
- 最後に単語の分散表現を紹介します.
単語の分散表現とは,単語や文書のベクトル表現をニューラルネットを用いて学習させるモデルのことを指します.
このモデルを使って出来るベクトルは,たとえばこのように単語間の線形演算にも使えることがわかっています.
今回は主にword2vecとdoc2vecを使用しました.
単語の生起確率を周辺から予測するモデルをニューラルネットを使って学習させ,単語ベクトルを生成します.
例として,”the cat sat”と単語が続いたときこの次の単語に”on”が実際に続いていたとき,この”on”の生起確率が最大になるように学習させるようなイメージです.
- ・実験内容ですが,一言で言うと入力Tweetに対する応答文をランキング形式で出力するシステムの評価を行いました.
・クロールしてきた約92万件のツイートをランキングとして使用するコーパスとして使用しました.
- これがランキング方法の構成図です.
簡略化して言うと,入力ポストに対して類似度計算を行い,似ているツイートを取り出した後,そのポストとペアになっているツイートと一緒にランキングする方法になっています.
- 今回の実験では文書のベクトル表現にこの9通りの方法を用いてシステムを構築しました.
- ⑦は入力ポストの各単語に最も類似する単語20個をそれぞれ取り出し,その単語を含むテキストをTF-IDFで類似度計算してランキングしたもの
- まとめは以下のようになっています.
以上で発表を終わります.
-
w_mは非観測語の重み,これがゼロだと通常のsvdと同様(空白セルの補間),論文では非観測語に重みをつけることで
①観測語影響が減少するのを防ぐ
②次元縮退(トピックの推定)に関しては主に観測語を元に生成する