マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析

マイクロブログテキストを用いた教師なし
文書間類似度評価手法の分析
08D12098 近井厚三
1

研究背景
• 動機
近年，人間との対話・応答システムが普及している
→ （例） Siri，会話ロボット，自動音声案内，音声カーナビシステム etc…
→ しかし，短文を一から生成するのは難しいので，応答はルールベースのものが多い
（例）ありがとう ⇔ どういたしまして
文書間類似度手法を応答検索システムに適用
→ コーパス（テキスト集合）から適切な応答文を探し出すシステム
今回はTwitterの日本語テキストデータのみを使用した類似度手法で，どこまで
応答精度を出すことができるかを調査した
2
返答の多様性を広げるため

研究概要
• Short Text Conversation (STC)
本実験はNTCIRというプロジェクトが主催するタスク (STC) に参加
タスク内容：入力ポストに対して，適切な応答文を検索して出力する
→ 実際の評価形式は出力を応答文のランキングとして、そのランキングを評価
3

研究概要(2)
• 一般的な文書間類似度計算
一般的に，文書間の類似度を測るには…
① 文を何かしらのベクトル表現に変換
② コサイン類似度などを使って類似度を測る
 今回は①文書ベクトルの生成に，大別して３つの手法を採用
1. トピックモデル
2. WTMFモデル（行列分解モデル）
3. 単語（文書）分散表現
→ いずれの方法も文書や単語の潜在的な情報を加える目的(短文の疎性に対応するため)4
A: 今日 / も / いい / 天気 / です/ ね/ 。 = [1, 1, 0, 1, 0, 1, 1, 1, 0]
B: 今日/ は/ すばらしい/ 天気/ だ/ 。 = [1, 0, 1, 0, 1, 1, 0, 0, 1]
Cos(A, B) = 0.634

文書ベクトル生成手法
① トピックモデル
単語の生起や単語トピック(政治，芸能，スポーツetc…)が確率分布に従うと仮
定されたモデル
観測された生データから元の言葉の分布を推定する
今回はLDAとHDPを使用
ただし，データ疎性に弱い・・・
5
抽出されたトピックの一例→

文書ベクトル生成手法(2)
② WTMFモデル
行列分解を利用した短文ベクトルの低次元近似手法
単語文書行列(各列：文書ベクトル，セル：TF-IDF値)から目的関数に従った行
列分解の近似
6出典：Modeling Sentences in the Latent Space

文書ベクトル生成手法(3)
③ 単語(文書)の分散表現
単語（文書）のベクトル表現をニューラルネットを用いて学習
単語間の線形演算も可能に(例:”king”-”man”+”woman” = “queen”)
オープンソースのものとしてword2vecやdoc2vecが存在
→ Word2vec出力：単語低次元ベクトル
→ Doc2vec 出力：文書低次元ベクトル
7出典：Distributed Representations of Sentences and Documents

実験
• 実験概要
“入力Tweetに対する応答文をランキング形式で出力するシステムの評価”
Tweetペア: 428,124(pairs)，残りのTweet: 64,395件，合計920,643件を取得(2014年)
→ ランキング生成の元となるコーパスとして使用
ランキングの評価として，P@k, MRR, MAP, NDCG@kを使用
→ 範囲は[0, 1]：値が大きい方が良いランキングである指標
評価用 Tweet: 179件を，コーパスとは別途クロール
→ 入力ポストとして使用
→ 各入力ポストにはコーパスから任意の5~10件のTweetを正解として抽出
8

実験(2)
• システム構成図
9ランキング方法

実験(3)
• システム構成
以下の９通りの文書ベクトル生成方法でシステムを構築
① TF-IDF
② LDA →TF-IDF
③ HDP →TF-IDF
④ WTMF
⑤ Word2vec
⑥ Doc2vec
⑦ Word2vec →TF-IDF
⑧ Word2vec+TF-IDF(average)
⑨ Word2vec+TF-IDF(max)
⑧，⑨以外は生成されたベクトルに対し，コサイン類似度を類似度計算に使用
形態素解析器はMeCabを使用
10
出典：Unsupervised Sparse Vector Densification
for Short Text Similarity

考察
• 考察
評価値がもっとも高かったものは①TF-IDF, ⑦word2vec→TF-IDF
→ Word2vecがノイズデータに対しフィルタリングのような役割（トピック分類）
②LDA →TF-IDFや③HDP →TF-IDF ， ⑥doc2vecは数値が低かった
→ データの疎性のため，ベクトル空間のモデル化に失敗
⑤Word2vec, ⑧ Word2vec+TF-IDF(average)，⑨Word2vec+TF-IDF(max)数値も低い
→ Word2vecによる単語ベクトルが大まかなトピックまでしか精度を出すことができなかった
④WTMF も予想外に数値が低い
→ TF-IDFでは重みの軽い単語がWTMFでは注目された可能性
→ ①TF-IDFに比べて精度が悪い原因
12

結論
• まとめ
NTCIRタスクに参加 → 短文応答検索システムを実装
短文(Tweet)間の類似度計算に複数の手法を用いて結果の違いを観測
実験の結果，最も数値が良かったのはTF-IDF，word2vec→TF-IDF, 悪かったのは
LDA, HDP, doc2vec, word2vec の手法であった
原因として…
① TF-IDFでは重みの軽い単語がWTMFでは注目された可能性
② データの疎性によるベクトル空間のモデル化失敗
③ word2vecの精度が単語トピックの同定までが限界，短文分類には向かない
13

補足
• WTMFモデルにおける非観測語の意義
𝑤 𝑚: 非観測語の重み
① 非観測語の影響を考慮させたい
→ 𝑤 𝑚 ≠ 0 (> 0)
② 次元縮退（トピック推定）は主に観測語の影響で縮退させたい
→ 𝑤 𝑚は小さい値を使用する（本実験では𝑤 𝑚 = 0.01 ）
14出典：Modeling Sentences in the Latent Space

補足(2)
15コーパスの形式
Post: 投稿文
Comment: 応答文
Residue:片方しかクロールできなかったもの

補足(3)
16
• Distributed Memory Model
今回の実験ではParagraph Matrixを用いて，語順を情報に入れたことが逆にノ
イズになった可能性が考えられる
出典：Distributed Representations of Sentences and Documents

補足(4)
17
• Word2vec の精度
単語トピックでは精度は悪くない模様
“ツイート”と類似する単語集合 “政治”と類似する単語集合

補足(4)
18
• Word2vec の精度(2)
応答精度の向上には至らなかった

マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析

Recommended

Recommended

More Related Content

What's hot

What's hot (10)

Similar to マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析

Similar to マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析 (20)

マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析

Editor's Notes