SlideShare a Scribd company logo
1 of 18
マイクロブログテキストを用いた教師なし
文書間類似度評価手法の分析
08D12098 近井 厚三
1
研究背景
• 動機
近年,人間との対話・応答システムが普及している
→ (例) Siri,会話ロボット,自動音声案内,音声カーナビシステム etc…
→ しかし,短文を一から生成するのは難しいので,応答はルールベースのものが多い
(例) ありがとう ⇔ どういたしまして
文書間類似度手法を応答検索システムに適用
→ コーパス(テキスト集合)から適切な応答文を探し出すシステム
今回はTwitterの日本語テキストデータのみを使用した類似度手法で,どこまで
応答精度を出すことができるかを調査した
2
返答の多様性を広げるため
研究概要
• Short Text Conversation (STC)
本実験はNTCIRというプロジェクトが主催するタスク (STC) に参加
タスク内容:入力ポストに対して,適切な応答文を検索して出力する
→ 実際の評価形式は出力を応答文のランキングとして、そのランキングを評価
3
研究概要(2)
• 一般的な文書間類似度計算
一般的に,文書間の類似度を測るには…
① 文を何かしらのベクトル表現に変換
② コサイン類似度などを使って類似度を測る
 今回は①文書ベクトルの生成に,大別して3つの手法を採用
1. トピックモデル
2. WTMFモデル(行列分解モデル)
3. 単語(文書)分散表現
→ いずれの方法も文書や単語の潜在的な情報を加える目的(短文の疎性に対応するため)4
A: 今日 / も / いい / 天気 / です/ ね/ 。 = [1, 1, 0, 1, 0, 1, 1, 1, 0]
B: 今日/ は/ すばらしい/ 天気/ だ/ 。 = [1, 0, 1, 0, 1, 1, 0, 0, 1]
Cos(A, B) = 0.634
文書ベクトル生成手法
① トピックモデル
単語の生起や単語トピック(政治,芸能,スポーツetc…)が確率分布に従うと仮
定されたモデル
観測された生データから元の言葉の分布を推定する
今回はLDAとHDPを使用
ただし,データ疎性に弱い・・・
5
抽出されたトピックの一例→
文書ベクトル生成手法(2)
② WTMFモデル
行列分解を利用した短文ベクトルの低次元近似手法
単語文書行列(各列:文書ベクトル,セル:TF-IDF値)から目的関数に従った行
列分解の近似
6出典:Modeling Sentences in the Latent Space
文書ベクトル生成手法(3)
③ 単語(文書)の分散表現
単語(文書)のベクトル表現をニューラルネットを用いて学習
単語間の線形演算も可能に(例:”king”-”man”+”woman” = “queen”)
オープンソースのものとしてword2vecやdoc2vecが存在
→ Word2vec出力:単語低次元ベクトル
→ Doc2vec 出力:文書低次元ベクトル
7出典:Distributed Representations of Sentences and Documents
実験
• 実験概要
“入力Tweetに対する応答文をランキング形式で出力するシステムの評価”
Tweetペア: 428,124(pairs),残りのTweet: 64,395件,合計920,643件を取得(2014年)
→ ランキング生成の元となるコーパスとして使用
ランキングの評価として,P@k, MRR, MAP, NDCG@kを使用
→ 範囲は[0, 1]: 値が大きい方が良いランキングである指標
評価用 Tweet: 179件を,コーパスとは別途クロール
→ 入力ポストとして使用
→ 各入力ポストにはコーパスから任意の5~10件のTweetを正解として抽出
8
実験(2)
• システム構成図
9ランキング方法
実験(3)
• システム構成
以下の9通りの文書ベクトル生成方法でシステムを構築
① TF-IDF
② LDA →TF-IDF
③ HDP →TF-IDF
④ WTMF
⑤ Word2vec
⑥ Doc2vec
⑦ Word2vec →TF-IDF
⑧ Word2vec+TF-IDF(average)
⑨ Word2vec+TF-IDF(max)
⑧,⑨以外は生成されたベクトルに対し,コサイン類似度を類似度計算に使用
形態素解析器はMeCabを使用
10
出典:Unsupervised Sparse Vector Densification
for Short Text Similarity
結果
11
考察
• 考察
評価値がもっとも高かったものは①TF-IDF, ⑦word2vec→TF-IDF
→ Word2vecがノイズデータに対しフィルタリングのような役割(トピック分類)
②LDA →TF-IDFや③HDP →TF-IDF , ⑥doc2vecは数値が低かった
→ データの疎性のため,ベクトル空間のモデル化に失敗
⑤Word2vec, ⑧ Word2vec+TF-IDF(average),⑨Word2vec+TF-IDF(max)数値も低い
→ Word2vecによる単語ベクトルが大まかなトピックまでしか精度を出すことができなかった
④WTMF も予想外に数値が低い
→ TF-IDFでは重みの軽い単語がWTMFでは注目された可能性
→ ①TF-IDFに比べて精度が悪い原因
12
結論
• まとめ
NTCIRタスクに参加 → 短文応答検索システムを実装
短文(Tweet)間の類似度計算に複数の手法を用いて結果の違いを観測
実験の結果,最も数値が良かったのはTF-IDF,word2vec→TF-IDF, 悪かったのは
LDA, HDP, doc2vec, word2vec の手法であった
原因として…
① TF-IDFでは重みの軽い単語がWTMFでは注目された可能性
② データの疎性によるベクトル空間のモデル化失敗
③ word2vecの精度が単語トピックの同定までが限界,短文分類には向かない
13
補足
• WTMFモデルにおける非観測語の意義
𝑤 𝑚: 非観測語の重み
① 非観測語の影響を考慮させたい
→ 𝑤 𝑚 ≠ 0 (> 0)
② 次元縮退(トピック推定)は主に観測語の影響で縮退させたい
→ 𝑤 𝑚は小さい値を使用する(本実験では𝑤 𝑚 = 0.01 )
14出典:Modeling Sentences in the Latent Space
補足(2)
15コーパスの形式
Post: 投稿文
Comment: 応答文
Residue:片方しかクロールできなかったもの
補足(3)
16
• Distributed Memory Model
今回の実験ではParagraph Matrixを用いて,語順を情報に入れたことが逆にノ
イズになった可能性が考えられる
出典:Distributed Representations of Sentences and Documents
補足(4)
17
• Word2vec の精度
単語トピックでは精度は悪くない模様
“ツイート”と類似する単語集合 “政治”と類似する単語集合
補足(4)
18
• Word2vec の精度(2)
応答精度の向上には至らなかった

More Related Content

What's hot

音声を検索するための索引付け方式の紹介(専門家向け)
音声を検索するための索引付け方式の紹介(専門家向け)音声を検索するための索引付け方式の紹介(専門家向け)
音声を検索するための索引付け方式の紹介(専門家向け)utsuro_lab
 
An efficient framework for learning sentence representations
An efficient framework for learning sentence representationsAn efficient framework for learning sentence representations
An efficient framework for learning sentence representationsYuya Soneoka
 
Code4lib2013.09.01 fujiwara
Code4lib2013.09.01 fujiwaraCode4lib2013.09.01 fujiwara
Code4lib2013.09.01 fujiwaraTakeshi Fujiwara
 
Aligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaAligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaKodaira Tomonori
 
言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価Kodaira Tomonori
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習Mitsuhisa Ohta
 
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...Ace12358
 
Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析Nobuyuki Kawagashira
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生Toshihiko Yamasaki
 
Semantic analysis and helpfulness prediction of text for online product reviews
Semantic analysis and helpfulness prediction of text  for online product reviewsSemantic analysis and helpfulness prediction of text  for online product reviews
Semantic analysis and helpfulness prediction of text for online product reviews浩気 西山
 

What's hot (10)

音声を検索するための索引付け方式の紹介(専門家向け)
音声を検索するための索引付け方式の紹介(専門家向け)音声を検索するための索引付け方式の紹介(専門家向け)
音声を検索するための索引付け方式の紹介(専門家向け)
 
An efficient framework for learning sentence representations
An efficient framework for learning sentence representationsAn efficient framework for learning sentence representations
An efficient framework for learning sentence representations
 
Code4lib2013.09.01 fujiwara
Code4lib2013.09.01 fujiwaraCode4lib2013.09.01 fujiwara
Code4lib2013.09.01 fujiwara
 
Aligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipediaAligning sentences from standard wikipedia to simple wikipedia
Aligning sentences from standard wikipedia to simple wikipedia
 
言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
 
Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
 
Semantic analysis and helpfulness prediction of text for online product reviews
Semantic analysis and helpfulness prediction of text  for online product reviewsSemantic analysis and helpfulness prediction of text  for online product reviews
Semantic analysis and helpfulness prediction of text for online product reviews
 

Similar to マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析

会話ドメインと感情を考慮した ニューラル対話モデルの構築
会話ドメインと感情を考慮したニューラル対話モデルの構築会話ドメインと感情を考慮したニューラル対話モデルの構築
会話ドメインと感情を考慮した ニューラル対話モデルの構築KozoChikai
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12Yoji Kiyota
 
Code4Lib 2013参加報告
Code4Lib 2013参加報告Code4Lib 2013参加報告
Code4Lib 2013参加報告Masao Takaku
 
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料tetsuro ito
 
Presentation oct-2018-tokyo r
Presentation oct-2018-tokyo rPresentation oct-2018-tokyo r
Presentation oct-2018-tokyo rTom Kelly
 
マイニング探検会#31 情報検索システムのユーザーのニーズを考える
マイニング探検会#31 情報検索システムのユーザーのニーズを考えるマイニング探検会#31 情報検索システムのユーザーのニーズを考える
マイニング探検会#31 情報検索システムのユーザーのニーズを考えるYoji Kiyota
 
自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニングNaoaki Okazaki
 
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)Webpla LLC.
 
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)Sho Nakamura
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016Mai Otsuki
 
論文読み 20170525
論文読み 20170525論文読み 20170525
論文読み 20170525Taichi Iki
 
Post-MOOCと進化するCHiLO
Post-MOOCと進化するCHiLOPost-MOOCと進化するCHiLO
Post-MOOCと進化するCHiLOHori Masumi
 
IVS CTO Night & Day 2016 Tech Talk - AI
IVS CTO Night & Day 2016 Tech Talk - AIIVS CTO Night & Day 2016 Tech Talk - AI
IVS CTO Night & Day 2016 Tech Talk - AIToshiaki Enami
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門Hiroyoshi Komatsu
 
NAIST ソフトウェア工学研究室紹介 2017
NAIST ソフトウェア工学研究室紹介 2017NAIST ソフトウェア工学研究室紹介 2017
NAIST ソフトウェア工学研究室紹介 2017Takashi Ishio
 
iSUC2012 本気で考える脱メール_公開用
iSUC2012 本気で考える脱メール_公開用iSUC2012 本気で考える脱メール_公開用
iSUC2012 本気で考える脱メール_公開用Muneyuki Ohkawa
 
おとなのテキストマイニング
おとなのテキストマイニングおとなのテキストマイニング
おとなのテキストマイニングMunenori Sugimura
 

Similar to マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析 (20)

会話ドメインと感情を考慮した ニューラル対話モデルの構築
会話ドメインと感情を考慮したニューラル対話モデルの構築会話ドメインと感情を考慮したニューラル対話モデルの構築
会話ドメインと感情を考慮した ニューラル対話モデルの構築
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12
 
050830 openforum
050830 openforum050830 openforum
050830 openforum
 
Code4Lib 2013参加報告
Code4Lib 2013参加報告Code4Lib 2013参加報告
Code4Lib 2013参加報告
 
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
 
Presentation oct-2018-tokyo r
Presentation oct-2018-tokyo rPresentation oct-2018-tokyo r
Presentation oct-2018-tokyo r
 
マイニング探検会#31 情報検索システムのユーザーのニーズを考える
マイニング探検会#31 情報検索システムのユーザーのニーズを考えるマイニング探検会#31 情報検索システムのユーザーのニーズを考える
マイニング探検会#31 情報検索システムのユーザーのニーズを考える
 
自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニング
 
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
MAごころを、君に - #7 ChatGPT勉強会(2023-03-28)
 
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016
 
Kdd 2016 slide
Kdd 2016 slideKdd 2016 slide
Kdd 2016 slide
 
QaA
QaAQaA
QaA
 
論文読み 20170525
論文読み 20170525論文読み 20170525
論文読み 20170525
 
Post-MOOCと進化するCHiLO
Post-MOOCと進化するCHiLOPost-MOOCと進化するCHiLO
Post-MOOCと進化するCHiLO
 
IVS CTO Night & Day 2016 Tech Talk - AI
IVS CTO Night & Day 2016 Tech Talk - AIIVS CTO Night & Day 2016 Tech Talk - AI
IVS CTO Night & Day 2016 Tech Talk - AI
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
NAIST ソフトウェア工学研究室紹介 2017
NAIST ソフトウェア工学研究室紹介 2017NAIST ソフトウェア工学研究室紹介 2017
NAIST ソフトウェア工学研究室紹介 2017
 
iSUC2012 本気で考える脱メール_公開用
iSUC2012 本気で考える脱メール_公開用iSUC2012 本気で考える脱メール_公開用
iSUC2012 本気で考える脱メール_公開用
 
おとなのテキストマイニング
おとなのテキストマイニングおとなのテキストマイニング
おとなのテキストマイニング
 

マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析

Editor's Notes

  1. 今回は,マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析というタイトルで発表させていただきます.
  2. まず研究背景として,近年,会話ロボットや自動音声案内などの自動応答システムが普及してきています. しかし,現在実用化されている応答システムは意味が通じるような短文を一から生成が困難であることからルールベースに頼っているものが多いです. 従って,本研究では返答の多様性を広げるために,文書間類似度計算手法を用いてコーパスから適切な応答文を検索するシステムを実装しました.
  3. 今回の実験はNTCIRというプロジェクトが主催しているショートテキストカンバセーションというタスクに参加しています. このタスクの内容は入力ポストに対して,コーパスから適切な応答文を探しだすというタスクになっています. 今回の実験ではシステムの出力を応答文のランキングとして,そのランキングを評価するという実験を行いました.
  4. しかし,今回扱うtwitterのテキストデータは短文であるため単語の共起頻度だけでは正確な類似度計算をするのが難しいので→①に3つの手法を採用しました. いずれの方法も文書や単語の潜在的な情報を加える目的があります.
  5. それでは簡単にですが使用した三つの手法を紹介します. トピックモデルとは単語の生起や単語トピックが確率分布に従うと仮定されたモデルであり,これを定義することで,実際に観測されたデータから元の言葉の分布を推定します. 利点として,図のように単語トピックをテキストデータのみで推定することができます. 今回はLDAとHDPを使用しました. 文書内に潜在トピック(複数)が存在→トピックから各単語が生成→潜在トピックを生データの単語から推定 LDAとHDPの大きな違いは,LDAは入力にトピック数をユーザ側で指定する必要があるが,HDPはシステム側が適当なトピック数を決定してくれる点です. 従って,HDPは適切なパラメータ調整を施したLDAと同じくらいの精度であるといわれています.
  6. ふたつ目にWTMFモデルを紹介します. WTMFモデルは,行列分解を利用した短文ベクトルの低次元近似手法です. 具体的に各列が文書ベクトル,各セルがTF-IDF値の単語文書行列Xを作成して,このXを左の目的関数を最小化するように行列P,Qを設定します. この行列Qの各列が文書ベクトルに対応した低次元ベクトルになっており,これを計算することで短文間のベクトルを計算することが出来ます. w_mは非観測語の重み,これがゼロだと通常のsvdと同様(空白セルの補間),論文では非観測語に重みをつけることで ①観測語影響が減少するのを防ぐ ②次元縮退(トピックの推定)に関しては主に観測語を元に生成する
  7. 最後に単語の分散表現を紹介します. 単語の分散表現とは,単語や文書のベクトル表現をニューラルネットを用いて学習させるモデルのことを指します. このモデルを使って出来るベクトルは,たとえばこのように単語間の線形演算にも使えることがわかっています. 今回は主にword2vecとdoc2vecを使用しました. 単語の生起確率を周辺から予測するモデルをニューラルネットを使って学習させ,単語ベクトルを生成します. 例として,”the cat sat”と単語が続いたときこの次の単語に”on”が実際に続いていたとき,この”on”の生起確率が最大になるように学習させるようなイメージです.
  8. ・実験内容ですが,一言で言うと入力Tweetに対する応答文をランキング形式で出力するシステムの評価を行いました. ・クロールしてきた約92万件のツイートをランキングとして使用するコーパスとして使用しました.
  9. これがランキング方法の構成図です. 簡略化して言うと,入力ポストに対して類似度計算を行い,似ているツイートを取り出した後,そのポストとペアになっているツイートと一緒にランキングする方法になっています.
  10. 今回の実験では文書のベクトル表現にこの9通りの方法を用いてシステムを構築しました.
  11. ⑦は入力ポストの各単語に最も類似する単語20個をそれぞれ取り出し,その単語を含むテキストをTF-IDFで類似度計算してランキングしたもの
  12. まとめは以下のようになっています. 以上で発表を終わります.
  13. w_mは非観測語の重み,これがゼロだと通常のsvdと同様(空白セルの補間),論文では非観測語に重みをつけることで ①観測語影響が減少するのを防ぐ ②次元縮退(トピックの推定)に関しては主に観測語を元に生成する