More Related Content More from harmonylab (20) segawa m5. 5
先行研究:テキスト特徴量の抽出
イベント情報記事へのDeep Auto-Encoder利用
前処理
素性抽出
ワードカウント
単語-文書 行列(Bag-of-Words)
term1, …
doc1: [0, 2, 1, …, 0, 1, 0],
…
doc2: [1, 1, 0, …, 1, 0, 3]
名称 概要 次元削減
TF-IDF
Bag-of-Wordsベクトルの各単語の出現度の重み付け方法,出現度が高い
単語と特定のテキストにのみ出現する単語の重要度を上げる.
Latent Samantic
Indexing(LSI)
単語-文書行列の行列分解による特徴量の抽出方法,行列の主成分分析と等
価.
⃝
Latent Dirichlet
Allocation(LDA)
文書集合の生成モデル.1つの単語に付き1つのトピック分布を持ち,文書
は各トピックの確率分布で表現される.
確率分布で表される
⃝
Semantic Hashing
Deep Auto-Encoderを用いたテキスト特徴量抽出方法,入力自身の出力
を学習するニューラルネットワークで特徴量を抽出する.
⃝
最近注目されているディープラーニングを用いた特徴量抽出手法,深層構造のニューラ
ルネットを用いることで,パターンや関連性をうまく抽出できる.
テキスト特徴量: 大量のテキストから得られる傾向や関連性などの有用な情報
6. 6
先行研究:Semantic Hashing [Salakhutdinov, Hinton, 2007]
イベント情報記事へのDeep Auto-Encoder利用
• 深層ニューラルネットワーク(DNN)を用いた特徴量抽出方法
• Bag-of-Wordsで表現された高次元疎ベクトルをDNNによっ
て Semantic Address Space と呼ばれる低次元ベクトル
空間に写像する.
強み:DNNの強力な表現力
疎なベクトルを低次元の特徴量に次元圧縮できる.
(効率的な表現)
学習
概要
2ステップでの学習
① 層ごとの事前学習(Auto-Encoder)
- 入力を圧縮・再構築するようなネットワーク
による学習
② 全体をDeep Auto-Encoderとして学習
- 事前学習で得られた重みを展開
学習が十分に進むと,隠れ層では入力テキストベクトル
の圧縮された表現が得られる.
テキストの特徴量として利用
イベント記事の「場所」,「内容」,「日時」など
のイベント固有の特徴が表現された特徴量が得られると
期待している.
8. 8
実験設定
イベント情報記事へのDeep Auto-Encoder利用
特徴量に対する評価 分類タスクに対する評価 推薦タスクに対する評価
⃝使用データ
• びもーる上の実イベント情報記事
• 2010年4月 2014年12月31日までに配信が終了した記事 約3万
件
• ネットワークの訓練に過去から60%,テスト用に残り40%を使用
• 得られた特徴量をSupport Vector
Machine(SVM)を用いて分類
• 得られた特徴量を用いて内容ベー
ス推薦を構築
• 他手法との評価比較 • 他手法との評価比較
「びもーる」でのイベント情報分類
• 得られた特徴量の可視化
• k-近傍特徴量でのジャンル
合致精度
⃝ネットワーク構成
• [2000, 500, 500, 128]のネットワーク
の構築
(出力層の次元数は予備実験によって決定)
• 入力はテキストデータ内の頻出度上位
2000単語でのBag-of-Wordsのベクトル
12. 12
③推薦タスクにおける評価(1/2)
手法 分類 特徴
ジャンル推薦 内容ベース型推薦
対象ユーザが過去に選択したサ
ービスのジャンルに基づき推薦
人気推薦 非個人化推薦
サービスを過去に選択したユー
ザの数に基づき推薦
ユーザベースCF推薦 協調型推薦
ユーザ間の過去に選択したサー
ビスの類似度に基づき推薦
アイテムベースCF推薦 協調型推薦
サービス間の過去に選択された
ユーザの類似度に基づき推薦
特徴量類似度推薦 内容ベース型推薦
ユーザが過去に選択したテキス
トの特徴量に基づき推薦
推薦手法の評価
データセットの分割方法比較する手法
[小野ら,2014]
[小野ら,2014]
特徴量類似度による推薦スコアリング
r(ui, ej) =
(
1
0
U = {u1, u2, · · · , un|n 2 IN}
E = {e1, e2, · · · , em|m 2 IN}
score(ui, ej) = max
ek2E
(r(ui, ek) ⇥ cos sim(ek, ej))
:ユーザ集合
:イベント集合
: uiがejをクリックした場合
:そうでない場合
ここで cos sim(ek, ej) =
vek · vej
||vek||||vej||
vek, vejはek,ejのDAEで得られた特徴量
ここで
閲覧済み情報が上位に来るほど良い推薦として評価
17. 17
予備実験(3/3): k-近傍特徴量のジャンル合致精度
イベント情報記事へのDeep Auto-Encoder利用
1. 1つのテキストの特徴量をクエリとし
て,テストデータ内のすべてのテキス
ト特徴量とのコサイン類似度を計算,k-
近傍のテキストを得る.
2. 得られた近傍テキストがクエリと同ジャ
ンルであれば正解,なければ不正解と
して 精度 = 正解数 / 近傍数(k)を計算
3. 上記の操作をテストデータ内のすべて
のテキストをクエリとして行い,全体
の精度の平均を算出して評価値とする.
得られた特徴量の意味的(ジャンル)な類似性を評価
Deep Auto-Encoder(DAE)で作られた特徴量が最も,同ジャンルのテ
キストを近いベクトル(特徴量)に写像することが出来ている.
他の手法と比較した場合も分類,推薦に適した特徴量を抽出出来ている