segawa m

イベント情報記事へのDeep Auto−Encoder利用
A Study on the Use of Deep Auto-Encoder to Event Information Articles
北海道大学大学院情報科学研究科複合情報学専攻
複雑系工学講座調和系工学研究室
修士2年瀬川晋作
2015年2月10日

2
発表概要
イベント情報記事へのDeep Auto-Encoder利用
目標：イベント記事の有効活用
手法：テキスト特徴量抽出
イベント情報サイトにおいて大量のイベント情報の中から関連性や，有用な知識を獲得しシステム改善に役立てる．
Deep Neural Network(DNN)を利用した手法について検討
ワードカウントベクトルから有用な情報を抽出する方法：TF-IDF, LSI, LDA
具体的改善：編集者の負担低減 → 情報の自動分類
イベント記事配信の情報推薦 → 大量のクリック履歴を必要としない内容ベース推薦
評価実験
②イベント情報分類①特徴量の評価 ④イベント情報推薦
得られた特徴量
をSVMで分類
分類精度約 80%
類似の記事が似
たベクトルに写
像されているこ
とを確認
• DNNの長所の１つである特徴量抽出の能力を利用した方法
• テキストの抽象的な意味を表すベクトルを抽出できる．
記事の被クリック件数が
少ない時に有効に働く情
報推薦を達成出来た．

3
背景(1/2)：イベント情報サイト「びもーる」
イベント情報サイト「びもーる」
閲覧履歴
イベント情報記事の配信イベント情報記事の収集・編集
ユーザ
編集者
Web
分析
配信への反映
クリック履歴を元にした配信（情報推薦）
ユーザ行動の収集
月の平均配信件数：1,500件
DB上の記事件数：約30,000件
ユーザ行動ログDB
イベント情報DB
• 地域のイベント開催時間，場所などの情報（イベント情報）の配信サイト．
• 株式会社調和技研が運営
ユニークユーザ
約10万人
編集作業
• フォーマットがバラバラの情報を目視
で確認し，「びもーる」のフォーマッ
トに整形
• ジャンルを付け情報を整理する．
• 重要な単語を見つけ，魅力のあるタイ
トルをつける．

4
背景(2/2)：イベント情報サイト「びもーる」の課題
閲覧履歴
イベント情報記事の配信
イベント情報記事の収集・編集
編集者
Web
分析
配信への反映
ユーザ行動の収集
月の平均配信件数：1,500件
DB上の記事件数：約30,000件
ユーザ行動ログDB
イベント情報DB
ユニークユーザ
約10万人
編集作業
• フォーマットがバラバラの情報を目
視で確認し，「びもーる」のフォー
マットに整形
• ジャンルを付け情報を整理する．
• 重要な単語を見つけ，魅力のあるタ
イトルをつける．
編集者間の能力や趣味の違いにより記事の質や作業量に差が生じる．
クリック履歴を元にした配信（情報推薦）
• イベント情報は配信期間が短期間の場合
が多くクリック数の収集が難しい．
目標：過去に収集されたイベント情報から有用な知見を獲得し改善を目指す．
情報の自動分類
内容ベース推薦

5
先行研究：テキスト特徴量の抽出
前処理
素性抽出
ワードカウント
単語-文書行列（Bag-of-Words)
term1, …
doc1: [0, 2, 1, …, 0, 1, 0],
…
doc2: [1, 1, 0, …, 1, 0, 3]
名称概要次元削減
TF-IDF
Bag-of-Wordsベクトルの各単語の出現度の重み付け方法，出現度が高い
単語と特定のテキストにのみ出現する単語の重要度を上げる．
Latent Samantic
Indexing(LSI)
単語-文書行列の行列分解による特徴量の抽出方法，行列の主成分分析と等
価．
⃝
Latent Dirichlet
Allocation(LDA)
文書集合の生成モデル．1つの単語に付き1つのトピック分布を持ち，文書
は各トピックの確率分布で表現される．
確率分布で表される
⃝
Semantic Hashing
Deep Auto-Encoderを用いたテキスト特徴量抽出方法，入力自身の出力
を学習するニューラルネットワークで特徴量を抽出する．
⃝
最近注目されているディープラーニングを用いた特徴量抽出手法，深層構造のニューラ
ルネットを用いることで，パターンや関連性をうまく抽出できる．
テキスト特徴量：大量のテキストから得られる傾向や関連性などの有用な情報

6
先行研究：Semantic Hashing [Salakhutdinov, Hinton, 2007]
• 深層ニューラルネットワーク(DNN)を用いた特徴量抽出方法
• Bag-of-Wordsで表現された高次元疎ベクトルをDNNによっ
て Semantic Address Space と呼ばれる低次元ベクトル
空間に写像する．
強み：DNNの強力な表現力
疎なベクトルを低次元の特徴量に次元圧縮できる．
（効率的な表現）
学習
概要
2ステップでの学習
① 層ごとの事前学習(Auto-Encoder)
- 入力を圧縮・再構築するようなネットワーク
による学習
② 全体をDeep Auto-Encoderとして学習
- 事前学習で得られた重みを展開
学習が十分に進むと，隠れ層では入力テキストベクトル
の圧縮された表現が得られる．
テキストの特徴量として利用
イベント記事の「場所」，「内容」，「日時」など
のイベント固有の特徴が表現された特徴量が得られると
期待している．

7
実験の流れ
②分類タスクへの応用
③情報推薦タスクへの応用
特徴量：
イベント記事の傾
向や関連性などを
表現するベクトル
• 編集者の負担軽減，作業能力を高める．
• 編集者による分類の揺れを低減する．
• イベント情報の内容に基づいた推薦（内
容ベース推薦）を実現
• クリック数が十分に得られない場合でも
適用可能．
Deep Neural Network
①特徴量の評価

8
実験設定
特徴量に対する評価分類タスクに対する評価推薦タスクに対する評価
⃝使用データ
• びもーる上の実イベント情報記事
• 2010年4月 2014年12月31日までに配信が終了した記事約3万
件
• ネットワークの訓練に過去から60%，テスト用に残り40%を使用
• 得られた特徴量をSupport Vector
Machine(SVM)を用いて分類
• 得られた特徴量を用いて内容ベー
ス推薦を構築
• 他手法との評価比較 • 他手法との評価比較
「びもーる」でのイベント情報分類
• 得られた特徴量の可視化
• k-近傍特徴量でのジャンル
合致精度
⃝ネットワーク構成
• [2000, 500, 500, 128]のネットワーク
の構築
（出力層の次元数は予備実験によって決定）
• 入力はテキストデータ内の頻出度上位
2000単語でのBag-of-Wordsのベクトル

9
①特徴量に対する評価：t-SNEによる特徴量の可視化
ジャンルが同じイベント情報が近くにプロットされた．
情報分類や，内容ベース推薦に適している特徴量と考えられる．

10
①特徴量に対する評価：k-近傍特徴量のジャンル合致精度
1.１つのテキストの特徴量をクエリ
として，テストデータ内のすべて
のテキスト特徴量とのコサイン類
似度を計算，k-近傍のテキストを
得る．
2.得られた近傍テキストがクエリと
同ジャンルであれば正解，なけれ
ば不正解として精度 = 正解数 /
近傍数(k)を計算
3.上記の操作をテストデータ内のす
べてのテキストをクエリとして行
い，全体の精度の平均を算出して
評価値とする． Deep Auto-Encoder(DAE)で作られた特徴量が最も，同ジャンルのテ
キストを近いベクトル（特徴量）に写像することが出来ている．
他の手法と比較しても情報分類や，情報推薦に適していると考えられる．

11
②分類タスクにおける評価
SVMを用いて，①Deep Auto-Encoder，②LSI (単語-文書行列の主成
分分析)で抽出された特徴量をそれぞれ，学習，テストを行った．
DAEで得られた特徴量は類似度計算での精度では優位だったが，SVMを用
いての分類では，LSIの方が分類精度が高くなった．
SVMでの分類ではLSIで得られた特徴量の方が適していたと考えられる．
⃝結果
その他は複数のジャン
ルにまたがるようなイ
ベント情報が含まれい
る．DNNが持つ汎化能
力が，そのような分類
しづらい記事をできる
だけ似ているジャンル
に近いベクトルに写像
したと考えられる．

12
③推薦タスクにおける評価(1/2)
手法分類特徴
ジャンル推薦内容ベース型推薦
対象ユーザが過去に選択したサ
ービスのジャンルに基づき推薦
人気推薦非個人化推薦
サービスを過去に選択したユー
ザの数に基づき推薦
ユーザベースCF推薦協調型推薦
ユーザ間の過去に選択したサー
ビスの類似度に基づき推薦
アイテムベースCF推薦協調型推薦
サービス間の過去に選択された
ユーザの類似度に基づき推薦
特徴量類似度推薦内容ベース型推薦
ユーザが過去に選択したテキス
トの特徴量に基づき推薦

推薦手法の評価
データセットの分割方法比較する手法
[小野ら，2014]
[小野ら，2014]
特徴量類似度による推薦スコアリング
r(ui, ej) =
(
1
0
U = {u1, u2, · · · , un|n 2 IN}
E = {e1, e2, · · · , em|m 2 IN}
score(ui, ej) = max
ek2E
(r(ui, ek) ⇥ cos sim(ek, ej))
：ユーザ集合
：イベント集合
: uiがeｊをクリックした場合

:そうでない場合
ここで cos sim(ek, ej) =
vek · vej
||vek||||vej||
vek, vejはek，ejのDAEで得られた特徴量
ここで
閲覧済み情報が上位に来るほど良い推薦として評価

13
②推薦タスクにおける評価(2/2)
被クリック数 - 推薦評価値
記事の被クリッ
ク数が少ない時
に有効に働く情
報推薦を達成で
きた．
同じ内容ベース推薦である，ジャンル推薦よりも評価値がよくなった．
ジャンル推薦と比べ，ユーザのクリックした記事と類似のイベント情報を推薦できたためと考えられる．

14
まとめ
目標：イベント記事の活用
イベント情報サイトにおいて大量のイベント情報の中から関連性や，有用な知識を獲得しシステム改善に役立てる．
具体的改善：編集者の負担低減 → 情報の自動分類
情報推薦 → クリック履歴を必要としない内容ベース推薦
評価実験
②イベント情報分類
①特徴量の評価
③イベント情報推薦
得られた特徴量をSVMで分類
分類精度約 80%類似の記事が似
たベクトルに写
像されているこ
とを確認
手法：テキスト特徴量抽出
Deep Neural Network(DNN)を利用した手法について検討
ワードカウントベクトルから有用な情報を抽出する方法：TF-IDF, LSI, LDA
• DNNの長所の１つである特徴量抽出の能力を利用した方法
• テキストの抽象的な意味を表すベクトルを抽出できる．
記事の被クリック件数が
少ない時に有効に働く情
報推薦を達成出来た．
SVMを利用した分類では他手法に劣ったが，DNNの汎化能力により類似記事を
近いベクトルに写像できる手法であるため内容ベースの情報推薦には有効に働く．

16
補足：Deep Auto-Encoderの利用に際しての問題
- 計算コストと表現力のトレードオフ
出力次元数増計算コスト増，表現力高
出力次元数減計算コスト減，表現力低
- 隠れ層が大きすぎる（ex: 入力次元以上）と特徴量の効果的な学習はできない．
- 入力次元のサイズやデータの傾向によって適切な出力次元は異なると考えられる．(データ固有の問題)

問題：適切な出力次元数の設定
出力次元数を変えて以下の２つを評価
- 最近傍特徴量のジャンル合致精度
次元数：16, 32, 64, 128, 256, 512

17
予備実験(3/3): k-近傍特徴量のジャンル合致精度
1. １つのテキストの特徴量をクエリとし
て，テストデータ内のすべてのテキス
ト特徴量とのコサイン類似度を計算，k-
近傍のテキストを得る．
2. 得られた近傍テキストがクエリと同ジャ
ンルであれば正解，なければ不正解と
して精度 = 正解数 / 近傍数(k)を計算
3. 上記の操作をテストデータ内のすべて
のテキストをクエリとして行い，全体
の精度の平均を算出して評価値とする．
得られた特徴量の意味的（ジャンル）な類似性を評価
Deep Auto-Encoder(DAE)で作られた特徴量が最も，同ジャンルのテ
キストを近いベクトル（特徴量）に写像することが出来ている．
他の手法と比較した場合も分類，推薦に適した特徴量を抽出出来ている

18
補足：適切な出力次元の設定
最近傍検索でのジャンル合致精度
出力次元は，ジャンル合致精度の精度と以降
の処理の計算コストの兼ね合いから128次元
と決定した．
• テストデータセット内の1つのテキスト特徴量をクエリとして最近傍テ
キストを検索
• 2つのテキスト間でジャンルが合っていれば間違っていれば正解
• 全データで上記の処理を行い，精度 = 正解数 / テストデータ数を算出
出力次元数を変化させると最近傍のジャンル合致精
度が高まるが，出力された特徴量を用いた処理の計
算コストが高くなってしまう．
最近傍でのジャンル合致精度が高いほど，似てい
るイベント情報が近いベクトルに写像していると
考えられ，分類や推薦に適した特徴量抽出である
といえる．

19
補足：テキスト内の語数の分布

20
補足：上位頻出単語，テキストカバー率

segawa m

Recommended

Recommended

More Related Content

Similar to segawa m

Similar to segawa m (20)

More from harmonylab

More from harmonylab (20)

segawa m