2010年12月17日
マイニング探検会#09
@東京大学アントレプレナープラザ会議室




    情報レコメンデーションとは

       東京大学情報基盤センター
      学術情報研究部門 特任講師/
     株式会社リッテル 最高技術責任者
           清田 陽司
                        1
情報レコメンデーションとは?
• 情報フィルタリングの一種
 – 情報オーバーロード問題
 – Passive filtering と active filteringがある
    • Passive filtering: ニュース配信、スパムフィルタなど
    • Active filtering: 情報レコメンデーション
• ユーザが興味を持ちそうな情報アイテムを提
  示
 – Webページ、書籍、音楽、映画、ニュース、…

                                             2
情報レコメンデーションのタイプ(狭義)
G. Adomavicius (2005)
• 内容型 (Content-based approaches)
   過去にアクセスした(好きな)アイテムに似たアイ
   テムが推薦される
• 協調型 (Collaborative approaches)
   似た嗜好を持った人たちが過去にアクセスした
   (好きな)アイテムが推薦される
• 複合型 (Hybrid approaches)
   content-basedとcollaborativeの複合型

                                     3
情報レコメンデーションのタイプ(広義)
R. Burke (2002)
• 協調フィルタリング (Collaborative filtering, CF)
• 内容ベース (Content-based)
• デモグラフィック (Demographic)
    デモグラフィック属性(性別、年齢、職業など)の利用
• 有用性ベース (Utility-based)
    利用者にとっての有用性(信頼性、多機能、…)を表す
    ユーティリティ関数を定義
• 知識ベース (Knowledge-based)
    あらかじめ定義した知識ベースによる推論
    cf. Overture, Google AdWords
                                            4
内容ベース手法
    (Content-based approaches)
顧客: c, 推薦の候補となるアイテム: s
アイテムsの顧客cに対する有用性:u(c, s)
u(c, s) は、アイテムsに「似た」アイテムの集合S に
  属する要素(si∈ S )の顧客c への有用性u(c, si)
  によって推定する




                                 5
Aさん
              3回見た
              +買った




               4回見た



?              1回見た




      Aさんが見た本のうち
      「似た」内容のもの       6
内容ベース手法の欠点
• 内容解析の限界 (Limited content analysis)
  – 画像、音声、動画などの解析は難しい
• 過剰な最適化 (Overspecialization)
  – ギリシャ料理を食べたことがない人にギリシャ料理を
    推薦することはできない
  – すでに知っているニュースを推薦してしまう
  – Woody Allenの映画を全て見たことがある人に推薦し
    ても意味がない
• 新規ユーザ問題 (New user problem)
  – 初めてアクセスした人には適切な推薦ができない

                                       7
協調フィルタリング
    (Collaborative approaches)
顧客: c, 推薦の候補となるアイテム: s
アイテムsの顧客cに対する有用性:u(c, s)
u(c, s)は、顧客cと「似た」顧客の集合C に属する
  要素cj ∈ C に対するアイテムsの有用性
  u(cj, s) によって推定する




                                 8
Aさん




             Bさん          Cさん   Dさん

?
      4回見た
                   2回見た
                   +買った




                                      9
Collaborative approachesの欠点
• 新規ユーザ問題 (New user problem)
• 新規登録アイテム問題 (New item problem)
 – 発売されたばかりの商品は推薦できない
• データスパースネス問題 (Sparsity)
 – かなりの量の履歴データが必要




                                  10
複合型
     (Hybrid approaches)
• 内容ベース手法で得られる結果と協調フィル
  タリング手法で得られる結果をマージする
• 内容ベース手法で得られる特徴量を協調フィ
  ルタリングモデルに加える
• 協調フィルタリング手法で得られる特徴量を
  内容ベースモデルに加える
• 別のモデルへのマッピング


                           11
手法         前提             入力            出力
Collaborat 各々のユーザ(U)から    対象ユーザ(u)から    uに類似したユーザをU/I行列か
ive        各々のアイテム(I)への   各々のアイテム(I)へ   ら計算し、各々のお薦めアイテ
filtering  評価 (U/I の行列)   の評価(ベクトル)     ム(i)の評価を外挿的に推定
(CF)
Content-   各々のアイテム(I)の特   対象ユーザ(u)から    各々のアイテム(I)の特徴ベクト
based      徴ベクトル          各々のアイテム(I)へ   ルを入力、評価を出力とする学
(CN)                      の評価           習器を作っておき、お勧めアイ
                                        テム(i)に適用
Demogra 各々のユーザ(U)のデモ      対象ユーザ(u)のデ    uと属性的に類似したユーザ集
phic (DM) グラフィック属性と各々     モグラフィック情報     合を求め、各々のお薦めアイテ
           のアイテム(I)への評価                 ム(i)の評価を外挿的に推定
Utility-   各々のアイテム(I)の特   対象ユーザ(u)の嗜    ユーティリティ関数を各々のお
based      徴ベクトル          好を反映するユー      薦めアイテム(i)に適用する
(UT)                      ティリティ関数

Knowledg   各々のアイテム(I)の特   対象ユーザ(u)の     お勧めアイテム(i)とuの間の
e-based    徴ベクトル          ニーズ           マッチングを推定する
(KB)       ユーザのニーズと個々
           のアイテムの関係につ
           いての知識                                          12
各手法の利点・欠点
                                    Collabor    Content   Demogr   Utility-   Knowle
                                    ative       -based    aphic    based      dge-
                                    filtering                                 based
利   A: ジャンルにまたがるレコメンド                   x                   x
点
    B: ドメイン知識が不要                        x          x        x
    C: 時間の経過につれて品質が向上                   x          x        x
    D: 潜在的フィードバックが有効にはたらく               x          x
    E: 準備期間が不要                                                         x        x
    F: 嗜好の変化に追随できる                                                     x        x
    G: 商品以外の属性を利用できる                                                   x        x
    H: ユーザーニーズから製品へのマッピング                                                       x

欠   I: 新規ユーザへの即時対応ができない                 x          x        x
点
    J:新規アイテムへの即時対応ができない                 x
    K: 小さなユーザ集合への適切なレコメンデーションが難しい       x                   x
    L: 品質が履歴データ量に依存                     x          x        x
    M: 安定性と柔軟性のトレードオフ                   x          x        x
    N: デモグラフィック属性の収集が必要                                     x
    O: ユーザーのユーティリティ情報入力が必要                                             x
    P: 履歴データからの学習が不可                                                   x        x
    Q: 知識データの調整作業が必要                                                            x 13
情報レコメンデーションの
           研究コミュニティ
• ACM Recommender Systems (RecSys)
   – 2007年より開催、今年で4回目
      • http://recsys.acm.org/2010/
   – 勉強会@兵庫県立大 (12/12開催)
      • http://qwik.jp/recsys-study/recsys2010.html
• Netflix Prize
   – オンラインDVDレンタル会社Netflixによるアルゴリズ
     ム開発コンテスト (2006年~)
   – プライバシー問題により2010年に中止
      • http://www.nytimes.com/2010/03/13/technology/13netflix.
        html?_r=1

                                                              14
情報レコメンデーションの意味
• ユーザに対する「気づきの提供」?それとも
  「おせっかい」?
 – 「押しつけがましい」と感じることも確かにある
 – ユーザの状況によるのでは?
• ユーザの状況をどうモデル化するか?
 – 検索の「場所」「方法」が明確か曖昧か
 – 検索の「目的」が明確か曖昧か




                            15
さ                               わき目もふらず、
が    とりあえず入手できる情報を
す    何かにそって順に見て回る               一直線に探す
場
所
や                              既知情報検索
方       巡回/捜索
法                               /再入手
が   •ブログ
明                         •サーチエンジン     •FAQ
確   •まとめサイト               •索引          •パーソナライズ
    •クラスタリング              •ソーシャルブックマーク

さ
が    ブラブラとながめながら探す         どこからどうやって探せばよいか
す                        わからないので、試行錯誤しながら探す
場
所
や
方          散策                    探求探索
法
が   •ポータルサイト               •サーチエンジン
曖   •掲示板                   •Q&Aコミュニティ(人力検索)
昧                          •リファレンス

        さがす目的が曖昧                さがす目的が明確
                                              16
        吉川日出行: サーチ アーキテクチャ 「さがす」の情報科学 p. 52を参考に作成
さ                               わき目もふらず、
が    とりあえず入手できる情報を
す    何かにそって順に見て回る               一直線に探す
場
所
や      探し方やサイトの                既知情報検索
方       巡回/捜索
法
       レコメンデーション                /再入手
         が有効?
が   •ブログ
明                         •サーチエンジン     •FAQ
確   •まとめサイト               •索引          •パーソナライズ
    •クラスタリング              •ソーシャルブックマーク

さ
が    ブラブラとながめながら探す         どこからどうやって探せばよいか
す                        わからないので、試行錯誤しながら探す
場                                 この状況の人たち
所
や                                 にとっては単なる
方         散策
          アルゴリズムによる              探求探索
                                   おせっかい?
法         潜在的な興味の引
が          き出しが有効?
    •ポータルサイト               •サーチエンジン
曖   •掲示板                   •Q&Aコミュニティ(人力検索)
昧                          •リファレンス

        さがす目的が曖昧                さがす目的が明確
                                              17
        吉川日出行: サーチ アーキテクチャ 「さがす」の情報科学 p. 52を参考に作成
さがす目的の階層

          用品の買い物先を   塩野七生の       具体的な
ホテルを探す
          見つける       本を探す        行動?


現地での行動を   バーベキューに    古代ローマに
                                  テーマ
決める       必要なものを探す   ついて調べる



 旅行先を     自宅で楽しめる    面白そうな        ドメイン
 探す       レジャーを探す    分野を探す        分野


    週末に家族で              未知の分野の    動機
    一緒に過ごす              知識を深める

                                  18
推定に使えそうな手掛かり
• クエリーワードによる推定
 – 既知情報検索: 定期的流行ワード (母の日、クリスマス、…)
 – 探求探索: HowTo的クエリー (~方法)、クエリーの頻繁な入
   れ替え
 – 巡回: サイト指定クエリー(SMAP wiki)、サイト名
 – 散策: 瞬間的流行ワード (海老蔵)、「2ch」「ニコニコ動画」
   「YouTube」
• サイト内行動による推定
 –   既知情報検索: サーチエンジンからの直行
 –   探求探索: サーチエンジンで何ページも根気よく閲覧
 –   巡回: 毎日・毎週決まった時間に訪問/RSSなどから訪問
 –   散策: 掲示板などの頻繁なリロード
                                    19

マイニング探検会#09 情報レコメンデーションとは

  • 1.
    2010年12月17日 マイニング探検会#09 @東京大学アントレプレナープラザ会議室 情報レコメンデーションとは 東京大学情報基盤センター 学術情報研究部門 特任講師/ 株式会社リッテル 最高技術責任者 清田 陽司 1
  • 2.
    情報レコメンデーションとは? • 情報フィルタリングの一種 –情報オーバーロード問題 – Passive filtering と active filteringがある • Passive filtering: ニュース配信、スパムフィルタなど • Active filtering: 情報レコメンデーション • ユーザが興味を持ちそうな情報アイテムを提 示 – Webページ、書籍、音楽、映画、ニュース、… 2
  • 3.
    情報レコメンデーションのタイプ(狭義) G. Adomavicius (2005) •内容型 (Content-based approaches) 過去にアクセスした(好きな)アイテムに似たアイ テムが推薦される • 協調型 (Collaborative approaches) 似た嗜好を持った人たちが過去にアクセスした (好きな)アイテムが推薦される • 複合型 (Hybrid approaches) content-basedとcollaborativeの複合型 3
  • 4.
    情報レコメンデーションのタイプ(広義) R. Burke (2002) •協調フィルタリング (Collaborative filtering, CF) • 内容ベース (Content-based) • デモグラフィック (Demographic) デモグラフィック属性(性別、年齢、職業など)の利用 • 有用性ベース (Utility-based) 利用者にとっての有用性(信頼性、多機能、…)を表す ユーティリティ関数を定義 • 知識ベース (Knowledge-based) あらかじめ定義した知識ベースによる推論 cf. Overture, Google AdWords 4
  • 5.
    内容ベース手法 (Content-based approaches) 顧客: c, 推薦の候補となるアイテム: s アイテムsの顧客cに対する有用性:u(c, s) u(c, s) は、アイテムsに「似た」アイテムの集合S に 属する要素(si∈ S )の顧客c への有用性u(c, si) によって推定する 5
  • 6.
    Aさん 3回見た +買った 4回見た ? 1回見た Aさんが見た本のうち 「似た」内容のもの 6
  • 7.
    内容ベース手法の欠点 • 内容解析の限界 (Limitedcontent analysis) – 画像、音声、動画などの解析は難しい • 過剰な最適化 (Overspecialization) – ギリシャ料理を食べたことがない人にギリシャ料理を 推薦することはできない – すでに知っているニュースを推薦してしまう – Woody Allenの映画を全て見たことがある人に推薦し ても意味がない • 新規ユーザ問題 (New user problem) – 初めてアクセスした人には適切な推薦ができない 7
  • 8.
    協調フィルタリング (Collaborative approaches) 顧客: c, 推薦の候補となるアイテム: s アイテムsの顧客cに対する有用性:u(c, s) u(c, s)は、顧客cと「似た」顧客の集合C に属する 要素cj ∈ C に対するアイテムsの有用性 u(cj, s) によって推定する 8
  • 9.
    Aさん Bさん Cさん Dさん ? 4回見た 2回見た +買った 9
  • 10.
    Collaborative approachesの欠点 • 新規ユーザ問題(New user problem) • 新規登録アイテム問題 (New item problem) – 発売されたばかりの商品は推薦できない • データスパースネス問題 (Sparsity) – かなりの量の履歴データが必要 10
  • 11.
    複合型 (Hybrid approaches) • 内容ベース手法で得られる結果と協調フィル タリング手法で得られる結果をマージする • 内容ベース手法で得られる特徴量を協調フィ ルタリングモデルに加える • 協調フィルタリング手法で得られる特徴量を 内容ベースモデルに加える • 別のモデルへのマッピング 11
  • 12.
    手法 前提 入力 出力 Collaborat 各々のユーザ(U)から 対象ユーザ(u)から uに類似したユーザをU/I行列か ive 各々のアイテム(I)への 各々のアイテム(I)へ ら計算し、各々のお薦めアイテ filtering 評価 (U/I の行列) の評価(ベクトル) ム(i)の評価を外挿的に推定 (CF) Content- 各々のアイテム(I)の特 対象ユーザ(u)から 各々のアイテム(I)の特徴ベクト based 徴ベクトル 各々のアイテム(I)へ ルを入力、評価を出力とする学 (CN) の評価 習器を作っておき、お勧めアイ テム(i)に適用 Demogra 各々のユーザ(U)のデモ 対象ユーザ(u)のデ uと属性的に類似したユーザ集 phic (DM) グラフィック属性と各々 モグラフィック情報 合を求め、各々のお薦めアイテ のアイテム(I)への評価 ム(i)の評価を外挿的に推定 Utility- 各々のアイテム(I)の特 対象ユーザ(u)の嗜 ユーティリティ関数を各々のお based 徴ベクトル 好を反映するユー 薦めアイテム(i)に適用する (UT) ティリティ関数 Knowledg 各々のアイテム(I)の特 対象ユーザ(u)の お勧めアイテム(i)とuの間の e-based 徴ベクトル ニーズ マッチングを推定する (KB) ユーザのニーズと個々 のアイテムの関係につ いての知識 12
  • 13.
    各手法の利点・欠点 Collabor Content Demogr Utility- Knowle ative -based aphic based dge- filtering based 利 A: ジャンルにまたがるレコメンド x x 点 B: ドメイン知識が不要 x x x C: 時間の経過につれて品質が向上 x x x D: 潜在的フィードバックが有効にはたらく x x E: 準備期間が不要 x x F: 嗜好の変化に追随できる x x G: 商品以外の属性を利用できる x x H: ユーザーニーズから製品へのマッピング x 欠 I: 新規ユーザへの即時対応ができない x x x 点 J:新規アイテムへの即時対応ができない x K: 小さなユーザ集合への適切なレコメンデーションが難しい x x L: 品質が履歴データ量に依存 x x x M: 安定性と柔軟性のトレードオフ x x x N: デモグラフィック属性の収集が必要 x O: ユーザーのユーティリティ情報入力が必要 x P: 履歴データからの学習が不可 x x Q: 知識データの調整作業が必要 x 13
  • 14.
    情報レコメンデーションの 研究コミュニティ • ACM Recommender Systems (RecSys) – 2007年より開催、今年で4回目 • http://recsys.acm.org/2010/ – 勉強会@兵庫県立大 (12/12開催) • http://qwik.jp/recsys-study/recsys2010.html • Netflix Prize – オンラインDVDレンタル会社Netflixによるアルゴリズ ム開発コンテスト (2006年~) – プライバシー問題により2010年に中止 • http://www.nytimes.com/2010/03/13/technology/13netflix. html?_r=1 14
  • 15.
    情報レコメンデーションの意味 • ユーザに対する「気づきの提供」?それとも 「おせっかい」? – 「押しつけがましい」と感じることも確かにある – ユーザの状況によるのでは? • ユーザの状況をどうモデル化するか? – 検索の「場所」「方法」が明確か曖昧か – 検索の「目的」が明確か曖昧か 15
  • 16.
    わき目もふらず、 が とりあえず入手できる情報を す 何かにそって順に見て回る 一直線に探す 場 所 や 既知情報検索 方 巡回/捜索 法 /再入手 が •ブログ 明 •サーチエンジン •FAQ 確 •まとめサイト •索引 •パーソナライズ •クラスタリング •ソーシャルブックマーク さ が ブラブラとながめながら探す どこからどうやって探せばよいか す わからないので、試行錯誤しながら探す 場 所 や 方 散策 探求探索 法 が •ポータルサイト •サーチエンジン 曖 •掲示板 •Q&Aコミュニティ(人力検索) 昧 •リファレンス さがす目的が曖昧 さがす目的が明確 16 吉川日出行: サーチ アーキテクチャ 「さがす」の情報科学 p. 52を参考に作成
  • 17.
    わき目もふらず、 が とりあえず入手できる情報を す 何かにそって順に見て回る 一直線に探す 場 所 や 探し方やサイトの 既知情報検索 方 巡回/捜索 法 レコメンデーション /再入手 が有効? が •ブログ 明 •サーチエンジン •FAQ 確 •まとめサイト •索引 •パーソナライズ •クラスタリング •ソーシャルブックマーク さ が ブラブラとながめながら探す どこからどうやって探せばよいか す わからないので、試行錯誤しながら探す 場 この状況の人たち 所 や にとっては単なる 方 散策 アルゴリズムによる 探求探索 おせっかい? 法 潜在的な興味の引 が き出しが有効? •ポータルサイト •サーチエンジン 曖 •掲示板 •Q&Aコミュニティ(人力検索) 昧 •リファレンス さがす目的が曖昧 さがす目的が明確 17 吉川日出行: サーチ アーキテクチャ 「さがす」の情報科学 p. 52を参考に作成
  • 18.
    さがす目的の階層 用品の買い物先を 塩野七生の 具体的な ホテルを探す 見つける 本を探す 行動? 現地での行動を バーベキューに 古代ローマに テーマ 決める 必要なものを探す ついて調べる 旅行先を 自宅で楽しめる 面白そうな ドメイン 探す レジャーを探す 分野を探す 分野 週末に家族で 未知の分野の 動機 一緒に過ごす 知識を深める 18
  • 19.
    推定に使えそうな手掛かり • クエリーワードによる推定 –既知情報検索: 定期的流行ワード (母の日、クリスマス、…) – 探求探索: HowTo的クエリー (~方法)、クエリーの頻繁な入 れ替え – 巡回: サイト指定クエリー(SMAP wiki)、サイト名 – 散策: 瞬間的流行ワード (海老蔵)、「2ch」「ニコニコ動画」 「YouTube」 • サイト内行動による推定 – 既知情報検索: サーチエンジンからの直行 – 探求探索: サーチエンジンで何ページも根気よく閲覧 – 巡回: 毎日・毎週決まった時間に訪問/RSSなどから訪問 – 散策: 掲示板などの頻繁なリロード 19