Successfully reported this slideshow.

ユーザーサイド情報検索システム

1

Share

Upcoming SlideShare
最適輸送入門
最適輸送入門
Loading in …3
×
1 of 28
1 of 28

ユーザーサイド情報検索システム

1

Share

Download to read offline

第6回 統計・機械学習若手シンポジウムの公演で使用したユーザーサイド情報検索システムについてのスライドです。
https://sites.google.com/view/statsmlsymposium21/

Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without Log Data? (SDM 2022) https://arxiv.org/abs/2105.12353
Retrieving Black-box Optimal Images from External Databases (WSDM 2022) https://arxiv.org/abs/2112.14921

第6回 統計・機械学習若手シンポジウムの公演で使用したユーザーサイド情報検索システムについてのスライドです。
https://sites.google.com/view/statsmlsymposium21/

Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without Log Data? (SDM 2022) https://arxiv.org/abs/2105.12353
Retrieving Black-box Optimal Images from External Databases (WSDM 2022) https://arxiv.org/abs/2112.14921

More Related Content

Related Books

Free with a 14 day trial from Scribd

See all

ユーザーサイド情報検索システム

  1. 1. 1 KYOTO UNIVERSITY KYOTO UNIVERSITY ユーザーサイド情報検索システム 佐藤竜馬
  2. 2. 2 / 28 KYOTO UNIVERSITY 京大で最適輸送・GNN・推薦システムを研究しています 佐藤 竜馬(さとう りょうま) 京都大学 鹿島・山田研究室 博士一年 研究分野: グラフニューラルネットワーク  Approximation Ratios of Graph Neural Networks for Combinatorial Problems. NeurIPS 2019.  Random Features Strengthen Graph Neural Networks. SDM 2021.  Constant Time Graph Neural Networks. TKDD 2022. 最適輸送(宣伝: 機械学習プロフェッショナルシリーズより本が出ます)  Fast Unbalanced Optimal Transport on a Tree. NeurIPS 2020.  Supervised Tree-Wasserstein Distance. ICML 2021. (共著)  Fixed Support Tree-Sliced Wasserstein Barycenter. AISTATS 2022.(共著) 推薦システム・情報検索システム(本日のテーマ)  Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without Log Data? SDM 2022.  Retrieving Black-box Optimal Images from External Databases. WSDM 2022.  Enumerating Fair Packages for Group Recommendations. WSDM 2022.  講演者近影
  3. 3. 3 KYOTO UNIVERSITY 推薦・検索システムに不満を持ったことはないですか  IMDb 「トイ・ストーリー」への推薦。  推薦されるまでもなく知ってる情報。  アメリカ映画・ディズニー映画ばかりだけど、 トイ・ストーリーに似た邦画も知りたい。  たった数件しか推薦がない。 もっと長い推薦リストが欲しい。  「社長」の Google 画像検索結果。  男性の画像しか出てこない。 https://www.google.com/search?q=%E7%A4%BE%E9%95%B7&tbm=isch https://www.imdb.com/title/tt0114709/  flickr の検索フォーム。  テキスト検索しかできないけど、 類似画像検索もしたい。 https://www.flickr.com/
  4. 4. 4 KYOTO UNIVERSITY 推薦システムに不満を持ったとき、どうする? 解決策? Twitter の推薦システムに不満 じゃあ、Twitter 使うのやめれば? Twitter は使い続けたいんだよな じゃあ、運営にリクエスト送って実装されるの待てば? 望み薄だしそんなに長い間待ちたくない
  5. 5. 5 KYOTO UNIVERSITY 推薦システムに不満を持ったとき、どうする? 解決策 Twitter の推薦システムに不満 じゃあ、Twitter 使うのやめれば? Twitter は使い続けたいんだよな じゃあ、運営にリクエスト送って実装されるの待てば? 望み薄だしそんなに長い間待ちたくない そこで、ユーザーサイド推薦システムです
  6. 6. 6 KYOTO UNIVERSITY ユーザーサイドシステムはユーザーが実装するシステム  ユーザーサイドの推薦・検索システムは、ユーザーの側で 実現する推薦システム・検索システムのこと  サービス運営側のエンジニアが実装する通常のシステムと対照的  操作可能な推薦システムというのもあるが、これも根本的に異なる  操作可能な推薦システムも結局はサービス運営側が実装するので 実装されるまでユーザーは待つ必要がある。  操作可能な推薦システムでは、 興味のない推薦を除去できる 攻めの姿勢 受け身の姿勢 提案法
  7. 7. 7 KYOTO UNIVERSITY ユーザーサイドシステムではデータベースにアクセスできない  従来の検索システム Twitter 社のエンジニアがデータベースに 完全にアクセスできる状態で実装する  ユーザーサイドの検索システム 外部のユーザーがデータベースに直接アクセスできない状態でやりくりして実装する 実装上はブラウザアドオンなどで実現することを想定 Twitter 社 データベース 社内エンジニア 検索システム SQL ANN Twitter 社 データベース ユーザー SQL 検索クエリ API
  8. 8. 8 KYOTO UNIVERSITY ユーザーサイドシステムは細かい要請に対応できる  ユーザーサイドの推薦・検索システムの利点 細かい要請に対応ができる 公平性の基準はユーザーによってさまざま。 検索結果の男女比を 50:50 にしてほしいユーザーもいれば、 Demographic parity が満たされほしいユーザーもいる。 男女ではなく、人種、あるいは有名度のバランスが取れてほしい人もいる。 運営側で全ての細かい基準に対処するのは不可能。 ユーザーサイドの検索システムでは、各人がシステムをつくるので、 独自の基準に合わせることができる。 透明性 推薦結果はしばしばブラックボックス。 自分が推薦システムを構築すれば、理由の解明もしやすい。
  9. 9. 9 KYOTO UNIVERSITY ユーザーサイドシステムは効率は悪い  ユーザーサイドの推薦・検索システムの欠点 効率は悪い 運営側がオフィシャルに実装してくれるに越したことはない どうしても機能が欲しいときの手段 ユーザーにプログラミングの知識や労力が必要 多くのユーザーはプログラミングができない 対処策: - 趣味エンジニアが構築してアドオンとして配布し、同志ユーザーが利用する - 使いやすいライブラリの構築 - ノーコード - プログラミング教育
  10. 10. 10 KYOTO UNIVERSITY 今回は二つのユーザーサイドシステムを紹介する  具体的なユーザーサイドの推薦・検索システムを二つ紹介 1. Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without Log Data? (SDM 2022)  アイテムからアイテムへの推薦(「トイ・ストーリー」へのおすすめの映画)において、 ユーザーサイドの推薦システムを構築方法を提案  ユーザーサイドの推薦システムをプライベート推薦システムと命名  ユーザーサイドシステムをはじめてやった研究 2. Retrieving Black-box Optimal Images from External Databases (WSDM 2022)  画像共有サービスのユーザーが独自の画像検索システム(類似画像検索・自分の 好みに沿った画像検索)を構築する方法を提案
  11. 11. 11 KYOTO UNIVERSITY Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without Log Data? (SDM 2022)
  12. 12. 12 KYOTO UNIVERSITY アイテム-アイテム推薦を考える  問題設定: アイテム to アイテムの推薦を考える 映画の推薦 @IMDb アイテム: 映画 トイ・ストーリーを見ている人は こちらも見ています ユーザーの推薦 @Twitter アイテム: ユーザー 広瀬すずをフォローしている人は こちらもフォローしています 商品の推薦 @Amazon アイテム: 商品 解析概論を買った人は こちらも買っています https://www.imdb.com/title/tt0114709/ https://twitter.com/Suzu_Mg https://www.amazon.co.jp/dp/4000052098
  13. 13. 13 KYOTO UNIVERSITY センシティブ属性が均等に推薦してほしいとする  各アイテムにはセンシティブ属性(離散値)が定まっており、 アイテムのセンシティブ属性は観測できるとする 各センシティブ属性のアイテムが平等に推薦に登場してほしいとする どういうセンシティブ属性を使うかは、まさに各ユーザーの裁量 映画: センシティブ属性 = 国 ユーザー: センシティブ属性 = 性別 https://twitter.com/Suzu_Mg https://twitter.com/sudaofficial https://www.imdb.com/title/tt0114709/ https://www.imdb.com/title/tt0245429/ センシティブ属性 = 人気度 ∈ {高, 中, 低} (フォロワー数を基に分類)なども考えられる
  14. 14. 14 KYOTO UNIVERSITY データが利用できない状況で推薦システムを作る  他のユーザーの購買・アクセス・フォロー履歴は観測できないとする 一介のユーザーは市場データを持っていない ログを保存しているデータベース・サーバーにもアクセスできない  各アイテムの特徴量も利用できない(しない)とする 特徴ベクトルが保存されているデータベースにはアクセスできない ページ内の記述やパブリックデータから引っ張ってこれるかも しれないが、大変であるので、今回は利用しない方針で考える  軸となるデータが利用できない困難な状況でいかに推薦システムを 作るか
  15. 15. 15 KYOTO UNIVERSITY 推薦グラフを使ってプライベート推薦システムを作る  アイデア: 推薦グラフを使う  推薦グラフ: アイテムがノード・推薦関係にあるアイテムに辺 ページにアクセスして推薦欄を見ると一介のユーザーも観測できる  推薦グラフで近いアイテムは共起性が高いと考えられる  Point 運営が推薦結果を生成 した元の共起データには アクセスできないが、 結果だけからも多くの 情報を引き出すことができる
  16. 16. 16 KYOTO UNIVERSITY 提案法は推薦グラフ上で類似度高い順に推薦  提案法1: PrivateRank 推薦を生成したいソースアイテムに対して 推薦グラフの他ノードの personalized PageRank (PPR, グラフノードの近接性の指標) を計算 アイテムを PPR の順にソートし、各センシティブ属性が均等に 含まれるように上から取っていく  提案法2: PrivateWalk 推薦を生成したいソースアイテムから推薦グラフ上で ランダムウォークを実行し、各センシティブ属性が均等に 含まれるように訪れた順にアイテムを追加していく パフォーマンス高 計算効率低 パフォーマンス低 計算効率高
  17. 17. 17 KYOTO UNIVERSITY 実験により提案法の効果を確認  実験:  Adult, MovieLens, Amazon, LastFM データセットなどで 定量的に効果を確認  IMDb と Twitter 上で実際に PrivateWalk を動かした ケーススタディ(下表) 実際の IMDb 推薦 PrivateWalk トイ・ストーリー3(米) トイ・ストーリー3(米) トイ・ストーリー2(米) リメンバーミー(米) ファインディングニモ(米) ミスターインクレディブル(米) モンスターズインク(米) 千と千尋の神隠し(日) カールじいさんの空飛ぶ家(米) 天空の城ラピュタ(日) ウォーリー(米) ハウルの動く城(日) 実際の Twitter 推薦 PrivateWalk ジム・キャリー(男) ジム・キャリー(男) ヒュー・ジャックマン(男) サラ・シルヴァーマン(女) サミュエル・ジャクソン(男) ヒュー・ジャックマン(男) ドゥウェイン・ジョンソン(男) サミュエル・ジャクソン(男) セス・マクファーレン(男) エマ・ワトソン(女) サラ・シルヴァーマン(女) アリッサ・ミラノ(女) IMDb 上でトイ・ストーリーに対する推薦 日米映画が同数になるよう変換 Twitter 上でトム・ハンクスに対する推薦 男女が同数になるよう変換
  18. 18. 18 KYOTO UNIVERSITY Retrieving Black-box Optimal Images from External Databases (WSDM 2022)
  19. 19. 19 KYOTO UNIVERSITY 画像共有サービスでユーザーサイドの画像検索  問題設定: 画像共有サービスから所望の画像を取得したい  flickr の検索フォーム。  テキスト検索しかできないけど、 類似画像検索もしたい。 https://www.flickr.com/  「社長」の Google 画像検索結果。  男性の画像しか出てこない。 男女の画像が平等に評価される スコア関数を検索に用いたい。 https://www.google.com/search?q=%E7%A4%BE%E9%95%B7&tbm=isch
  20. 20. 20 KYOTO UNIVERSITY スコア関数が手元にあり、これを最大にする画像を得たい  画像を受け取るとスコア(スカラー値)を返す関数があるとする  これを最大にする画像を Flickr の全画像の中から探したい  例えば、 画像 X の類似画像を探したい場合、スコア関数 f は と定義できる  例えば、自分の感性にあった画像を探したい場合、 スコア関数はローカルに保存されているお気に入り画像フォルダ で訓練して得る。 0.882 f(Y) = cos(PretrainedResNet(Y), PretrainedResNet(X)) 公平性がほしければ この準備段階で公平な スコア関数を用意する
  21. 21. 21 KYOTO UNIVERSITY ナイーブな手法は効率が悪く実行できない  ごくナイーブな手法は Flickr から画像を大量にクローリング してきて、一つ一つ f を評価し、最もスコアの高かった手法を返す  しかし... 1. 通信コストが非常に高い 2. 計算コストが非常に高い 3. 大量アクセスにより API or アクセス 制限に引っかかる たとえば Flickr では 3600 クエリ / hour 制限あり  一介のユーザーは高コストのクローリングや関数評価を気軽にできない  通信コスト・計算コスト・API クエリ発行回数の観点で効率的な 手法が望ましい
  22. 22. 22 KYOTO UNIVERSITY 適応的に検索クエリを発行して良い画像を探す  アイデア1: 検索クエリ or 検索 API を利用する Flickr の場合は flickr.photos.search API など  アイデア2: がむしゃらに画像を取ってくるのではなく、 f(X) が高い画像がありそうな場所にアタリを付けつつ、 適応的に検索クエリを発行する (1) 検索クエリ発行 (2) 検索結果画像 X を観測 (3) f(X) を評価 (4) モデルを更新 検索クエリ (q = cat) 画像 ユーザー サーバー
  23. 23. 23 KYOTO UNIVERSITY 多腕バンディット問題として定式化する  検索クエリをアームとみなし、問題を多腕バンディット問題として 定式化する  既存テクニックを使うことで、探索・活用バランスをうまく取ることができる q = dog q = cat q = Persian cat q = goldfish 0.725 クエリ発行 reward ... スコア関数 f
  24. 24. 24 KYOTO UNIVERSITY アーム特徴を使うことで効率を上げる  問題点: アームの数(可能なクエリの種類)が多すぎる API レート制限のため, 各クエリを一度試すことすら不可能  解決策: 事前学習済みの汎用単語埋め込み (GloVe) を使って クエリの特徴量を構築 + アーム特徴つきバンディットを解く → 実際に API クエリを発行せずともある程度アタリを 付けられる 例えば、「猫」とクエリして、f(X) が非常に低ければ、 「猫」に似たクエリは無駄だと判断できる 代表的なクエリだけクエリして、有望な領域に絞っていく感じ
  25. 25. 25 KYOTO UNIVERSITY Flickr の実環境で有効性を確認した  実際の Flickr API を使って提案法 Tiara を検証:  200 クエリほどで良い画像を取得できた  Flickr には類似画像検索機能がないが、提案法により (Flickr 社員でない私が)Flickr 上に実装できた f(X) ≡ ImageNet モデルの ``Black Swan” クラスロジット f(X) ≡ PretrainedResNet cos(X, ) t = 10 t = 100 t = 200 t = 50 t = 300 t = 400 t = 500 類似画像検索
  26. 26. 26 KYOTO UNIVERSITY まとめ
  27. 27. 27 KYOTO UNIVERSITY まとめ  ユーザーサイドの推薦・検索システムというものを提案した  提供されている推薦・検索システムが望ましくない時にも、 ユーザー側が工夫することで望ましいシステムが利用できるようになる 推薦システム 検索システム この部分はユーザー自身が実装 結果を「フェア化」する ユーザーサイドアルゴリズム (ラッパー) 利用 ユーザー データベース 運営側のエンジニアが実装 ユーザーは自由に利用できる だけど機能に不満あり
  28. 28. 28 KYOTO UNIVERSITY 文献 Ryoma Sato. Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without Log Data? SDM 2022. arXiv: https://arxiv.org/abs/2105.12353 GitHub: https://github.com/joisino/private-recsys Ryoma Sato. Retrieving Black-box Optimal Images from External Databases. WSDM 2022. arXiv: https://arxiv.org/abs/2112.14921 GitHub: https://github.com/joisino/tiara

×