Programming Collective Intelligence 100111

集合知プログラミング Programming Collective Intelligence (Ch.2 推薦を行う) 2010/01/11 id:shiumachi

Agenda 2.1 協調フィルタリング

2.3 似ているユーザを探し出す

2.4 アイテムを推薦する

2.6 del.icio.us のリンクを推薦するシステムを作る

2.7 アイテムベースのフィルタリング

2.8 MovieLens のデータセットを使う

2.9 ユーザベース VS アイテムベース

2.1 協調フィルタリング

協調フィルタリングとは？ “協調フィルタリング（Collaborative Filtering, CF）は、多くのユーザの嗜好情報を蓄積し、あるユーザと嗜好の類似した他のユーザの情報を用いて自動的に推論を行う方法論である” (wikipedia より)

1992年、Xerox PARC の David Goldberg の論文で初めて使われた用語

協調フィルタリングの例 3 人とも好き自分と趣味が似てる似てる二人が好き ↓ じゃあ自分も気に入るかも！

基本はデータデータがないと話にならない

必要なデータは次の3つユーザ

スコアスコアは Y/N を 1/0 に変換するなどしてもいい。(ソーシャルブックマークなどではこの手法を使う)

スコアの分類スコアがたくさん出てくるから混乱しないよう注意

アイテムのスコア前述のスコア類似性スコアユーザ間、アイテム間の類似性を表す指標推薦スコア(shiumachiの造語) 推薦対象のユーザに対してどれだけ強く推薦するかを表す指標

類似性スコアの算出方法協調フィルタリングのキモだが、方法はたくさんある http://ja.wikipedia.org/wiki/距離空間　を参照のこと

テキストで取り上げているのは以下の2つユークリッド距離

ピアソン相関ここでいいスコアが出たユーザの嗜好を推薦するのがレコメンデーションの第一歩となる

ユークリッド距離ごく普通の距離。

ユーザ間の、アイテムごとのスコアの差の2乗の和の平方根。

データが正規化されていないと正しい類似性が得にくい。

ピアソン相関係数ユーザ間のスコアをそれぞれ x,y とおき、標準偏差をσ(x), 共分散を V(x,y) とすると、ピアソン相関係数は V(x,y)/σ(x)σ(y) となる。

More Related Content