MMDs 6.3-6.5
- 2. 前回の復習
•
アイテム : 商品,単語, …
•
バスケット
アイテムの集合 : カートの中身, Webページ, …
•
support
バスケットの集合とアイテムの集合 I = {I1,I2,…} が与えら
れたときにIを含むバスケットの数
•
やりたいこと:あるしきい値以上のsupportを持つアイテム
集合を見つける
- 5. 6.3 Handling Larger
Datasets in Main Memory
•
メインメモリが十分でないとA-Prioriアルゴリズム
は使えない (特にペアの数を数えるのが問題)
→ PCY アルゴリズム
Multistage アルゴリズム
Multihash アルゴリズム
- 11. PCY アルゴリズムは有用か?
Example 6.9
1GB = 10^9B : ハッシュテーブル用に使える領域
一つのハッシュのバケットの大きさ : 4B
10個のアイテムを含む10億のバスケットがある
全ペアの数: 10^9 * 10C2 = 4.5*10^10
バケットの平均カウント数 = (4.5*10^10)/(2.5*10^8) = 180
しきい値が180よりも大きければ(1000とか)意味がで
てくる
•
- 25. Toivonen s アルゴリズム
•
Example 6.11:
アイテム: {A,B,C,D,E}
頻出アイテムセット: {A},{B},{C},{D},{B,C},{C,D}
•
まず,{E}はnegative border ({E}のサブセットφは
頻出)
•
{A,B},{A,C},{A,D},{B,D} も negative border
例えば{A,B}のサブセット{A,}{B}は共に頻出
- 26. Toivonen s アルゴリズム
•
Toivonen s アルゴリズムの2回目のパスでは全てのデー
タを使い,頻出と判断されたアイテム集合か,negative
borderにあるアイテム集合の数を数える
•
もし negative border のアイテムセットが一つも頻出と
判断されなければ,それ以外で頻出と判断されたアイテム
セットは確実に頻出
•
もしnegative borderのアイテムセットが一つでも頻出と
判断されたなら,パラメータ等を変えて最初からやり直す
- 28. Toivonen s アルゴリズム
•
証明:
1. S を 全体で頻出かつサンプルで非頻出とする
2. negative border の要素が一つも全体で頻出で
なかった
このとき,
TをSのサブセットの中で非頻出のもので最小のも
のする. Sが頻出なのでTも頻出のはず.またTは
negative borderに含まれる → 矛盾