Netflix, Google, ...




      in this seminar...
Web
1992   Xerox PARC David Goldberg              “Using collaborative
 filtering to weave an information tapestry”




                                1     5
1        xi   i
Score(i, j) =    √                                1~5
              1 + xi − xj

0                     1
                                     Toby    ”Dupree” 0.5
              Score
                                       ”Snakes” 4.5




                      …
※




→
Sxy
                                              n
                                              i = 1(x i   − x )(y i − y )
                                                            ¯         ¯
S cor e( x, y ) =                    n                               n
                                     i = 1(x i    −   x )2
                                                      ¯              i = 1 (y i   − y )2
                                                                                    ¯
                                                Sxx                               Sy y

          ...

          n                      n              n
                           (     i=1     xi     i=1   yi )
 Sxy =          x i yi −
         i=1
                                          n
          n                    n                             n                n
                       (             x i )2                               (           yi ) 2
 Sxx =          x2 −           i=1
                                                  Syy =             2
                                                                   yi −       i=1

         i=1
                 i
                                n                            i=1
                                                                                  n
xi       i   x

yi       i   y


x2
 i       i   x

 2
yi       i   y

x i yi   i   x   y
d = |ax − bx | + |ay − by |

d=          (x − µ)T Σ−1 (x − µ)




d = max(|ax − bx |, |ay − by |)



d=      B
            |ax − bx |A + |ay − by |A
                                        a   b
  a=b                 a
|X ∩ Y |               X   Y
Sim =
      |X ∪ Y |


      2 × |X ∩ Y |           X   Y
Sim =
       |X| + |Y |


        |X ∩ Y |             X   Y
Sim =
      min(|X|, |Y |)



  01010   01111   3    5         2
                           (0,1,0,1,0   (0,1,1,1,1
3




           special → speciral → speiral → spiral
            special   spiral              3




                       |A ∩ B|
Tanimoto   Sim =
                 |A| + |B| − |A ∩ B|
→

•
•
                ...




        ”   ”
×
VS




ex.




ex.
...




→ Mecab
AB           A
    B        DE
         D   E




→
K

            K


    K




K
集合知プログラミングゼミ第1回

集合知プログラミングゼミ第1回

  • 3.
    Netflix, Google, ... in this seminar...
  • 5.
  • 6.
    1992 Xerox PARC David Goldberg “Using collaborative filtering to weave an information tapestry” 1 5
  • 7.
    1 xi i Score(i, j) = √ 1~5 1 + xi − xj 0 1 Toby ”Dupree” 0.5 Score ”Snakes” 4.5 …
  • 8.
  • 9.
    Sxy n i = 1(x i − x )(y i − y ) ¯ ¯ S cor e( x, y ) = n n i = 1(x i − x )2 ¯ i = 1 (y i − y )2 ¯ Sxx Sy y ... n n n ( i=1 xi i=1 yi ) Sxy = x i yi − i=1 n n n n n ( x i )2 ( yi ) 2 Sxx = x2 − i=1 Syy = 2 yi − i=1 i=1 i n i=1 n
  • 10.
    xi i x yi i y x2 i i x 2 yi i y x i yi i x y
  • 11.
    d = |ax− bx | + |ay − by | d= (x − µ)T Σ−1 (x − µ) d = max(|ax − bx |, |ay − by |) d= B |ax − bx |A + |ay − by |A a b a=b a
  • 12.
    |X ∩ Y| X Y Sim = |X ∪ Y | 2 × |X ∩ Y | X Y Sim = |X| + |Y | |X ∩ Y | X Y Sim = min(|X|, |Y |) 01010 01111 3 5 2 (0,1,0,1,0 (0,1,1,1,1
  • 13.
    3 special → speciral → speiral → spiral special spiral 3 |A ∩ B| Tanimoto Sim = |A| + |B| − |A ∩ B|
  • 14.
    → • • ... ” ”
  • 15.
  • 17.
  • 18.
  • 20.
    AB A B DE D E →
  • 21.
    K K K K

Editor's Notes

  • #2 \n
  • #3 \n
  • #4 \n
  • #5 \n
  • #6 \n
  • #7 \n
  • #8 \n
  • #9 \n
  • #10 \n
  • #11 \n
  • #12 \n
  • #13 \n
  • #14 \n
  • #15 \n
  • #16 \n
  • #17 \n
  • #18 \n
  • #19 ブログサイトごとの4つの単語の登場回数\n
  • #20 最も距離が近いものをくくる(くくられたものとそれ以外に分かれる)\nくくられたものは一つの要素とみなす\nもっとも距離が近い要素同士をくくる\n
  • #21 グログの数より単語の数ははるかに多いので、単語のクラスタリングよりはブログのクラスタリングの方が意味がある\n変数の数より、アイテムの数が遥かに多い場合、意味をなさないクラスタが多くなる可能性が高くなる\n
  • #22 階層的クラスタリングで得られたツリー形式の結果でははっきりとしたグループにデータが分けられない\nまた、計算量も大きい\n重心の位置が前回の位置と同じであればプロセスは終了\nループ回数は階層的クラスタリングと比較して非常に小さい\n
  • #23 階層的クラスタリングで得られたツリー形式の結果でははっきりとしたグループにデータが分けられない\nまた、計算量も大きい\n