Rate it Again

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    2 Favorites

    Rate it Again - Presentation Transcript

    1. Rate it Again Increasing Recommendation Accuracy by  User re­Rating Xavier Amatriain (with J.M. Pujol, N. Tintarev, N. Oliver) Telefonica Research Recsys 09   X. Amatriain et. al Rate It Again
    2. The Recommender Problem ● Two ways to address it 1. Improve the Algorithm   X. Amatriain et. al Rate It Again
    3. The Recommender Problem ● Two ways to address it 2. Improve the Input Data Time for Data  Cleaning!   X. Amatriain et. al Rate It Again
    4. User Feedback is Noisy   ●  See our UMAP '09 Publication:  “I like it... I like it not” (Amatriain et al. '09) X. Amatriain et. al Rate It Again
    5. Natural Noise Limits our User Model DID YOU HEAR WHAT  I LIKE??!!   ...and Our Prediction Accuracy X. Amatriain et. al Rate It Again
    6. Experimental setup ● 118 participants rated movies in 3 trials             T1 (rand) <­>  24 h <­>T2 (pop.) <­> 15 days <­>T3 (rand) ● 100 Movies from Netflix dataset,  stratified  random sampling on popularity ● Ratings on a 1 to 5 star scale with special “not  seen” symbol.   X. Amatriain et. al Rate It Again
    7. Users are Inconsistent ● What is the probability of making an inconsistency  given an original rating   X. Amatriain et. al Rate It Again
    8. Users are Inconsistent Mild ratings are  noisier ● What is the percentage of inconsistencies given an  original rating   X. Amatriain et. al Rate It Again
    9. Users are Inconsistent Negative  ratings are  noisier ● What is the percentage of inconsistencies given an  original rating   X. Amatriain et. al Rate It Again
    10. Prediction Accuracy #Ti #Tj # RMSE     T1, T2 2185 1961 1838 2308 0.573 0.707 T1, T3 2185 1909 1774 2320 0.637 0.765 T2, T3 1969 1909 1730 2140 0.557 0.694 ● Pairwise RMSE between trials considering  intersection and union of both sets   X. Amatriain et. al Rate It Again
    11. Max error in  Prediction Accuracy trials that are  #Ti #Tj # RMSE most distant in  time     T1, T2 2185 1961 1838 2308 0.573 0.707 T1, T3 2185 1909 1774 2320 0.637 0.765 T2, T3 1969 1909 1730 2140 0.557 0.694 ● Pairwise RMSE between trials considering  intersection and union of both sets   X. Amatriain et. al Rate It Again
    12. Significant less  Prediction Accuracy error when 2nd  #Ti #Tj # RMSE trial is involved     T1, T2 2185 1961 1838 2308 0.573 0.707 T1, T3 2185 1909 1774 2320 0.637 0.765 T2, T3 1969 1909 1730 2140 0.557 0.694 ● Pairwise RMSE between trials considering  intersection and union of both sets   X. Amatriain et. al Rate It Again
    13. Algorithm Robustness to NN Alg./Trial T1 T2 T3 Tworst /Tbest User  1.2011 1.1469 1.1945 4.7% Average Item  1.0555 1.0361 1.0776 4% Average User­based  0.9990 0.9640 1.0171 5.5% kNN Item­based  1.0429 1.0031 1.0417 4% kNN SVD 1.0244 0.9861 1.0285 4.3%  RMSE for different Recommendation algorithms  ● when predicting each of the trials   X. Amatriain et. al Rate It Again
    14. Algorithm Robustness to NN Trial 2 is  consistently the  Alg./Trial T1 T2 T3 Tworst /Tbest least noisy User  1.2011 1.1469 1.1945 4.7% Average Item  1.0555 1.0361 1.0776 4% Average User­based  0.9990 0.9640 1.0171 5.5% kNN Item­based  1.0429 1.0031 1.0417 4% kNN SVD 1.0244 0.9861 1.0285 4.3%  RMSE for different Recommendation algorithms  ● when predicting each of the trials   X. Amatriain et. al Rate It Again
    15. Algorithm Robustness to NN (2) Training­Testing  T1-T2 T1-T3 T2-T3 Dataset User Average 1.1585 1.2095 1.2036 Movie Average 1.0305 1.0648 1.0637 User­based kNN 0.9693 1.0143 1.0184 Item­based kNN 1.0009 1.0406 1.0590 SVD 0.9741 1.0491 1.0118 ● RMSE for different Recommendation algorithms  when predicting ratings in one trial (testing) from    ratings on another (training) X. Amatriain et. al Rate It Again
    16. Algorithm Robustness to NN (2) Training­Testing  T1-T2 T1-T3 T2-T3 Dataset User Average 1.1585 1.2095 1.2036 Movie Average 1.0305 1.0648 1.0637 User­based kNN 0.9693 1.0143 1.0184 Item­based kNN 1.0009 1.0406 1.0590 SVD Noise is minimized  0.9741 1.0491 1.0118 when we predict  Trial 2 ● RMSE for different Recommendation algorithms  when predicting ratings in one trial (testing) from    ratings on another (training) X. Amatriain et. al Rate It Again
    17. Let's recap ● Users are inconsistent ● Inconsistencies can depend on many things  including how the items are presented ● Inconsistencies produce natural noise ● Natural noise reduces our prediction accuracy  independently of the algorithm   X. Amatriain et. al Rate It Again
    18. Hypothesis ● If we can somehow reduce natural noise due to  user inconsistencies we could greatly  improve recommendation accuracy. ● We can reduce natural noise by taking  advantage of user inconsistencies when re­ rating items.   X. Amatriain et. al Rate It Again
    19. Algorithm ● Given a rating dataset where (some) items  have been re­rated, ● Two fairness conditions: 1. Algorithm should remove as few ratings as  possible (i.e. only when there is some  certainty that the rating is only adding noise) 2.Algorithm should not make up new ratings but  decide on which of the existing ones are    valid. X. Amatriain et. al Rate It Again
    20. Algorithm ● One source re­rating case: ● Given the following milding function:   X. Amatriain et. al Rate It Again
    21. Results ● One­source re­rating (Denoised⊚Denoising) T1⊚T2 ΔT1 T1⊚T3 ΔT1 T2⊚T3 ΔT2 User­based kNN 0.8861 11.3% 0.8960 10.3% 0.8984 6.8% SVD 0.9121 11.0% 0.9274 9.5% 0.9159 7.1% ● Two­source re­rating (Denoising T1with the other 2) Datasets T1⊚(T2, T3) ΔT1 User­based kNN 0.8647 13.4% SVD 0.8800 14.1%   X. Amatriain et. al Rate It Again
    22. Results Best results (above 10%!)  when denoising noisy trial  with less noisy ● One­source re­rating (Denoised⊚Denoising) T1⊚T2 ΔT1 T1⊚T3 ΔT1 T2⊚T3 ΔT2 User­based kNN 0.8861 11.3% 0.8960 10.3% 0.8984 6.8% SVD 0.9121 11.0% 0.9274 9.5% 0.9159 7.1% ● Two­source re­rating (Denoising T1with the other 2) Datasets T1⊚(T2, T3) ΔT1 User­based kNN 0.8647 13.4% SVD 0.8800 14.1%   X. Amatriain et. al Rate It Again
    23. Results Smaller (yet important)  improvement when  denoising less noisy set ● One­way re­rating (Denoised⊚Denoising) T1⊚T2 ΔT1 T1⊚T3 ΔT1 T2⊚T3 ΔT2 User­based kNN 0.8861 11.3% 0.8960 10.3% 0.8984 6.8% SVD 0.9121 11.0% 0.9274 9.5% 0.9159 7.1% ● Two­way re­rating (Denoising T1with the other 2) Datasets T1⊚(T2, T3) ΔT1 User­based kNN 0.8647 13.4% SVD 0.8800 14.1%   X. Amatriain et. al Rate It Again
    24. Results ● One­way re­rating (Denoised⊚Denoising) T1⊚T2 ΔT1 T1⊚T3 ΔT1 T2⊚T3 ΔT2 User­based kNN 0.8861 11.3% 0.8960 10.3% 0.8984 6.8% SVD 0.9121 11.0% 0.9274 9.5% 0.9159 7.1% ● Two­way re­rating (Denoising T1with the other 2) Datasets T1⊚(T2, T3) ΔT1 Improvements  up to 14% with  User­based kNN 0.8647 13.4% 2 re­ratings! SVD 0.8800 14.1%   X. Amatriain et. al Rate It Again
    25. But... ● We can't expect all users to re­rate all items  once or twice to improve accuracy! ● Need to devise methods to selectively choose  which ratings to denoise: – Random selection – Data­dependent (select ratings based on values) – User­dependent (select ratings based on how  “noisy” user is)   X. Amatriain et. al Rate It Again
    26. Random re­rating ● Improvement in RMSE when doing once­source (left) and  two­source (right) re­rating as a function of the percentage    of randomly­selected denoised ratings (T1⊚T3 ) X. Amatriain et. al Rate It Again
    27. Random re­rating ● Improvement in RMSE when doing once­source (left) and  two­source (right) re­rating as a function of the percentage    of randomly­selected denoised ratings (T1⊚T3 ) X. Amatriain et. al Rate It Again
    28. Denoise Extreme Ratings ● Improvement in RMSE when doing once­source (left)  and two­source (right) re­rating as a function of the    percentage of denoised ratings: selecting only extreme X. Amatriain et. al Rate It Again
    29. Denoise Extreme Ratings ● Improvement in RMSE when doing once­source (left)  and two­source (right) re­rating as a function of the    percentage of denoised ratings: selecting only extreme X. Amatriain et. al Rate It Again
    30. Denoise outliers ●  Improvement in RMSE when doing once­source (left) and two­ source (right) re­rating as a function of the percentage of denoised    ratings and users: selecting only noisy users and extreme ratings X. Amatriain et. al Rate It Again
    31. Denoise outliers ●  Improvement in RMSE when doing once­source (left) and two­ source (right) re­rating as a function of the percentage of denoised    ratings and users: selecting only noisy users and extreme ratings X. Amatriain et. al Rate It Again
    32. Value of Rating An extreme re­ rating improves  RMSE 10 times  more than adding a  new rating! ● Is it worth to add new ratings or re­rate existing items?    RMSE improvement as a function of new ratings added  in each case. X. Amatriain et. al Rate It Again
    33. Conclusions ● Improving data can be more beneficial than  improving the algorithm ● Natural noise limits the accuracy of Recommender  Systems ● We can reduce natural noise by asking users to re­rate  items ● There are strategies to minimize the impact of the re­ rating process   ● The value of a re­rate may be higher than that of a  new rating X. Amatriain et. al Rate It Again
    34. Rate it Again Increasing Recommendation Accuracy by  User re­Rating Thanks!   X. Amatriain et. al Rate It Again

    + Xavier  AmatriainXavier Amatriain, 1 month ago

    custom

    1018 views, 2 favs, 2 embeds more stats

    Presented @ Recsys09 conference in NY. Describes a more

    More info about this document

    CC Attribution-ShareAlike LicenseCC Attribution-ShareAlike License

    Go to text version

    • Total Views 1018
      • 976 on SlideShare
      • 42 from embeds
    • Comments 0
    • Favorites 2
    • Downloads 19
    Most viewed embeds
    • 41 views on http://technocalifornia.blogspot.com
    • 1 views on http://www.slideshare.net

    more

    All embeds
    • 41 views on http://technocalifornia.blogspot.com
    • 1 views on http://www.slideshare.net

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories