Prakarsa Perubahan dengan Kanvas ATAP & BAGJA.pptx
Eigentaste is a collaborative filtering algorithm that uses universal queries to elicit real
1. Eigentaste is a collaborative filtering algorithm that uses universal queries to elicit real-valued user
ratings on a common set of items and applies principal component analysis (PCA) to the resulting
dense subset of the ratings matrix.
Eigentaste adalah algoritma penyaringan kolaboratif yang menggunakan query yang universal untuk
memperoleh peringkat pengguna bernilai real pada seperangkat item dan menerapkan analisis
komponen utama (PCA) pada subset padat yang dihasilkan dari matriks penilaian.
PCA facilitates dimensionality reduction for offline clustering of users and rapid computation of
recommendations. For a database of n users, standard nearest-neighbor techniques require O(n)
processing time to compute recommendations, whereas Eigentaste requires O(1) (constant) time.
We compare Eigentaste to alternative algorithms using data from Jester, an online joke
recommending system.
PCA memfasilitasi pengurangan dimensi untuk clustering offline pengguna dan perhitungan cepat
rekomendasi. Untuk database pengguna n, standar-tetangga terdekat teknik memerlukan O (n)
waktu proses untuk menghitung rekomendasi, sedangkan Eigentaste membutuhkan O (1) (konstan)
waktu. Kami membandingkan Eigentaste algoritma alternatif menggunakan data dari Jester, sebuah
sistem secara online lelucon merekomendasikan.
Jester has collected approximately 2,500,000 ratings from 57,000 users. We use the Normalized
Mean Absolute Error (NMAE) measure to compare performance of different algorithms. In the
Appendix we use Uniform and Normal distribution models to derive analytic estimates of NMAE
when predictions are random.
Jester telah mengumpulkan sekitar 2.500.000 peringkat dari 57.000 pengguna. Kami
menggunakan Kesalahan Mutlak Normalized Mean (NMAE) ukuran untuk membandingkan
kinerja algoritma yang berbeda. Dalam Lampiran kita menggunakan model distribusi
Uniform dan Normal untuk mendapatkan estimasi analitik NMAE ketika prediksi adalah
acak.
On the Jester dataset, Eigentaste computes recommendations two orders of magnitude faster with
no loss of accuracy
Di dataset Jester, Eigentaste menghitung rekomendasi dua lipat lebih cepat tanpa kehilangan akurasi
2. The networked world contains a vast amount of data. Visitors face the arduous task of retrieving
information that matches their preferences. The term “Collaborative Filtering” (CF) describes
techniques that use the known preferences of a group of users to predict the unknown preferences
of a new user; recommendations for the new user are based on these predictions (Pennock and
Horvitz 1999b). Other terms that have been proposed are “social information filtering” (Shardanand
and Maes 1995), and “recommender system” (Resnick et al. 1994). In each case, userscollaboratein
the sense that each rating improves the performance of the overall system. The fundamental
assumption is that if users A and B ratekitems similarly, they share similar tastes, and hence will rate
other items similarly. Approaches differ in how they define a “rating,” how they definek, and how
they define “similarly.”
Di dunia jaringan berisi sejumlah besar data. Pengunjung menghadapi tugas berat mengambil
informasi yang sesuai dengan preferensi mereka. Istilah "Filtering Kolaborasi" (CF)
menggambarkan teknik yang menggunakan preferensi diketahui dari kelompok pengguna
untuk memprediksi preferensi diketahui pengguna baru, rekomendasi untuk pengguna baru
didasarkan pada prediksi ini (Pennock dan Horvitz 1999b). Istilah lain yang telah diusulkan
adalah "informasi sosial penyaringan" (Shardanand dan Maes 1995), dan "sistem
recommender" (Resnick et al 1994.). Dalam setiap kasus, userscollaboratein arti bahwa setiap
rating meningkatkan kinerja sistem secara keseluruhan. Asumsi dasarnya adalah bahwa jika
pengguna A dan B ratekitems sama, mereka berbagi selera serupa, dan karenanya akan
menilai barang-barang lainnya yang sama. Pendekatan berbeda dalam bagaimana mereka
mendefinisikan "rating," bagaimana mereka definek, dan bagaimana mereka mendefinisikan
"sama."
A CF algorithm should be both accurate(the recommended objects should subsequently receive high
ratings), and efficientin terms of computational complexity. A CF database represents n users and m
items available for rating and recommendation. In most existing CF algorithms, online computation
scales linearly withn. In this paper we propose a new algorithm, Eigentaste, designed to provide
accurate and efficient recommendations to users in constant online time.
Sebuah algoritma CF harus baik akurat (obyek direkomendasikan kemudian harus menerima
peringkat tinggi), dan istilah efficientin kompleksitas komputasi. Sebuah database CF merupakan
pengguna n dan item m tersedia untuk penilaian dan rekomendasi. Dalam algoritma CF yang paling
yang ada, skala perhitungan secara online linear withn. Dalam tulisan ini kami mengusulkan sebuah
algoritma baru, Eigentaste, yang dirancang untuk memberikan rekomendasi yang akurat dan efisien
untuk pengguna dalam waktu online konstan.
Most CF systems include only user-selected queries: the user chooses which items to rate, yielding a
sparse ratings matrix with many null values. The Eigentaste algorithm profiles user taste with
universal queries: each item is presented with a short unbiased description (e.g., book summary
orfilm synopsis) so that users can form an opinion and respond to any query. Using univeral queries,
Eigentaste presents each user with the samegauge setof items to rate during its profiling phase. This
has the advantage that the subset of the ratings matrix containing the gauge set items is dense.
Universal ratings also permit the system to collect immediate feedback on all recommended items. It
is often argued that users who have not seen afilm are not able to rate it effectively. The opposite
can be argued: the experience of viewing afilm can corrupt taste ratings by extraneous factors
(indigestion, a bad seat, ...). The user’s level of familiarity with each item should properly be treated
3. as a confidence, a second-order measure notoriously difficult to collect. Consumers implicitly rate
unknown items whenever they shop or make choices. Collecting ratings only of familiar items can
yield a highly-biased and incomplete model of user taste. When properly designed, universal queries
offer the advantage of rapid and consistent profiling of new users.
Kebanyakan sistem CF hanya mencakup pengguna-dipilih query: pengguna memilih item mana untuk
menilai, menghasilkan matriks peringkat jarang dengan nilai nol banyak. Algoritma Eigentaste profil
pengguna rasa dengan pertanyaan universal: setiap item disajikan dengan deskripsi objektif singkat
(misalnya, buku ringkasan orfilm sinopsis) sehingga pengguna dapat membentuk opini dan
menanggapi permintaan apapun. Menggunakan query univeral, Eigentaste menyajikan setiap
pengguna dengan item setof samegauge untuk menilai selama fase profiling nya. Ini memiliki
keuntungan bahwa subset dari matriks peringkat yang berisi item mengukur set padat. Peringkat
Universal juga memungkinkan sistem untuk mengumpulkan umpan balik langsung pada semua item
yang direkomendasikan. Hal ini sering dikatakan bahwa pengguna yang belum melihat afilm tidak
mampu menilai secara efektif. Hal sebaliknya dapat dikatakan: pengalaman menonton afilm dapat
merusak peringkat rasa oleh faktor-faktor luar (gangguan pencernaan, kursi buruk, ...). Tingkat
pengguna keakraban dengan setiap item benar harus diperlakukan sebagai keyakinan, ukuran orde
kedua sangat sulit untuk mengumpulkan. Konsumen item tingkat implisit diketahui setiap kali
mereka berbelanja atau membuat pilihan. Mengumpulkan peringkat hanya item akrab dapat
menghasilkan model yang sangat-bias dan tidak lengkap rasa pengguna. Ketika benar dirancang,
pertanyaan universal yang menawarkan keuntungan dari profil yang cepat dan konsisten dari
pengguna baru.
Eigentaste captures user ratings on a continuous rating scale. To rate items, users are asked to click
their mouse on a horizontal“ratings bar”which returns scalar values. While technically not
continuous (limited by the granularity of HTML image maps), we can distinguish approximately 200
levels of ratings in the scale. Continuous ratings avoid dis-cretization effects in matrix computations
and may offer measurement (Albaum et al. 1981) and user-interface advantages as discussed in the
conclusion. Eigentaste splits computations into offline and online phases. Offline, Eigentaste uses
principal component analysis for optimal dimensionality reduction and then clusters users in the
lower dimensional subspace. The online phase uses eigenvectors to project new users into clusters
and a lookup table to recommend appropriate items so that run time is independent of the number
of users in the database. This paper is organized as follows. Section 2 reviews related work. Section 3
introduces the Eigentaste algorithm, PCA, and our recursive rectangular clustering method. Section 4
describes the application of Eigentaste to Jester, a CF system for recommending jokes, including a
description of the bootstrapping process. Section 5 proposes the normalized Mean Absolute Error
(NMAE) metric and compares performance of several algorithms on the Jester dataset in terms of
accuracy and efficiency. Section 7 reviews the results and discusses future work.
Eigentaste menangkap peringkat pengguna pada skala penilaian berkelanjutan. Untuk item tingkat,
pengguna diminta untuk mengklik mouse mereka pada "bar peringkat" horisontal yang
mengembalikan nilai skalar. Meskipun secara teknis tidak kontinyu (terbatas oleh granularity dari
peta gambar HTML), kita dapat membedakan sekitar 200 tingkat peringkat dalam skala. Peringkat
terus menerus menghindari dis-cretization efek dalam perhitungan matriks dan mungkin
4. menawarkan pengukuran (Albaum et al. 1981) dan user-interface keuntungan seperti yang dibahas
dalam kesimpulan. Eigentaste membagi perhitungan menjadi fase offline dan online. Offline,
Eigentaste menggunakan analisis komponen utama untuk pengurangan dimensi yang optimal dan
kemudian pengguna cluster dalam subruang dimensi yang lebih rendah. Tahap online menggunakan
vektor eigen untuk memproyeksikan pengguna baru ke dalam kelompok dan tabel untuk
merekomendasikan item yang sesuai sehingga waktu berjalan tidak tergantung pada jumlah
pengguna dalam database. Makalah ini diorganisasikan sebagai berikut. Bagian 2 ulasan kerja
terkait. Bagian 3 memperkenalkan algoritma Eigentaste, PCA, dan metode clustering rekursif persegi
panjang kami. Bagian 4 menjelaskan penerapan Eigentaste ke Jester, sebuah sistem CF untuk
merekomendasikan lelucon, termasuk deskripsi proses bootstrap. Bagian 5 mengusulkan Kesalahan
Mutlak dinormalisasi Mean (NMAE) metrik dan membandingkan kinerja beberapa algoritma pada
dataset Jester dalam hal akurasi dan efisiensi. Bagian 7 ulasan hasil dan membahas pekerjaan di
masa depan.