Rekomendasi item dan perbedaan berdasarkan pengguna di Mahout


15

Saya ingin tahu bagaimana tepatnya rekomendasi berbasis pengguna mahout dan berbasis item berbeda satu sama lain.

Ini mendefinisikan itu

Berbasis pengguna : Rekomendasikan item dengan mencari pengguna yang serupa. Ini seringkali lebih sulit untuk diukur karena sifat dinamis dari pengguna.

Berbasis item : Hitung kesamaan antara item dan buat rekomendasi. Item biasanya tidak banyak berubah, jadi ini seringkali dapat dihitung secara off-line.

Tetapi meskipun ada dua jenis rekomendasi yang tersedia, apa yang saya pahami adalah bahwa kedua ini akan mengambil beberapa model data (katakanlah 1,2 atau 1,2, .5 sebagai item1, item2, value atau user1, user2, nilai di mana nilai tidak wajib) dan akan melakukan semua perhitungan sebagai ukuran kemiripan dan fungsi bawaan rekomendasi yang kami pilih dan kami dapat menjalankan rekomendasi berdasarkan pengguna / item pada data yang sama (apakah ini asumsi yang benar ??).

Jadi saya ingin tahu bagaimana tepatnya dan di mana semua aspek dari kedua jenis algoritma ini berbeda.

Jawaban:


11

Anda benar bahwa kedua model bekerja pada data yang sama tanpa masalah. Kedua item beroperasi pada matriks peringkat pengguna-item.

Dalam pendekatan berbasis pengguna, algoritma menghasilkan peringkat untuk suatu item ioleh pengguna udengan menggabungkan peringkat pengguna lain u'yang serupa u. Serupa di sini berarti bahwa peringkat kedua pengguna memiliki korelasi Pearson yang tinggi atau kesamaan cosinus atau sesuatu yang serupa.

Dalam pendekatan berbasis-item kami memproduksi rating untuk ioleh udengan melihat set item i'yang mirip dengan i(dalam arti yang sama seperti di atas kecuali sekarang kita akan melihat peringkat yang item telah diterima dari pengguna) yang utelah dinilai dan kemudian menggabungkan peringkat oleh udari i'ke peringkat diprediksi oleh uuntuk i.

Pendekatan berbasis item ditemukan di Amazon ( http://dl.acm.org/citation.cfm?id=642471 ) untuk mengatasi tantangan skala mereka dengan penyaringan berbasis pengguna. Jumlah barang yang mereka jual jauh lebih sedikit dan jauh lebih sedikit dinamis daripada jumlah pengguna sehingga kesamaan barang-barang dapat dihitung secara offline dan diakses saat dibutuhkan.


21

Algoritma Berbasis Item

for every item i that u has no preference for yet

  for every item j that u has a preference for

    compute a similarity s between i and j

    add u's preference for j, weighted by s, to a running average

 return the top items, ranked by weighted average

Algoritma Berbasis Pengguna

for every item i that u has no preference for yet

 for every other user v that has a preference for i

   compute a similarity s between u and v

   add v's preference for i, weighted by s, to a running average

 return the top items, ranked by weighted average

Item vs Berbasis pengguna:

1) Skala rekomendasi dengan jumlah item atau pengguna yang harus mereka tangani, sehingga ada skenario di mana masing-masing jenis dapat melakukan lebih baik daripada yang lain

2) Perkiraan kesamaan antara item lebih cenderung untuk konvergen dari waktu ke waktu daripada kesamaan antara pengguna

3) Kami dapat menghitung dan menyimpan kesamaan yang konvergen, yang dapat memberikan keuntungan kinerja pada rekomendasi berbasis item

4) Rekomendasi berdasarkan item dimulai dengan daftar item yang disukai pengguna dan oleh karena itu tidak memerlukan lingkungan item terdekat seperti yang direkomendasikan oleh pengguna berbasis


Peringatan yang wajar: Tautan tidak diterima sebagai jawaban di situs ini. Saya merekomendasikan untuk mengedit atau menghapus sebelum Anda mendapatkan downvotes!
sheldonkreger

1
kemungkinan besar ada kesalahan ketik pada "algoritma berbasis pengguna" - baris keempat harus dimulai dengan "tambahkan preferensi Anda untuk ..."
Bernardo Aflalo

@BernardoAflalo Saya tidak berpikir ini salah ketik, Anda menambahkan preferensi untuk semua v, dan kemudian mengambil rata
Oswald
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.