Kumpulan data patokan untuk pemfilteran kolaboratif


9

Saya ingin menguji algoritma baru untuk pemfilteran kolaboratif . Kasus penggunaan yang umum adalah merekomendasikan film berdasarkan preferensi pengguna yang mirip dengan pengguna tertentu.

Apa beberapa dataset patokan umum yang sering digunakan peneliti untuk menguji algoritme mereka? Saya tahu bahwa di dalam Computer Vision orang sering menggunakan MNIST atau CIFAR, tetapi saya belum menemukan dataset serupa untuk penyaringan kolaboratif.


1
Apakah Anda melihat dataset hadiah Netflix? Ya, kompetisi telah lama berakhir dan telah ditarik dari situs web resmi karena beberapa alasan privasi. Anda masih dapat mencoba menemukannya di lokasi lain.
Vladislavs Dovgalecs

Kaggle.com memiliki banyak. Cukup cari 'rekomendasi dalam: dataset' atau 'rekomendasi dalam: kompetisi'.
ran8

Jawaban:


8

Jawaban yang jelas adalah dataset hadiah Netflix, ada banyak penelitian ke dalamnya dan sebagian besar algoritma CF telah mengetahui skor di dalamnya.

Ada set data lain yang tersedia yang biasanya digunakan sebagai tolok ukur:

  • Movie lens Dataset : dataset 20 juta peringkat yang digunakan untuk pembandingan algoritma CF;

  • Jester Dataset : dataset rekomendasi lelucon dengan lebih dari 6 juta peringkat;

  • Anda dapat menemukan lebih banyak kumpulan data di tautan ini


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.