Saya baru-baru ini harus memilih metrik untuk mengevaluasi algoritma peringkat multilabel dan sampai ke subjek ini, yang sangat membantu. Berikut adalah beberapa tambahan pada jawaban stpk, yang sangat membantu untuk membuat pilihan.
- MAP dapat disesuaikan dengan masalah multilabel, dengan biaya perkiraan
- MAP tidak perlu dihitung pada k tetapi versi multilabel mungkin tidak diadaptasi ketika kelas negatif lebih dominan
- MAP dan (N) DCG dapat ditulis ulang sebagai rata-rata weigthed nilai relevansi peringkat
Detail
Mari kita fokus pada presisi rata-rata (AP) karena rata-rata presisi (MAP) hanyalah rata-rata AP pada beberapa pertanyaan. AP didefinisikan dengan benar pada data biner sebagai area di bawah kurva presisi-recall, yang dapat ditulis ulang sebagai rata-rata dari precision di setiap item positif. (lihat artikel wikipedia di MAP ) Suatu perkiraan yang mungkin adalah mendefinisikannya sebagai rata-rata dari precision di setiapbarang. Sayangnya, kami kehilangan properti bagus yang diberi peringkat contoh negatif di akhir daftar tidak berdampak pada nilai AP. (Ini sangat menyedihkan ketika datang untuk mengevaluasi mesin pencari, dengan contoh-contoh yang jauh lebih negatif daripada contoh-contoh positif. Solusi yang mungkin adalah dengan mencontoh contoh-contoh negatif, dengan biaya kerugian lainnya, misalnya pertanyaan dengan item yang lebih positif akan menjadi sama rata sulit untuk pertanyaan dengan beberapa contoh positif.)
Di sisi lain, pendekatan ini memiliki properti bagus yang digeneralisasikan dengan baik ke kasus multilabel. Memang, dalam kasus biner, ketepatan pada posisi k dapat juga diartikan sebagai relevansi rata-rata sebelum posisi k, di mana relevansi contoh positif adalah 1, dan relevansi contoh negatif adalah 0. Definisi ini meluas secara alami ke kasus di mana ada lebih dari dua tingkat relevansi yang berbeda. Dalam hal ini, AP juga dapat didefinisikan sebagai rata-rata dari relevansi di setiap posisi.
k
wA Pk= 1Kcatatan( Kk)
K
wD CGk= 1catatan( k + 1 )
Dari dua ungkapan ini, kita dapat menyimpulkan bahwa - AP menimbang dokumen dari 1 hingga 0. - DCG menimbang dokumen secara independen dari jumlah total dokumen.
Dalam kedua kasus, jika ada contoh yang lebih tidak relevan daripada contoh yang relevan, berat total positif dapat diabaikan. Untuk AP, solusinya adalah dengan subsampel sampel negatif, tapi saya tidak yakin bagaimana memilih proporsi subsampling, serta apakah akan membuatnya bergantung pada permintaan atau pada jumlah dokumen positif. Untuk DCG, kita bisa memotongnya di k, tetapi pertanyaan yang sama muncul.
Saya akan senang mendengar lebih banyak tentang ini, jika ada orang di sini yang menangani masalah ini.