Saya menjalankan validasi silang 10 kali lipat pada algoritma klasifikasi biner yang berbeda, dengan dataset yang sama, dan menerima hasil rata-rata Mikro dan Makro. Harus disebutkan bahwa ini adalah masalah klasifikasi multi-label.
Dalam kasus saya, negatif sejati dan positif sejati juga diberi bobot yang sama. Itu berarti memprediksi dengan benar negatif yang sebenarnya sama pentingnya dengan memprediksi dengan benar positif yang sebenarnya.
Rata-rata ukuran mikro lebih rendah daripada ukuran rata-rata makro. Berikut adalah hasil dari Neural Network dan Support Vector Machine:
Saya juga menjalankan uji persentase-split pada dataset yang sama dengan algoritma lain. Hasilnya adalah:
Saya lebih suka membandingkan uji persentase-split dengan hasil rata-rata makro, tetapi apakah itu adil? Saya tidak percaya bahwa hasil rata-rata makro bias karena positif dan negatif sejati benar-benar tertimbang, tetapi sekali lagi, saya bertanya-tanya apakah ini sama dengan membandingkan apel dengan jeruk?
MEMPERBARUI
Berdasarkan komentar saya akan menunjukkan bagaimana rata-rata mikro dan makro dihitung.
Saya memiliki 144 label (sama dengan fitur atau atribut) yang ingin saya prediksi. Precision, Recall, dan F-Measure dihitung untuk setiap label.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
Mempertimbangkan ukuran evaluasi biner B (tp, tn, fp, fn) yang dihitung berdasarkan positif sejati (tp), negatif sejati (tn), positif palsu (fp), dan negatif palsu (fn). Rata-rata makro dan mikro ukuran tertentu dapat dihitung sebagai berikut:
Dengan menggunakan rumus ini kita dapat menghitung rata-rata mikro dan makro sebagai berikut:
Jadi, pengukuran rata-rata mikro menambahkan semua tp, fp dan fn (untuk setiap label), setelah itu evaluasi biner baru dilakukan. Ukuran rata-rata makro menambahkan semua ukuran (Precision, Recall, atau F-Measure) dan membaginya dengan jumlah label, yang lebih mirip rata-rata.
Sekarang, pertanyaannya adalah mana yang harus digunakan?