Ada banyak situasi di mana Anda dapat melatih beberapa pengklasifikasi yang berbeda, atau menggunakan beberapa metode ekstraksi fitur yang berbeda. Dalam literatur penulis sering memberikan kesalahan klasifikasi rata-rata pada set split acak data (yaitu setelah validasi silang bersarang ganda), dan kadang-kadang memberikan varians pada kesalahan atas split juga. Namun ini saja tidak cukup untuk mengatakan bahwa satu classifier secara signifikan lebih baik daripada yang lain. Saya telah melihat banyak pendekatan berbeda untuk hal ini - menggunakan uji Chi-squared, uji-t, ANOVA dengan pengujian pasca-hoc dll.
Metode apa yang harus digunakan untuk menentukan signifikansi statistik? Yang mendasari pertanyaan itu adalah: Asumsi apa yang harus kita buat tentang distribusi skor klasifikasi?