Saya membandingkan kinerja beberapa algoritma pada beberapa set data. Karena pengukuran kinerja tersebut tidak dijamin didistribusikan secara normal, saya memilih Friedman Test dengan tes post-hoc Nemenyi berdasarkan Demšar (2006) .
Saya kemudian menemukan makalah lain yang, selain menyarankan metode lain seperti tes Quade dengan tes post-hoc Shaffer berikutnya, mereka menerapkan tes Nemenyi secara berbeda.
Bagaimana saya menerapkan tes post-hoc Nemenyi dengan benar?
1. Menggunakan statistik rentang Pelajar?
Dalam makalah Demšar dikatakan menolak hipotesis nol (tidak ada perbedaan kinerja dari dua algoritma) jika perbedaan peringkat rata-rata lebih besar dari CD jarak kritis dengan
"di mana nilai kritis qα didasarkan pada statistik rentang Studentized dibagi dengan "
Setelah beberapa penggalian, saya menemukan bahwa Anda "nilai-nilai kritis" tersebut dapat dicari alfa tertentu, misalnya dalam tabel untuk , untuk derajat kebebasan tanpa batas (di bagian bawah setiap tabel).
2. atau menggunakan distribusi normal?
Tepat ketika saya pikir saya tahu apa yang harus dilakukan, saya menemukan kertas lain yang membingungkan saya lagi, karena mereka hanya menggunakan distribusi normal. Demšar menyatakan hal serupa di halaman 12:
Pada paragraf ini dia berbicara tentang membandingkan semua algoritma dengan algoritma kontrol, tetapi pernyataan "berbeda dalam cara mereka menyesuaikan ... untuk mengkompensasi beberapa perbandingan" menunjukkan bahwa ini juga harus berlaku untuk tes Nemenyi.
Namun, itu menghasilkan perbedaan peringkat yang sama sekali berbeda untuk menolak hipotesis nol. Dan sekarang saya mandek dan tidak tahu metode apa yang harus diterapkan. Saya sangat condong ke arah yang menggunakan distribusi normal , karena lebih sederhana dan lebih logis bagi saya. Saya juga tidak perlu mencari nilai dalam tabel dan saya tidak terikat dengan nilai signifikansi tertentu.
Kemudian lagi, saya tidak pernah bekerja dengan statistik rentang mahasiswa dan saya tidak memahaminya.