Saya membandingkan kinerja beberapa algoritma pada beberapa set data. Karena pengukuran kinerja tersebut tidak dijamin didistribusikan secara normal, saya memilih Friedman Test dengan tes post-hoc Nemenyi berdasarkan Demšar (2006) .

Saya kemudian menemukan makalah lain yang, selain menyarankan metode lain seperti tes Quade dengan tes post-hoc Shaffer berikutnya, mereka menerapkan tes Nemenyi secara berbeda.

Bagaimana saya menerapkan tes post-hoc Nemenyi dengan benar?

1. Menggunakan statistik rentang Pelajar?

Dalam makalah Demšar dikatakan menolak hipotesis nol (tidak ada perbedaan kinerja dari dua algoritma) jika perbedaan peringkat rata-rata lebih besar dari CD jarak kritis dengan

C D = q_{α} \sqrt{\frac{k (k + 1)}{6 N}}

$CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}}$

"di mana nilai kritis qα didasarkan pada statistik rentang Studentized dibagi dengan $\sqrt{2}.$ "

Setelah beberapa penggalian, saya menemukan bahwa Anda "nilai-nilai kritis" tersebut dapat dicari tertentu, misalnya dalam tabel untuk $\alpha = 0.05$ , untuk derajat kebebasan tanpa batas (di bagian bawah setiap tabel).

2. atau menggunakan distribusi normal?

Tepat ketika saya pikir saya tahu apa yang harus dilakukan, saya menemukan kertas lain yang membingungkan saya lagi, karena mereka hanya menggunakan distribusi normal. Demšar menyatakan hal serupa di halaman 12:

$z = \frac{(R_{i} - R_{j})}{\sqrt{\frac{k (k + 1)}{6 N}}}$ $z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}}$ $\alpha$ $\alpha$

Pada paragraf ini dia berbicara tentang membandingkan semua algoritma dengan algoritma kontrol, tetapi pernyataan "berbeda dalam cara mereka menyesuaikan ... untuk mengkompensasi beberapa perbandingan" menunjukkan bahwa ini juga harus berlaku untuk tes Nemenyi.

$z$ $k(k-1)/2$

Namun, itu menghasilkan perbedaan peringkat yang sama sekali berbeda untuk menolak hipotesis nol. Dan sekarang saya mandek dan tidak tahu metode apa yang harus diterapkan. Saya sangat condong ke arah yang menggunakan distribusi normal , karena lebih sederhana dan lebih logis bagi saya. Saya juga tidak perlu mencari nilai dalam tabel dan saya tidak terikat dengan nilai signifikansi tertentu.

Kemudian lagi, saya tidak pernah bekerja dengan statistik rentang mahasiswa dan saya tidak memahaminya.

nonparametric multiple-comparisons post-hoc

— Penjaga
sumber

5

Saya juga baru mulai melihat pertanyaan ini.

Seperti disebutkan sebelumnya, ketika kita menggunakan distribusi normal untuk menghitung nilai-p untuk setiap tes, maka nilai-p ini tidak memperhitungkan banyak pengujian. Untuk memperbaikinya dan mengendalikan tingkat kesalahan berdasarkan keluarga, kita perlu beberapa penyesuaian. Bonferonni, yaitu membagi tingkat signifikansi atau mengalikan nilai-p mentah dengan jumlah tes, hanya satu kemungkinan koreksi. Ada sejumlah besar koreksi beberapa nilai p pengujian lainnya yang dalam banyak kasus kurang konservatif.

Koreksi p-value ini tidak memperhitungkan struktur spesifik dari pengujian hipotesis.

Saya lebih akrab dengan perbandingan berpasangan dari data asli daripada data yang diubah peringkat seperti dalam tes Kruskal-Wallis atau Friedman. Dalam kasus tersebut, yang merupakan tes Tukey HSD, statistik uji untuk perbandingan berganda didistribusikan sesuai dengan distribusi rentang pelajar, yang merupakan distribusi untuk semua perbandingan berpasangan dengan asumsi sampel independen. Ini didasarkan pada probabilitas distribusi normal multivariat yang dapat dihitung dengan integrasi numerik tetapi biasanya digunakan dari tabel.

Dugaan saya, karena saya tidak tahu teorinya, adalah bahwa distribusi rentang yang dipersonalisasikan dapat diterapkan pada kasus tes peringkat dengan cara yang sama seperti dalam perbandingan berpasangan Tukey HSD.

Jadi, dengan menggunakan (2) distribusi normal ditambah beberapa pengujian koreksi nilai-p dan menggunakan (1) distribusi rentang pelajar adalah dua cara berbeda untuk mendapatkan perkiraan distribusi statistik pengujian. Namun, jika asumsi untuk penggunaan distribusi rentang pelajar terpenuhi, maka harus memberikan perkiraan yang lebih baik karena dirancang untuk masalah khusus dari semua perbandingan berpasangan.

— Josef
sumber

1

Sejauh yang saya tahu, ketika membandingkan hanya 2 algoritma, Demšar menyarankan uji peringkat Wilcoxon daripada uji coba Friedman + posthoc. Sayangnya, saya sama bingungnya dengan Anda ketika harus mengartikan apa arti pembagian demšar dengan k-1.

— 5xum
sumber

1

Membagi dengan (k-1) adalah ketika Anda membandingkan beberapa algoritma dengan metode kontrol. Tapi ini masing-masing versus masing-masing, jadi NxN. Bagian pemisah yang bisa saya mengerti, tetapi hubungan dengan distribusi rentang Studentized di luar pemahaman saya.

— Sentry

@Pasangan: Anda harus mengalikan dengan faktor penyesuaian di sini, bukan mengalikan. Silakan lihat jawaban saya di atas.

— Chris

0

Saya juga menemukan questio apakah menghitung nilai p dari distribusi t normal atau terpelajar. Sayangnya, saya masih tidak bisa menjawabnya, karena makalah yang berbeda mengomunikasikan metode yang berbeda.

Namun demikian, untuk menghitung nilai-p yang disesuaikan, Anda harus mengalikan nilai-p yang tidak dikoreksi dengan faktor penyesuaian, misalnya p * (k-1) dalam kasus perbandingan terhadap satu metode kontrol atau p * ((k * (k-1) )) / 2) untuk perbandingan nxn.

Apa yang harus Anda bagi dengan faktor penyesuaian adalah nilai alfa, jika dibandingkan dengan p yang tidak disesuaikan.

— Chris
sumber

Cara menerapkan tes post-hoc Nemenyi dengan benar setelah tes Friedman

Bagaimana saya menerapkan tes post-hoc Nemenyi dengan benar?