Bisakah saya menggunakan tes permutasi untuk menghindari masalah perbandingan banyak dalam konteks proporsi?

9

Saya mengevaluasi keefektifan 5 metode berbeda untuk memprediksi hasil biner tertentu (sebut mereka 'Sukses' dan 'Kegagalan'). Data terlihat seperti ini:

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40

Saya ingin melakukan tes di antara 5 metode ini untuk menilai keunggulan relatif dari metode ini. Dengan kata lain, saya ingin memesan metode dalam urutan kinerja sebagai metode 1> metode 2> ... metode 5. Untuk menghindari masalah beberapa perbandingan, saya berencana untuk melakukan tes permutasi di sepanjang baris berikut:

Langkah 1: Kumpulkan semua data sehingga ukuran sampel keseluruhan adalah 114 dengan keseluruhan 37 keberhasilan.

Langkah 2: Pisahkan data secara acak menjadi 5 kelompok dengan ukuran sampel yang sesuai yaitu 28, 19, 24, 21 dan 22.

Langkah 3: Tambahkan penghitung jika urutan Percent_Success yang diamati dari langkah 2 konsisten dengan urutan data saya.

Langkah 4: Ulangi langkah 2 dan 3 berkali-kali (katakanlah 10000).

Nilai p yang diinginkan = Nilai Penghitung Akhir / 10000.

Pertanyaan:

Apakah prosedur di atas baik-baik saja?
Apakah ada sesuatu dalam R yang akan memungkinkan saya untuk melakukan tes di atas?
Setiap saran untuk perbaikan atau metode alternatif akan sangat membantu.

r multiple-comparisons permutation-test

— sxv
sumber

@whuber Anda mungkin punya kode R untuk dibagikan tentang bagaimana Anda melakukan ini?

— B_Miner

6

Prosedur yang diusulkan tidak menjawab pertanyaan Anda. Itu hanya memperkirakan frekuensi, di bawah hipotesis nol, yang dengannya urutan pengamatan Anda akan terjadi. Namun di bawah nol itu, dengan perkiraan yang baik, semua pesanan memiliki kemungkinan yang sama besar, di mana perhitungan Anda akan menghasilkan nilai mendekati 1/5! = sekitar 0,83%. Itu tidak memberi tahu kita apa-apa.

Satu pengamatan yang lebih jelas: urutan, berdasarkan data Anda, adalah 4> 5> 3> 2> 1. Perkiraan Anda tentang keunggulan relatif mereka adalah 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11%, dll.

Sekarang, anggap pertanyaan Anda menyangkut sejauh mana perbedaan perbedaan dalam proporsi dapat disebabkan oleh kebetulan di bawah hipotesis nol tanpa perbedaan. Anda memang dapat mengevaluasi sepuluh pertanyaan ini dengan tes permutasi. Namun, dalam setiap iterasi Anda perlu melacak sepuluh indikator perbedaan relatif dalam proporsi, bukan satu indikator global dari total pesanan. ${5 \choose 2} = 10$

Untuk data Anda, simulasi dengan 100.000 iterasi memberikan hasil

\begin{array}{ccccc} 5 & 4 & 3 & 2 \\ 1 & 0.02439 & 0.0003 & 0.13233 & 0.29961 \\ 2 & 0.09763 & 0.00374 & 0.29222 \\ 3 & 0.20253 & 0.00884 \\ 4 & 0.08702 \end{array}

$\begin{array}{ccccc} & 5 & 4 & 3 & 2 \cr 1 & 0.02439 & 0.0003 & 0.13233 & 0.29961 \cr 2 & 0.09763 & 0.00374 & 0.29222 & \cr 3 & 0.20253 & 0.00884 & & \cr 4 & 0.08702 & & & \end{array}$

Perbedaan proporsi antara metode 4 dan metode 1, 2, dan 3 tidak mungkin terjadi karena kebetulan (dengan probabilitas yang diperkirakan masing-masing 0,03%, 0,37%, 0,88%), tetapi perbedaan lainnya mungkin. Ada beberapa bukti (p = 2,44%) dari perbedaan antara metode 1 dan 5. Dengan demikian, Anda dapat memiliki keyakinan bahwa perbedaan dalam proporsi yang terlibat dalam hubungan 4> 3, 4> 2, dan 4> 1 semuanya positif , dan kemungkinan besar perbedaannya adalah 5> 1.

— whuber
sumber

1

Itu jawaban yang jauh lebih baik daripada saya! Saya gagal membaca pertanyaan dengan benar, saya takut (Langkah 3 khususnya). Saya berpikir untuk menghapus jawaban saya, tetapi saya mendukung interpretasi yang lebih besar dari pendekatan Bayesian. Itu benar-benar peringkat yang menarik.

— onestop

Hanya untuk memastikan saya mengerti dengan benar- Indikator yang melacak perbedaan relatif antara metode 4 dan 5 akan diperbarui setiap kali kita melihat perbedaan yang lebih besar dari 0,21.

— sxv

@ sxv Ya, benar. (Yah, saya benar-benar menggunakan lebih dari atau sama. Ikatan bisa terjadi. Saya pikir memasukkan kesetaraan di antara hasil yang signifikan adalah hal yang benar untuk dilakukan, karena kami sedang mengevaluasi probabilitas bahwa perbedaan sebesar ini atau lebih besar dapat terjadi secara kebetulan.)

— whuber

1

Prosedur uji permutasi Monte-Carlo yang disarankan Anda akan menghasilkan nilai-p untuk pengujian hipotesis nol bahwa probabilitas keberhasilannya sama untuk semua metode. Tapi ada sedikit alasan untuk melakukan uji permutasi Monte Carlo di sini ketika uji permutasi yang tepat layak dilakukan. Itu uji Fisher yang sebenarnya (well, beberapa orang memesan nama itu untuk tabel 2x2, dalam hal ini adalah uji eksak bersyarat). Saya baru saja mengetik data Anda ke Stata dan -tabi ..., tepatnya- memberi p = 0,0067 (untuk perbandingan, uji chi-squared Pearson memberikan p = 0,0059). Saya yakin ada fungsi setara dalam R yang guru R akan segera tambahkan.

Jika Anda benar-benar ingin melihat peringkat Anda sebaiknya menggunakan pendekatan Bayesian, karena dapat memberikan interpretasi sederhana sebagai probabilitas bahwa setiap metode adalah yang terbaik, terbaik kedua, terbaik ketiga, .... Itu datang pada harga yang mengharuskan Anda untuk meletakkan prioritas pada probabilitas Anda, tentu saja. Estimasi kemungkinan maksimum peringkat hanyalah urutan yang diamati, tetapi sulit untuk mengukur ketidakpastian dalam peringkat dalam kerangka kerja yang sering terjadi dengan cara yang dapat dengan mudah ditafsirkan, sejauh yang saya ketahui.

Saya menyadari bahwa saya belum menyebutkan beberapa perbandingan, tetapi saya hanya tidak melihat bagaimana hal ini terjadi.

— onestop
sumber

2

Fisher's exact test dan Pearson's chi-squares menguji hipotesis nol bahwa semua 5 metode sama-sama efektif terhadap alternatif yang setidaknya 1 lebih baik daripada yang lain. Nilai-p memberi tahu saya bahwa null ditolak. Jadi, jika saya ingin mengetahui metode mana yang sebenarnya lebih baik daripada yang lain tidak akan saya harus melakukan 10 perbandingan berpasangan?

— sxv