Jika beberapa perbandingan “direncanakan”, apakah Anda masih perlu mengoreksi beberapa perbandingan?

20

Saya meninjau makalah yang telah melakukan> 15 tes Chi Square 2x2 terpisah. Saya telah menyarankan bahwa mereka perlu mengoreksi beberapa perbandingan, tetapi mereka telah menjawab mengatakan bahwa semua perbandingan telah direncanakan, dan karena itu ini tidak perlu.

Saya merasa ini tidak boleh benar tetapi tidak dapat menemukan sumber daya yang secara eksplisit menyatakan apakah ini masalahnya.

Adakah yang bisa membantu dengan ini?

Memperbarui:

Terima kasih atas semua tanggapan Anda yang sangat membantu. Menanggapi permintaan @ gung untuk beberapa informasi lebih lanjut tentang studi dan analisis, mereka membandingkan data jumlah untuk dua jenis peserta (siswa, non-siswa) dalam dua kondisi, dalam tiga periode waktu. Beberapa uji 2x2 Chi Square membandingkan setiap periode waktu, dalam setiap kondisi, untuk setiap jenis peserta (jika itu masuk akal; misalnya siswa, kondisi 1, periode 1 1 vs periode 2), sehingga semua analisis menguji hipotesis yang sama .

hypothesis-testing multiple-comparisons

— DrJay
sumber

2

Banyak orang yang melakukan beberapa perbandingan berencana untuk melakukan semuanya secara apriori . Mereka melakukannya karena mereka ingin mengendalikan keseluruhan tingkat kesalahan tipe I. Dalam beberapa situasi mungkin masuk akal untuk tidak memperbaiki beberapa perbandingan, tetapi bukan hanya perencanaan untuk melakukan semuanya sejak awal.

— Glen_b -Reinstate Monica

3

Bisakah Anda mengatakan sedikit lebih banyak tentang studi ini, data mereka, dan analisis di sana? Apakah jumlah> 15 untuk semua perbandingan yang mungkin, atau hanya% kecil? Berapa banyak data yang mereka miliki? Bagaimana masuk akal bahwa semua hipotesis itu a-apriori? Apakah semuanya penting? Apakah tes chi-squared independen satu sama lain? Pertimbangkan juga beberapa pertanyaan yang muncul dalam jawaban @ peuhp.

— gung - Reinstate Monica

4

Karena "mereka" cenderung tertarik untuk menemukan hasil yang signifikan, respons mereka mementingkan diri sendiri. Karena itu, beban ada pada mereka untuk menunjukkan mengapa pendekatan mereka sah, dan bukan pada Anda untuk menunjukkan bahwa itu tidak sah. Setiap upaya untuk menunjukkan bahwa beberapa koreksi perbandingan dapat diabaikan akan gagal segera setelah ia mempertimbangkan tingkat positif palsu kertas, dan oleh karena itu "mereka" harus (secara jujur) menghindari semua pertimbangan masalah itu atau memberikan argumen yang baik mengenai mengapa ini bukan masalah bagi audiens yang dituju.

— whuber

1

Saya akan sangat tergoda untuk merespons dengan tautan ke strip XKCD ini (yang, seperti yang Anda perhatikan, melibatkan serangkaian pengujian berulang yang direncanakan sepenuhnya ...).

— Ilmari Karonen

21

Ini adalah masalah IMHO kompleks dan saya ingin membuat tiga komentar tentang situasi ini.

Pertama dan secara umum, saya akan lebih fokus pada apakah Anda menghadapi studi konfirmasi dengan serangkaian hipotesis berbentuk baik yang didefinisikan dalam konteks argumentatif atau studi penjelasan di mana banyak indikator yang mungkin diamati daripada apakah mereka direncanakan atau tidak (karena Anda dapat cukup rencanakan untuk membuat semua perbandingan yang mungkin).

Kedua, saya juga akan fokus pada bagaimana nilai-p yang dihasilkan kemudian dibahas. Apakah mereka secara individu digunakan untuk melayani satu set kesimpulan definitif, atau mereka bersama-sama dibahas sebagai bukti dan kurangnya bukti?

Akhirnya, saya akan membahas kemungkinan bahwa> 15 hipotesis yang dihasilkan dari> 15 tes chi-square yang terpisah sebenarnya adalah ekspresi dari beberapa hipotesis tunggal (mungkin satu hipotesis) yang dapat dirangkum.

Lebih umum, terlepas dari apakah hipotesis ditentukan sebelumnya atau tidak, mengoreksi beberapa perbandingan atau tidak adalah masalah apa yang Anda sertakan dalam kesalahan tipe I. Dengan tidak mengoreksi MC, Anda hanya menyimpan kontrol tingkat kesalahan per tipe perbandingan. Jadi dalam hal banyak perbandingan, Anda memiliki tingkat kesalahan tipe I yang tinggi berdasarkan keluarga dan dengan demikian lebih rentan terhadap penemuan yang salah.

— peuhp
sumber

8

(+1) Mungkin perlu dijelaskan bahwa tingkat kesalahan bijaksana percobaan tidak dikendalikan oleh lima belas perbandingan individu yang sedang direncanakan; di sisi lain, kemungkinan perbandingan di luar lima belas yang tidak dipertimbangkan dalam protokol tidak perlu diperhitungkan dalam koreksi multi-perbandingan.

— Scortchi

@Scortchi Terima kasih atas masukan Anda, tetapi saya tidak mengerti apa yang Anda maksud dengan "tingkat kesalahan percobaan-bijaksana tidak dikendalikan oleh perbandingan lima belas individu yang direncanakan"?

— peuhp

1

Hanya poin dasar bahwa jika Anda ingin mengontrol probabilitas di bawah nol membuat satu atau lebih kesalahan Tipe I di semua tes yang Anda butuhkan untuk menggunakan beberapa prosedur perbandingan. Saya hanya menyebutkannya karena saya pernah mengalami kebingungan mengenai masalah ini sebelumnya.

— Scortchi

2

Perhatikan bahwa masalah yang sama persis ini muncul di utas yang sangat baru: aplikasi Post Hoc dari Beberapa Perbandingan .

— Michael R. Chernick

1

@Scortchi. Ok terima kasih atas klarifikasi dan masukan ini, ini memang harus ditentukan dengan jelas dalam jawaban saya. Akan menambahkan ini.

— peuhp

5

Mengingat pembaruan Anda pada desain saya menyarankan agar mereka melakukan beberapa bentuk model log-linear untuk menggunakan semua data sekaligus. Melakukan analisis sepotong-makan yang telah mereka lakukan tampaknya (a) tidak efisien (b) tidak ilmiah ketika menguji 15 hipotesis di mana pasti ada lebih sedikit hipotesis nyata.

Saya bukan penggemar mengoreksi multiplisitas sebagai refleks terkondisi tetapi dalam kasus ini jika mereka menolak pendekatan analitik yang lebih dalam maka saya akan menyarankan mereka benar.

— Nyonya
sumber

1

k

$k$

15

$15$

1

χ^{2}

$\chi^2$

4

Jika Anda mengganti kata 'direncanakan' dengan 'direncanakan', ini dapat membantu menghilangkan argumen yang ditawarkan oleh penulis. Pertimbangkan dua analisis statistik berbeda dari data yang sama:

'Kejahatan terencana' di mana setiap tes hipotesis yang memungkinkan dilakukan secara kombinatorial terlebih dahulu oleh 'otak kriminal statistik', rencananya adalah untuk mengadili masing-masing secara sistematis, dan memilih tes dengan nilai p terkecil sebagai 'temuan kunci' untuk mempromosikan di bagian Hasil, Diskusi dan Kesimpulan dari makalah, dan memang Judul juga.
'Kejahatan hasrat' di mana niat awalnya semata-mata untuk menghadapi data dengan satu hipotesis, tetapi "yah ... satu hal mengarah ke yang lain" dan beberapa uji hipotesis ad hoc "terjadi begitu saja" dalam hasrat ilmiah untuk pelajari "sesuatu ... apa saja! " dari data.

Either way, ini 'pembunuhan' - pertanyaannya adalah apakah itu di Tingkat Pertama atau Tingkat Kedua. Jelas, yang pertama secara moral lebih bermasalah. Kedengarannya bagi saya seolah-olah penulis di sini berusaha untuk mengklaim sesuatu yang bukan pembunuhan karena sudah direncanakan.

— David C. Norris
sumber

4

Tetapi melakukan beberapa perbandingan bukanlah kejahatan, direncanakan atau tidak. Perburuan adalah.

— Cliff AB

1

Makalah ini secara langsung menjawab pertanyaan Anda: http://jrp.icaap.org/index.php/jrp/article/view/514/417

(Frane, AV, "Tes Hipotesis yang Direncanakan Tidak Perlu Dibebaskan Dari Penyesuaian Multiplisitas", Jurnal Praktek Penelitian, 2015)

— Bonferroni
sumber