Apakah koreksi beberapa perbandingan diperlukan untuk “perbandingan beberapa” informal / visual?


9

Saya memiliki semacam pertanyaan filosofis tentang kapan koreksi perbandingan banyak diperlukan.

Saya mengukur sinyal bervariasi waktu kontinu (pada titik waktu diskrit). Peristiwa terpisah terjadi dari waktu ke waktu dan saya ingin memastikan apakah peristiwa-peristiwa ini memiliki efek signifikan pada sinyal yang diukur.

Jadi saya bisa mengambil sinyal rata-rata yang mengikuti suatu peristiwa, dan biasanya saya bisa melihat beberapa efek di sana dengan puncak tertentu. Jika saya memilih waktu puncak itu dan mengatakan t-test untuk menentukan apakah itu signifikan vs ketika peristiwa itu tidak terjadi, saya perlu melakukan beberapa koreksi perbandingan?

Meskipun saya hanya pernah melakukan satu uji-t (nilai 1 dihitung), dalam inspeksi visual awal saya memilih yang dengan efek potensial terbesar dari (katakanlah) 15 titik waktu tunda posting yang berbeda yang saya plot. Jadi apakah saya perlu melakukan beberapa koreksi perbandingan untuk 15 tes yang tidak pernah saya lakukan?

Jika saya tidak menggunakan inspeksi visual, tetapi hanya melakukan tes di setiap acara lag dan memilih yang tertinggi, saya pasti perlu memperbaiki. Saya hanya sedikit bingung apakah saya perlu atau tidak jika pemilihan 'penundaan terbaik' dibuat oleh beberapa kriteria lain daripada tes itu sendiri (misalnya pemilihan visual, rata-rata tertinggi dll.)

Jawaban:


11

Secara teknis, ketika Anda melakukan pemilihan visual di mana harus melakukan tes, Anda harus sudah benar untuk itu: mata dan otak Anda sudah melewati beberapa ketidakpastian dalam data, yang tidak Anda pertanggungjawabkan jika Anda hanya melakukan tes pada titik itu .

Bayangkan bahwa 'puncak' Anda benar-benar dataran tinggi, dan Anda memilih sendiri perbedaan 'puncak', kemudian jalankan tes itu dan ternyata hampir tidak signifikan. Jika Anda menjalankan tes sedikit lebih ke kiri atau ke kanan, hasilnya bisa berubah. Dengan cara ini, Anda harus memperhitungkan proses pemilihan sebelumnya: Anda tidak memiliki kepastian yang Anda nyatakan! Anda menggunakan data untuk melakukan pemilihan, sehingga Anda secara efektif menggunakan informasi yang sama dua kali.

Tentu saja, dalam praktiknya, sangat sulit untuk menghitung sesuatu seperti proses memilih sendiri, tetapi itu tidak berarti Anda tidak boleh (atau setidaknya mengambil / menyatakan interval kepercayaan yang dihasilkan / hasil tes dengan sebutir garam).

Kesimpulan : Anda harus selalu mengoreksi beberapa perbandingan jika Anda melakukan beberapa perbandingan, terlepas dari bagaimana Anda memilih perbandingan itu. Jika mereka tidak memilih sebelum melihat data, Anda harus memperbaikinya sebagai tambahan.

Catatan: alternatif untuk mengoreksi pemilihan awal manual (mis. Ketika secara praktis tidak mungkin) mungkin untuk menyatakan hasil Anda sehingga mereka jelas mengandung referensi ke pemilihan manual. Tapi itu bukan 'penelitian yang dapat direproduksi', saya kira.


1
Selalu melakukan koreksi, kembangkan tingkat kesalahan tipe II Anda. Jika Anda memiliki semua hasil yang signifikan sebelum koreksi, Anda mungkin kehilangan semuanya setelah koreksi, tidak memperhitungkan kemungkinan rendah untuk mendapatkan semua hasil yang signifikan. Ini mungkin tergantung pada biaya kesalahan tipe I atau tipe II dalam konteks Anda.
Etienne Low-Décarie

Nick memberikan jawaban yang ingin saya berikan jika saya pertama kali merespons. Namun dalam pengaturan awal Anda (mkpitas) mengatakan bahwa jika Anda benar-benar melakukan 15 tes, Anda tidak perlu melakukan koreksi multiplisitas. Saya tidak mengerti mengapa Anda mengatakan itu. Saya pikir dalam hal ini perlunya koreksi multiplisitas menjadi lebih jelas. @etienne poin Anda berlaku untuk koreksi FWER yang sangat ketat dalam mengendalikan kesalahan tipe I. Jika Anda menggunakan FDR Anda tidak akan mengorbankan banyak kekuatan.
Michael R. Chernick

8

Dahulu, di salah satu kelas statistik pertama saya, saya membaca tentang ini dalam sebuah teks (saya pikir itu adalah edisi lama buku Cohen tentang regreession) di mana dikatakan "ini adalah pertanyaan tentang mana orang yang masuk akal dapat berbeda".

Tidak jelas bagi saya bahwa ada orang yang perlu mengoreksi beberapa perbandingan, atau, jika mereka lakukan, selama periode atau serangkaian perbandingan apa yang harus mereka koreksi. Setiap artikel? Setiap regresi atau ANOVA? Semua yang mereka terbitkan pada subjek? Bagaimana dengan yang diterbitkan orang LAIN?

Ketika Anda menulis di baris pertama Anda, itu filosofis.


4
Anda benar bahwa ada pertanyaan tentang berapa banyak perbandingan yang dilakukan, tetapi saya tidak berpikir itu menyiratkan kesimpulan Anda. Orang yang beralasan dapat berbeda karena mereka memiliki tujuan yang berbeda dan penilaian yang berbeda (fungsi kerugian) untuk hasil yang mungkin. Jika Anda harus mengoreksi beberapa perbandingan, ini karena ini mengarah pada kerugian yang diharapkan lebih baik. Karena itu, ini adalah masalah yang sangat praktis, bukan sekadar "filosofi," dan ada cara-cara rasional untuk menyelesaikannya di mana orang yang berakal sehat dapat setuju.
whuber

2
@whuber Anda pasti benar dalam beberapa situasi. Terkadang ada fungsi kerugian yang masuk akal, meskipun seringkali sulit untuk mendapatkannya secara eksplisit. Tapi di lain waktu, misalnya dalam pekerjaan eksplorasi, saya mengalami kesulitan melihat bagaimana fungsi kerugian mungkin terjadi. Tentu saja, seluruh ide fungsi kerugian membuat kita jauh dari figur p = 0,05, dan asumsi khas bahwa daya = 0,8 atau 0,9 cukup baik, dan ke (menurut saya) gagasan yang lebih masuk akal bahwa kami membangun ini dengan alasan yang lebih substantif.
Peter Flom

1
Terima kasih telah mengklarifikasi ruang lingkup dan semangat balasan Anda, Peter.
whuber

4
Saya marah ketika orang mengatakan pengujian multiplisitas tidak masalah. Saya melihat sikap ini terlalu sering diungkapkan dalam penelitian medis. Anda dapat menunjuk ke banyak makalah yang mencapai kesimpulan yang salah karena multiplisitas diabaikan. Sangat penting untuk tidak mempublikasikan makalah dengan kesimpulan yang salah dalam kedokteran karena ini mempengaruhi bagaimana pasien dirawat dan nyawa dipertaruhkan. Multiplisitas berkontribusi pada bias publikasi (karena ketika suatu masalah dipelajari berkali-kali hanya penelitian dengan hasil signifikan yang dipublikasikan) yang merupakan masalah serius dalam analisis meta,
Michael R. Chernick

1
@MichaelChernick, saya setuju - ini sangat bermasalah ketika orang mengabaikan beberapa koreksi pengujian. Namun, saya pikir Peter mengemukakan poin yang bagus - apa yang harus menjadi ruang lingkup pengujian berganda? Semua tes dilakukan dalam satu kertas? Semua tes dilakukan dengan satu set data tunggal? Semua tes dilakukan sejak awal waktu? Tampaknya tidak ada jawaban yang jelas benar.
Makro

4

Jika Anda mencoba membuat keputusan satu kali tentang kenyataan dan ingin mengendalikan tingkat di mana Anda menolak hipotesis nol, maka Anda akan menggunakan pengujian signifikansi hipotesis nol (NHST) dan ingin menggunakan koreksi untuk beberapa perbandingan. Namun, seperti yang dicatat Peter Flom dalam jawabannya, tidak jelas bagaimana mendefinisikan set perbandingan yang akan digunakan untuk koreksi. Pilihan termudah adalah serangkaian perbandingan yang diterapkan pada kumpulan data yang diberikan, dan ini adalah pendekatan yang paling umum.

Namun, sains bisa dibilang paling baik dipahami sebagai sistem kumulatif di mana keputusan satu kali tidak diperlukan dan pada kenyataannya hanya berfungsi untuk mengurangi efisiensi akumulasi bukti (mengurangi bukti yang diperoleh menjadi sedikit informasi). Dengan demikian, jika seseorang mengikuti pendekatan ilmiah yang tepat untuk analisis statistik, menghindari NHST untuk alat-alat seperti rasio kemungkinan (mungkin juga pendekatan Bayesian), maka "masalah" dari beberapa perbandingan menghilang.


1

Alternatif yang mungkin untuk koreksi, tergantung pada pertanyaan Anda, adalah menguji signifikansi jumlah nilai-p. Anda bahkan dapat menghukum diri sendiri untuk tes yang tidak dilakukan dengan menambahkan nilai p tinggi.

Perpanjangan (yang tidak membutuhkan independensi) dari metode Fisher (yang membutuhkan independensi pengujian) dapat digunakan.

Misalnya. Metode Kost


Ini adalah contoh prosedur yang digunakan dalam meta-analisis ketika studi individu hanya menyediakan nilai-p atau data tidak dapat digabungkan tetapi setiap studi memiliki nilai p yang dihitung. Juga metode kombinasi Fisher dan normal terbalik adalah cara untuk membuat aturan berhenti dalam desain adaptif.
Michael R. Chernick

1

Satu hal yang sangat penting untuk diingat adalah bahwa koreksi pengujian berganda mengasumsikan tes independen. Jika data yang Anda analisis tidak independen, hal-hal menjadi sedikit lebih rumit daripada sekadar mengoreksi jumlah tes yang dilakukan, Anda harus memperhitungkan korelasi antara data yang dianalisis atau koreksi Anda mungkin akan terlalu konservatif dan Anda akan memiliki tingkat kesalahan tipe II yang tinggi. Saya telah menemukan validasi silang, tes permutasi, atau bootstrap dapat menjadi cara yang efektif untuk menangani beberapa perbandingan jika digunakan dengan benar. Orang lain telah menyebutkan menggunakan FDR, tetapi ini dapat memberikan hasil yang salah jika ada banyak non-independensi dalam data Anda karena mengasumsikan nilai-p seragam di semua tes di bawah nol.


2
Selamat datang di situs, Matt. Mengenai kalimat pembuka Anda: Satu hal yang sangat penting untuk diingat adalah bahwa beberapa pengujian koreksi mengasumsikan pengujian independen. Perhatikan bahwa ini berlaku untuk beberapa prosedur koreksi pengujian ganda, tetapi tentu saja tidak semua. Misalnya, yang paling sederhana (Bonferroni) tidak membuat asumsi independensi, dan, memang sangat tidak efisien jika tes benar-benar independen! :-) Juga, dalam pengaturan distribusi kontinu, distribusi (marjinal) nilai- tunggal akan seragam di bawah nol; Anda mungkin mempertimbangkan untuk mengedit untuk mengklarifikasi komentar Anda. p
kardinal
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.