Apa yang salah dengan penyesuaian Bonferroni?

23

Saya membaca makalah berikut: Perneger (1998) Apa yang salah dengan penyesuaian Bonferroni .

Penulis merangkum dengan mengatakan bahwa penyesuaian Bonferroni memiliki, paling-paling, aplikasi terbatas dalam penelitian biomedis dan tidak boleh digunakan ketika menilai bukti tentang hipotesis spesifik:

Poin ringkasan:

Menyesuaikan signifikansi statistik untuk jumlah tes yang telah dilakukan pada data studi — metode Bonferroni — menciptakan lebih banyak masalah daripada menyelesaikannya.

Metode Bonferroni berkaitan dengan hipotesis nol umum (bahwa semua hipotesis nol adalah benar secara bersamaan), yang jarang menarik atau digunakan untuk peneliti

Kelemahan utama adalah bahwa interpretasi temuan tergantung pada jumlah tes lain yang dilakukan

Kemungkinan kesalahan tipe II juga meningkat, sehingga perbedaan yang benar-benar penting dianggap tidak signifikan

Cukup dengan menggambarkan tes signifikansi apa yang telah dilakukan, dan mengapa, umumnya merupakan cara terbaik untuk menangani beberapa perbandingan

Saya memiliki kumpulan data berikut dan saya ingin melakukan beberapa koreksi pengujian TETAPI saya tidak dapat memutuskan untuk metode terbaik dalam kasus ini.

masukkan deskripsi gambar di sini

Saya ingin tahu apakah sangat penting untuk melakukan koreksi semacam ini untuk semua set data yang berisi daftar cara dan apa metode terbaik untuk koreksi dalam kasus ini?

hypothesis-testing multiple-comparisons bonferroni

— goro
sumber

apa sebenarnya 'maksud A', 'meanB' ...?

3

Dengan tidak mengoreksi beberapa perbandingan, Anda menghadapi risiko hasil yang tidak dapat direproduksi. Banyak bidang, termasuk kedokteran dan psikologi, baru-baru ini menemukan bahwa itulah yang sebenarnya terjadi: banyak dari apa yang mereka "ketahui" berdasarkan nilai-p yang tidak dikoreksi ternyata tidak seperti itu. Tanpa bermaksud tampak sinis, sepertinya pilihannya jelas: peneliti yang perlu memenuhi kriteria nilai-p untuk menerbitkan tidak akan benar; skeptis yang menginginkan ilmu akan.

— whuber

@whuber tapi bisakah itu masih dianggap dapat direproduksi ketika begitu banyak metode berbeda untuk mengoreksi nilai-p tersedia? Dalam jawabannya, martino bahkan memberikan panduan untuk memilih antara metode yang kurang konservatif atau lebih kuat.

— Nakx

@Nakx Reproducibility hanya secara longgar dikaitkan dengan prosedur statistik: ini mengacu pada apakah hasil yang sebanding akan diperoleh atau tidak ketika penelitian dilakukan secara independen oleh orang lain (dan mungkin dalam upaya untuk mereplikasi, hipotesis tunggal yang jelas akan diartikulasikan di muka dan prosedur statistik yang sesuai dengan hipotesis tersebut akan digunakan). Jika prosedur asli tidak menghasilkan nilai-p yang benar, maka ketika digunakan berkali-kali untuk banyak studi independen, rata-rata akan membuat lebih banyak penentuan yang tidak dapat direproduksi daripada yang ingin atau harapkan para penggunanya.

— whuber

23

Apa yang salah dengan koreksi Bonferroni selain konservatisme yang disebutkan oleh orang lain adalah apa yang salah dengan semua koreksi multiplisitas. Mereka tidak mengikuti prinsip-prinsip statistik dasar dan sewenang-wenang; tidak ada solusi unik untuk masalah multiplisitas di dunia yang sering terjadi. Kedua, penyesuaian multiplisitas didasarkan pada filosofi yang mendasari bahwa kebenaran dari satu pernyataan tergantung pada mana hipotesis lain dihibur. Ini sama dengan pengaturan Bayesian di mana distribusi sebelumnya untuk parameter yang menarik semakin konservatif karena parameter lain dipertimbangkan. Ini sepertinya tidak koheren. Orang bisa mengatakan bahwa pendekatan ini berasal dari para peneliti yang telah "dibakar" oleh sejarah percobaan positif palsu dan sekarang mereka ingin menebus kesalahan mereka.

Untuk sedikit memperluas, pertimbangkan situasi berikut. Seorang peneliti onkologi telah membuat karir mempelajari kemanjuran kemoterapi dari kelas tertentu. Semua 20 percobaan acak sebelumnya telah menghasilkan efikasi yang tidak signifikan secara statistik. Sekarang dia sedang menguji kemoterapi baru di kelas yang sama. Manfaat bertahan hidup signifikan dengan $P=0.04$ . Seorang kolega menunjukkan bahwa ada titik akhir kedua yang diteliti (penyusutan tumor) dan bahwa penyesuaian multiplisitas perlu diterapkan pada hasil bertahan hidup, yang membuat manfaat kelangsungan hidup tidak signifikan. Bagaimana kolega itu menekankan titik akhir kedua tetapi tidak peduli tentang penyesuaian untuk 20 upaya gagal sebelumnya untuk menemukan obat yang efektif? Dan bagaimana Anda mempertimbangkan pengetahuan sebelumnya tentang 20 studi sebelumnya jika Anda bukan orang Bayesian? Bagaimana jika tidak ada titik akhir kedua. Akankah kolega itu percaya bahwa manfaat bertahan hidup telah ditunjukkan, mengabaikan semua pengetahuan sebelumnya?

— Frank Harrell
sumber

2

Tidak jelas referensi untuk 'berulang'. Jika ada tes tunggal, tanpa penyesuaian multiplisitas diperlukan, kemungkinan hasil dengan

diulang tidak tinggi.

P = 0.04

$P=0.04$

— Frank Harrell

2

Untuk menjawab @MJA saya pikir ada dua pendekatan yang lebih disukai: (1) menjadi Bayesian atau (2) memprioritaskan hipotesis dan melaporkan hasilnya dalam konteks, dalam urutan prioritas.

— Frank Harrell

3

Tidak ada yang berprinsip tentang hal itu dan juga tidak persis sama sekali. Ketidaksamaan Bonferroni adalah batas atas hanya untuk kemungkinan kesalahan. Mengapa membelanjakan

merata pada 5 parameter? Mengapa tidak membuat wilayah ellipsoidal bukan persegi panjang untuk wilayah penerimaan? Mengapa tidak menggunakan metode Scheffe atau Tukey? Mengapa tidak menggunakan uji tipe ANOVA komposit sederhana? Anda tidak mencapai yang diinginkan

dengan menggunakan di kesetaraan.

α

$\alpha$

α

$\alpha$

— Frank Harrell

2

Anda menghindari dua tingkat kesalahan. Di bawah nol, Bonferroni PERSIS mempertahankan jumlah kesalahan yang diharapkan per keluarga. Ini memberikan BATASAN TERTINGGI pada probabilitas kesalahan "setidaknya satu" per keluarga (yang tergantung pada korelasi). Pengeluaran alfa secara merata pada 5 tes sangat logis mengingat tidak ada alasan khusus untuk memprioritaskan tes dengan cara yang berbeda. Diberikan konteks lain, ada alasan utama untuk melakukan sebaliknya. Anda tampaknya menyiratkan bahwa "tidak berprinsip" untuk menggunakan metode yang terdengar secara matematis hanya karena ada metode alternatif mengingat konteks, tujuan, dan asumsi lain.

— Bonferroni

2

@ Frankharrell Pertanyaan Anda yang lain hanya berfungsi untuk mengilustrasikan poin saya. Seringkali ada banyak pilihan statistik uji, prosedur uji, dll., Bahkan tanpa adanya multiplisitas. Itu tidak membuat metodologi "sewenang-wenang" dalam arti Anda tampaknya menyiratkan. Jika seseorang tertarik pada tes omnibus, maka tentu saja lakukan satu. Jika seseorang hanya tertarik pada tes univariat, maka tentu saja lakukan tes univariat. Apakah Anda serius menyarankan bahwa "sewenang-wenang" untuk memilih tes yang membahas pertanyaan yang Anda minati daripada beberapa pertanyaan lain?

— Bonferroni

12

Dia merangkum mengatakan bahwa penyesuaian Bonferroni, paling tidak, aplikasi terbatas dalam penelitian biomedis dan tidak boleh digunakan ketika menilai bukti tentang hipotesis tertentu.

Koreksi Bonferroni adalah salah satu teknik perbandingan berganda yang paling sederhana dan paling konservatif. Itu juga salah satu yang tertua dan telah meningkat pesat dari waktu ke waktu. Adalah adil untuk mengatakan bahwa penyesuaian Bonferroni memiliki aplikasi terbatas di hampir semua situasi. Hampir pasti ada pendekatan yang lebih baik. Artinya, Anda harus mengoreksi beberapa perbandingan tetapi Anda dapat memilih metode yang kurang konservatif dan lebih kuat.

Kurang Konservatif

Berbagai metode perbandingan melindungi agar tidak mendapatkan setidaknya satu hasil positif palsu dalam satu keluarga tes. Jika Anda melakukan satu tes pada level maka Anda membiarkan peluang 5% untuk mendapatkan false positive. Dengan kata lain, Anda menolak hipotesis nol Anda secara keliru. Jika Anda melakukan 10 tes pada tingkat maka ini meningkat menjadi = ~ 40% kemungkinan untuk mendapatkan hasil positif palsu. $\alpha$ $\alpha = 0.05$ $1-(1-0.05)^{10}$

Dengan metode Bonferroni Anda menggunakan pada ujung terendah skala (yaitu ) untuk melindungi keluarga Anda dari tes pada tingkat . Dengan kata lain, ini adalah yang paling konservatif. Sekarang, Anda dapat meningkatkan atas batas bawah yang ditetapkan oleh Bonferroni (yaitu membuat tes Anda kurang konservatif) dan masih melindungi keluarga tes Anda di level . Ada banyak cara untuk melakukan ini, metode Holm-Bonferroni misalnya atau lebih baik lagi False Discovery Rate $\alpha_b$ $\alpha_b = \alpha/n$ $n$ $\alpha$ $\alpha_b$ $\alpha$

Lebih bertenaga

Poin yang baik yang diangkat dalam makalah yang dirujuk adalah bahwa kemungkinan kesalahan tipe II juga meningkat sehingga perbedaan yang benar-benar penting dianggap tidak signifikan.

Ini sangat penting. Tes yang kuat adalah yang menemukan hasil yang signifikan jika ada. Dengan menggunakan koreksi Bonferroni Anda berakhir dengan tes yang kurang kuat. Karena Bonferroni konservatif, kekuatannya kemungkinan besar akan berkurang. Sekali lagi, salah satu metode alternatif misalnya False Discovery Rate, akan meningkatkan kekuatan tes. Dengan kata lain, Anda tidak hanya melindungi dari kesalahan positif, Anda juga meningkatkan kemampuan Anda untuk menemukan hasil yang benar-benar signifikan.

Jadi ya, Anda harus menerapkan beberapa teknik koreksi ketika Anda memiliki beberapa perbandingan. Dan ya, Bonferroni mungkin harus dihindari demi metode yang kurang konservatif dan lebih kuat

— martino
sumber

Ada beberapa alternatif - Holm Bonferroni misalnya sederhana dan mudah dimengerti. Mengapa tidak mencobanya. Katakanlah aplikasi Anda dalam ekspresi gen atau ekspresi protein di mana Anda menguji kemungkinan ribuan variabel dalam percobaan maka Anda FDR biasanya digunakan.

— martino

Metode Anda menghitung peluang 40% false positive dalam sepuluh tes didasarkan pada tes Anda sebagai peristiwa independen tetapi dengan data nyata ini sangat tidak mungkin menjadi kasus. Saya pikir itu setidaknya layak untuk dikomentari.

— Silverfish

Saya juga khawatir jawaban ini tampaknya mengacaukan metode mempertahankan tingkat kesalahan kekeluargaan dengan yang untuk tingkat penemuan palsu. Bukan ide yang buruk untuk membahas kedua hal ini, tetapi karena mereka melakukan pekerjaan yang berbeda, saya tidak berpikir mereka harus disajikan sebagai yang setara

— Silverfish

Tetapi jika saya mengerti dengan baik, FDR (false discovery rate) tidak menjamin kontrol kesalahan tipe I pada tingkat yang telah ditentukan? (lihat juga jawaban saya untuk pertanyaan ini)

Tetapi bukankah lebih transparan dan bermanfaat untuk melaporkan semua nilai-p mentah dalam sebuah artikel, sehingga pembaca dapat menilai sendiri validitasnya atau memilih dari sekian banyak metode penyesuaian yang ingin mereka gunakan?

— Nakx

5

Thomas Perneger bukan ahli statistik dan makalahnya penuh kesalahan. Jadi saya tidak akan menganggapnya terlalu serius. Ini sebenarnya telah banyak dikritik oleh orang lain. Misalnya, Aickin mengatakan makalah Perneger "hampir seluruhnya terdiri dari kesalahan": Aickin, "Ada metode lain untuk penyesuaian beberapa pengujian", BMJ. 1999 9 Januari; 318 (7176): 127.

Selain itu, tidak ada nilai-p dalam pertanyaan awal yang <<0,05, bahkan tanpa penyesuaian multiplisitas. Jadi mungkin tidak masalah penyesuaian apa (jika ada) yang digunakan.

— Bonferroni
sumber

4

Terima kasih untuk tautannya! Saya telah menambahkan referensi yang lebih lengkap. Ini masih lebih banyak komentar daripada jawaban & saya yakin Anda memiliki sesuatu yang menarik untuk ditambahkan, atau setidaknya ringkasan singkat dari apa yang dikatakan Aicken. Tidak ada hubungannya dengan itu: untuk mengatakan Perneger tidak memiliki keahlian dalam statistik tampaknya tidak benar (dengan standar yang masuk akal), ramah, atau berguna - apakah Anda mempertimbangkan untuk menghapus pernyataan itu?

— Scortchi

@Scortchi Saya telah mengubah "tidak memiliki keahlian dalam statistik" menjadi "bukan ahli statistik." Secara kebetulan, saya tidak setuju bahwa tidak berguna untuk membedakan pendapat pakar dari pendapat bukan pakar.

— Bonferroni

2

Sejauh yang saya tahu, Perneger tidak memiliki gelar dalam statistik dan tidak pernah menerbitkan makalah dalam jurnal statistik. Makalah yang dikutip dalam pertanyaan ini adalah artikel opini di BMJ yang disebut-sebut salah sepenuhnya. Jadi, apa yang seharusnya menjadi keahlian Perneger yang tak terbantahkan "di luar standar yang masuk akal?" Menjadi "ramah" seharusnya tidak menghalangi kebenaran.

— Bonferroni

3

Sejauh yang saya tahu dia adalah seorang profesor di rumah sakit universitas dengan gelar Master di Biostatistik & PhD dalam Epidemiologi yang mengajar di Statistik Medis & menerbitkan analisis uji klinis & studi observasional dalam jurnal medis. Jika Anda menyimpulkan dari "tidak ada keahlian statistik", saya pikir standar Anda agak lebih tinggi daripada yang mungkin Anda harapkan pembaca untuk mengasumsikan. (Itulah yang seharusnya saya katakan daripada standar itu tidak masuk akal.) Bagaimanapun, terima kasih telah mengeditnya!

— Scortchi

5

Mungkin ada baiknya untuk menjelaskan '' alasan di balik '' beberapa koreksi pengujian seperti yang dilakukan Bonferroni. Jika itu jelas maka Anda akan dapat menilai sendiri apakah Anda harus menerapkannya atau tidak.

$\mu$ $H_0: \mu=0$

$H_1: \mu \ne 0$ $H_0: \mu = 0$ $\alpha$

$H_0$ $H_0$

$H_0$ $H_0$ $H_1$

Bukti palsu adalah hal yang buruk dalam sains karena kami percaya telah mendapatkan pengetahuan yang benar tentang dunia, tetapi sebenarnya kami mungkin memiliki nasib buruk dengan sampel. Kesalahan semacam ini karenanya harus dikontrol. Oleh karena itu seseorang harus meletakkan batas atas pada kemungkinan bukti semacam ini, atau seseorang harus mengendalikan kesalahan tipe I. Ini dilakukan dengan memperbaiki tingkat signifikansi yang dapat diterima di muka.

$5\%$ $H_0$ $5\%$ $H_0$ $H_1$ $H_1$

Asumsikan sekarang bahwa kita memiliki dua parameter, dan kami ingin menunjukkan bahwa setidaknya satu berbeda dari nol. Mengikuti logika '' pembuktian dengan kontradiksi '' akan kita asumsikan $H_0: \mu_1=0 \& \mu_2=0$ $H_1: \mu1 \ne 0 | \mu_2 \ne 0$ $\alpha=0.05$

$H_0^{(1)}: \mu_1=0$ $H_0^{(1)}: \mu_1 \ne 0$ $H_1^{(2)}: \mu_2=0$ $H_1^{(2)}: \mu_2 \ne 0$ $\alpha=0.05$

$H_0^{(1)}$ but with that same sample I may also have bad luck with the sample for the second test and erroneously reject $H_0^{(1)}$

Therefore, the chance that at least one of the two is an erroneous rejection is 1 minus the probability that both are not rejected, i.e. $1-(1-0.05)^2=0.0975$ , where it was assumed that both tests are independent. In other words, the type I error has ''inflated'' to 0.0975 which is almost double $\alpha$ .

The important fact here is that the two tests are based on one and the sampe sample !

Note that we have assumed independence. If you can not assume independence then you can show, using the Bonferroni inequality$ that the type I error can inflate up to 0.1.

Note that Bonferroni is conservative and that Holm's stepwise procedure holds under the same assumptions as for Bonferroni, but Holm's procedure has more power.

When the variables are discrete it's better to use test statistics based on the minimum p-value and if you are ready to abandon type I error control when doing a massive number of tests then False Discovery Rate procedures may be more powerful.

EDIT :

If e.g. (see the example in the answer by @Frank Harrell)

$H_0^{(1)}: \mu_1=0$ versus $H_1^{(1)}: \mu_1 \ne 0$ is the a test for the effect of a chemotherapy and

$H_0^{(2)}: \mu_1=0$ versus $H_1^{(2)}: \mu_2 \ne 0$ is the test for the effect on tumor shrinkage,

then, in order to control the type I error at 5% for the hypothesis $H_0^{(12)}: \mu_1=0 \& \mu_2 = 0$ versus $H_1^{(12)}: \mu_1 \ne 0 | \mu_2 \ne 0$ (i.e. the test that at least one of them has an effect) can be carried out by testing (on the same sample)

$H_0^{(1)}$ versus $H_1^{(1)}$ at the 2.5% level and also $H_0^{(2)}$ versus $H_1^{(2)}$ at the 2.5% level.

2

I think this question benefits from an answer like this but I suggest tightening the wording of "So if we fix our significance level at 5% then we are saying that we are ready to accept to find false evidence (because of bad luck with the sample) with a chance of 5%"... That is only the probability of error if the null is actually true, and that's worth saying. (Is "false evidence" a common term? I'm more used to seeing "false positive".)

— Silverfish

@Silverfish; I re-phresed it a bit, do you think it is better like this ?

1

I think that's better - "statistically proven" would probably benefit from rephrasing too, I know this is how many people interpret p<0.05 or whatever but of course it isn't really a proof!

— Silverfish

@Silverfish: I fully agree that is not a ''proof'' but I used the term for didactial reasons, because I started by the analogy to proof by contradiction. I will add such a clarification at the begining

Your Edit is confusing. "The effect of chemotherapy" in Frank's example is measured via two measures: survival rate and tumor shrinkage. Both can be influenced by chemo. The hypothesis is obviously that chemo works. But "works" can be quantified in two different ways. That's the vagueness aspect I've been talking about in your new thread.

— amoeba says Reinstate Monica

4

A nice discussion of Bonferroni correction and effect size http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html Also, Dunn-Sidak correction and Fisher's combined probabilities approach are worth considering as alternatives. Regardless of the approach, it is worth reporting both adjusted and raw p-values plus effect size, so that the reader can have the freedom of interpreting them.

— katya
sumber

The advice to present both raw and adjusted p-values has always seemed sensible to me but is it generally considered the norm, or even acceptable?

— Silverfish

3

For one, it's extremely conservative. The Holm-Bonferroni method accomplishes what the Bonferonni method accomplishes (controlling the Family Wise Error Rate) while also being uniformly more powerful.

— TrynnaDoStat
sumber

Is that mean that I need to use this method to correct my results or I should accept the results depending on my hypothesis.

— goro

I dont know what you mean by "I should accept the results depending on my hypothesis" but yes you should apply some sort of multiple testing correction because otherwise you are highly inflating type 1 error.

— TrynnaDoStat

What I meant by "I should accept the results depending on my hypothesis" is that I ran my analysis in three different ways including GLM and permutation methods. all the methods gave me significant results and those results support my hypothesis that I should have significant difference between the groups. When I used Bonferroni for multiple correction All my results was not significant. Thats why I am confused.Is this method not optimal for my analysis so I can use different one or can I trust my results depending on the results from the other methods without to use Bonferroni?

— goro

1

Okay, I understand what you are saying. If you tested the same hypothesis 3 different ways I would not apply a multiple testing correction. The reason being that these three test results are presumably highly dependent on each other.

— TrynnaDoStat

3

One should look at the "False Discovery Rate" methods as a less conservative alternative to Bonferroni. See

John D. Storey, "THE POSITIVE FALSE DISCOVERY RATE: A BAYESIAN INTERPRETATION AND THE q-VALUE," The Annals of Statistics 2003, Vol. 31, No. 6, 2013–2035.

— John Mark
sumber

3

These control different things though. FDR ensures that up no more 5% (or whatever your alpha is) of your calls are false positives, which is different from preserving the familywise error rate (which is what Bonferroni does).

— Matt Krause

@Matt Krause: And if I understand well, the FDR (false discovery rates) do not guarantee type I error control at a predetermined level ? (see also my answer to this question)