Konteks
Ini agak mirip dengan pertanyaan ini , tetapi saya tidak berpikir itu adalah duplikat yang tepat.
Ketika Anda mencari instruksi bagaimana melakukan tes hipotesis bootstrap, biasanya dinyatakan bahwa boleh saja menggunakan distribusi empiris untuk interval kepercayaan tetapi Anda perlu mem-bootstrap dengan benar dari distribusi di bawah hipotesis nol untuk mendapatkan p- nilai. Sebagai contoh, lihat jawaban yang diterima untuk pertanyaan ini . Pencarian umum di internet sebagian besar tampaknya menemukan jawaban yang sama.
Alasan untuk tidak menggunakan nilai-p berdasarkan distribusi empiris adalah bahwa sebagian besar waktu kita tidak memiliki invarian terjemahan.
Contoh
Izinkan saya memberi contoh singkat. Kami memiliki koin dan kami ingin melakukan tes satu sisi untuk melihat apakah frekuensi kepala lebih besar dari 0,5
Kami melakukan percobaan dan mendapatkan kepala. Nilai p sebenarnya untuk tes ini adalah .
Di sisi lain jika kita melakukan bootstrap 14 dari 20 head kita, kita secara efektif mengambil sampel dari distribusi binomial dengan dan . Menggeser distribusi ini dengan mengurangi 0,2 kita akan mendapatkan hasil yang hampir tidak signifikan ketika menguji nilai observasi kami sebesar 0,7 terhadap distribusi empiris yang diperoleh.
Dalam hal ini perbedaannya sangat kecil, tetapi semakin besar ketika tingkat keberhasilan yang kami uji mendekati 1.
Pertanyaan
Sekarang biarkan saya sampai pada titik sebenarnya dari pertanyaan saya: cacat yang sama juga berlaku untuk interval kepercayaan. Bahkan, jika interval kepercayaan memiliki tingkat kepercayaan yang dinyatakan maka interval kepercayaan yang tidak mengandung parameter di bawah hipotesis nol sama dengan menolak hipotesis nol pada tingkat signifikansi .
Mengapa interval kepercayaan berdasarkan distribusi empiris diterima secara luas dan nilai-p tidak?
Apakah ada alasan yang lebih dalam atau orang-orang tidak konservatif dengan interval kepercayaan?
Dalam jawaban ini Peter Dalgaard memberikan jawaban yang tampaknya sesuai dengan argumen saya. Dia berkata:
Tidak ada yang salah tentang garis pemikiran ini, atau setidaknya tidak (jauh) lebih buruk daripada perhitungan CI.
Dari mana (banyak) itu berasal? Ini menyiratkan bahwa menghasilkan nilai-p dengan cara itu sedikit lebih buruk, tetapi tidak menjelaskan secara rinci.
Pikiran terakhir
Juga dalam Pengantar Bootstrap oleh Efron dan Tibshirani mereka mendedikasikan banyak ruang untuk interval kepercayaan tetapi tidak untuk nilai-p kecuali mereka dihasilkan di bawah distribusi hipotesis nol yang tepat, dengan pengecualian satu baris sekali pakai tentang kesetaraan umum dari interval kepercayaan dan nilai-p dalam bab tentang pengujian permutasi.
Mari kita kembali ke pertanyaan pertama yang saya tautkan. Saya setuju dengan jawaban oleh Michael Chernick, tetapi sekali lagi ia juga berpendapat bahwa interval kepercayaan dan nilai-p berdasarkan distribusi bootstrap empiris sama-sama tidak dapat diandalkan dalam beberapa skenario. Itu tidak menjelaskan mengapa Anda menemukan banyak orang memberi tahu Anda bahwa intervalnya ok, tetapi nilai-p tidak.