Apakah menolak hipotesis menggunakan nilai-p setara dengan hipotesis tidak termasuk dalam interval kepercayaan?

Sementara secara formal menurunkan interval kepercayaan dari estimasi, saya berakhir dengan formula yang sangat mirip dengan cara $p$ -value dihitung.

Jadi pertanyaannya: apakah mereka secara formal setara? Yaitu menolak hipotesis $H_0 = 0$ dengan nilai kritis $\alpha$ setara dengan $0$ tidak termasuk dalam interval kepercayaan dengan nilai kritis $\alpha$ ?

hypothesis-testing confidence-interval p-value

— Jorge Leitao
sumber

@ f coppens: ya, jika dua tes digunakan, dengan statistik berbeda, Anda berakhir dengan dua interval kepercayaan yang berbeda. Tapi saya pikir OP menemukan fakta dasar: baik interval kepercayaan dan nilai-p diperoleh dari distribusi statistik yang sama, sehingga keduanya dapat digunakan untuk memutuskan menolak hipotesis nol atau tidak.

— StijnDeVuyst

@StijnDeVuyst: Interval Clopper / Pearon untuk proporsi dan interval Sterne untuk proporsi keduanya berasal dari distribusi Binomial dengan ukuran yang sama (p tidak diketahui karena mereka menemukan interval kepercayaan untuk p). Perbedaan antara Clopper / Pearson dan Sterne adalah karena asimetri dari kepadatan Binomial. Interval Sterne mencoba untuk meminimalkan lebar interval dan Clopper_pearson mencoba menjaga simetri (tetapi karena kemiringan Binomial ini hanya dapat ditemukan sekitar).

Tidak secara umum, tidak. Pertimbangkan kasus di mana lebar interval adalah fungsi dari nilai parameter yang diestimasikan, sedangkan untuk pengujian lebar interval adalah fungsi dari yang dihipotesiskan. Contoh yang jelas akan menguji p binomial. Mari kita gunakan kira-kira normal. untuk kesederhanaan (meskipun bentuk argumen tidak bergantung padanya). Pertimbangkan n = 10, dan nol dari p = 0,5. Bayangkan mengamati 2 kepala; null tidak ditolak (karena "2" berada di dalam interval 95% sekitar 0,5) tetapi CI untuk p tidak termasuk 0,5 (karena CI lebih sempit daripada lebar interval di bawah nol.

— Glen_b -Reinstate Monica

Atau jika Anda membutuhkannya cukup besar sehingga perkiraan normal baik, coba 469 head dalam 1000 kali lemparan, untuk H0 p = 0,5; lagi, 95% CI untuk p tidak termasuk 0,5 tetapi tes 5% tidak menolak, karena lebar interval yang sesuai di bawah H0 lebih lebar daripada di bawah alternatif (yang merupakan asal Anda melakukan CI).

— Glen_b -Reinstate Monica

@Glen_b: Sepertinya stats.stackexchange.com/questions/173005 pertanyaan yang lebih baru ini memberikan contoh persis situasi yang Anda gambarkan di sini.

— Amuba kata Reinstate Monica

Jawaban:

Iya dan tidak.

Pertama "ya"

Apa yang Anda amati adalah bahwa ketika tes dan interval kepercayaan didasarkan pada statistik yang sama, ada kesetaraan di antara mereka: kita dapat menafsirkan nilai- sebagai nilai terkecil dari yang nilai nol parameter akan dimasukkan dalam interval kepercayaan . $p$ $\alpha$ $1-\alpha$

Biarkan menjadi parameter yang tidak diketahui dalam ruang parameter , dan biarkan sampel menjadi realisasi dari variabel acak . Untuk kesederhanaan, menentukan interval kepercayaan sebagai random selang sehingga yang cakupan probabilitas $\theta$ $\Theta\subseteq\mathbb{R}$ $\mathbf{x}=(x_1,\ldots,x_n)\in\mathcal{X}^ n\subseteq\mathbb{R}^n$ $\mathbf{X}=(X_1,\ldots,X_n)$ $I_\alpha(\mathbf{X})$ (Anda juga bisa mempertimbangkan interval yang lebih umum, di mana probabilitas cakupan dibatasi oleh atau kira-kira sama dengan . Alasannya analog.)

P_{θ} (θ \in I_{α} (X)) = 1 - α for all α \in (0, 1) .

$P_\theta(\theta\in I_\alpha(\mathbf{X}))= 1-\alpha\qquad\mbox{for all }\alpha\in(0,1).$

1 - α

$1-\alpha$

Pertimbangkan uji dua sisi dari hipotesis titik-nol terhadap alternatif . Misalkan menunjukkan nilai p dari tes. Untuk , ditolak pada level jika $H_0(\theta_0): \theta=\theta_0$ $H_1(\theta_0): \theta\neq \theta_0$ $\lambda(\theta_0,\mathbf{x})$ $\alpha\in(0,1)$ $H_0(\theta_0)$ $\alpha$ . Level rejection regionadalah himpunan yang mengarah pada penolakan : $\lambda(\theta_0,x)\leq\alpha$ $\alpha$ $\mathbf{x}$ $H_0(\theta_0)$

R_{α} (θ_{0}) = {x \in R^{n} : λ (θ_{0}, x) \leq α} .

$R_\alpha(\theta_0)=\{\mathbf{x}\in\mathbb{R}^n: \lambda(\theta_0,\mathbf{x})\leq\alpha\}.$

Sekarang, pertimbangkan keluarga tes dua sisi dengan nilai-p , untuk . Untuk keluarga seperti itu, kita dapat mendefinisikan daerah penolakan terbalik $\lambda(\theta,\mathbf{x})$ $\theta\in\Theta$

Q_{α} (x) = {θ \in Θ : λ (θ, x) \leq α} .

$Q_\alpha(\mathbf{x})=\{\theta\in\Theta: \lambda(\theta,\mathbf{x})\leq\alpha\}.$

Untuk sembarang , ditolak jika , yang terjadi jika dan hanya jika , yaitu, Jika tes didasarkan pada statistik uji dengan distribusi nol mutlak benar-benar benar-benar ditentukan, maka $\theta_0$ $H_0(\theta_0)$ $\mathbf{x}\in R_\alpha(\theta_0)$ $\theta_0\in Q_\alpha(\mathbf{x})$

x \in R_{α} (θ_{0}) \Leftrightarrow θ_{0} \in Q_{α} (x) .

$\mathbf{x}\in R_\alpha(\theta_0) \Leftrightarrow \theta_0\in Q_\alpha(\mathbf{x}).$

bawah

. Kemudian

Karena persamaan ini berlaku untuk

λ (θ_{0}, X) \sim U (0, 1)

$\lambda(\theta_0,\mathbf{X})\sim \mbox{U}(0,1)$

H_{0} (θ_{0})

$H_0(\theta_0)$

P_{θ_{0}} (X \in R_{α} (θ_{0})) = P_{θ_{0}} (λ (θ_{0}, X) \leq α) = α .

$P_{\theta_0}(\mathbf{X}\in R_\alpha(\theta_0))=P_{\theta_0}(\lambda(\theta_0,\mathbf{X})\leq\alpha)=\alpha.$

θ_{0} \in Θ

$\theta_0\in\Theta$ dan karena persamaan di atas menunjukkan bahwa

maka set acak

selalu mencakup parameter benar

dengan probabilitas

. Akibatnya, membiarkan

menunjukkan komplemen dari

P_{θ_{0}} (X \in R_{α} (θ_{0})) = P_{θ_{0}} (θ_{0} \in Q_{α} (X)),

$P_{\theta_0}(\mathbf{X}\in R_\alpha(\theta_0))=P_{\theta_0}(\theta_0\in Q_\alpha(\mathbf{X})),$

Q_{α} (x)

$Q_\alpha(\mathbf{x})$

θ_{0}

$\theta_0$

α

$\alpha$

Q_{α}^{C} (x)

$Q_\alpha^C(\mathbf{x})$

, untuk semua

kita memiliki

berarti bahwa komplemen dari daerah penolakan terbalik adalahinterval kepercayaan

untuk

Q_{α} (x)

$Q_\alpha(\mathbf{x})$

θ_{0} \in Θ

$\theta_0\in\Theta$

P_{θ_{0}} (θ_{0} \in Q_{α}^{C} (X)) = 1 - α,

$P_{\theta_0}(\theta_0\in Q_\alpha^C(\mathbf{X}))=1-\alpha,$

1 - α

$1-\alpha$

θ

$\theta$

$z$ $\theta$ $\bar{x}$ $\sigma=1$ $H_0(\theta)$ $(\bar{x},\theta)$ $R_{0.05}(-0.9)=(-\infty,-1.52)\cup(-0.281,\infty)$ $I_{0.05}(1/2)=Q_{0.05}^C(1/2)=(-0.120,1.120)$

(Banyak dari ini diambil dari tesis PhD saya .)

Sekarang untuk "tidak"

$\theta$ $X$

Fenomena ini berkaitan dengan masalah yang terkait dengan interval seperti itu yang tidak disarangkan, yang berarti bahwa interval 94% bisa lebih pendek dari interval 95%. Untuk lebih lanjut tentang ini, lihat Bagian 2.5 dari makalah saya terbaru ini (untuk muncul di Bernoulli).

Dan yang kedua "tidak"

$\theta_0=0$

Dan terkadang "ya" bukanlah hal yang baik

Seperti yang ditunjukkan oleh f coppens dalam komentar, terkadang interval dan tes memiliki tujuan yang agak bertentangan. Kami ingin interval pendek dan tes dengan daya tinggi, tetapi interval terpendek tidak selalu sesuai dengan tes dengan daya tertinggi. Untuk beberapa contohnya, lihat makalah ini (distribusi normal multivariat), atau ini (distribusi eksponensial), atau Bagian 4 dari tesis saya .

Bayesians juga bisa mengatakan ya dan tidak

Beberapa tahun yang lalu, saya memposting pertanyaan di sini tentang apakah uji-interval-kesetaraan ada juga dalam statistik Bayesian. Jawaban singkatnya adalah bahwa dengan menggunakan pengujian hipotesis Bayesian standar, jawabannya adalah "tidak". Dengan sedikit merumuskan ulang masalah pengujian, jawabannya bisa "ya". (Upaya saya menjawab pertanyaan saya sendiri akhirnya berubah menjadi kertas !)

— MånsT
sumber

Jawaban yang bagus (+1) dan (Anda sebagian melakukannya) mungkin baik untuk menunjukkan fakta bahwa kadang-kadang interval kepercayaan dan tes hipotesis memiliki (kemungkinan) tujuan yang saling bertentangan: seseorang mencoba untuk menemukan interval kepercayaan 'sekecil mungkin' sementara untuk pengujian hipotesis, seseorang mencoba menemukan wilayah kritis 'sekuat mungkin'.

@ fcoppens: Terima kasih atas sarannya! Saya telah memperbarui jawaban saya dengan beberapa baris tentang ini.

— MånsT

Tesis Bagus! Apakah Anda bekerja pada interval Sterne juga?

@ fcoppens: Ya, saya telah melakukan beberapa pekerjaan pada interval Sterne, terutama dalam makalah ini

— MånsT

T_{1} = (\hat{p} - p) / \sqrt{\hat{p} (1 - \hat{p}) / n}

$T_1=(\hat{p}-p)/\sqrt{\hat{p}(1-\hat{p})/n}$

T_{2} = (\hat{p} - p) / \sqrt{p (1 - p) / n}

$T_2=(\hat{p}-p)/\sqrt{p(1-p)/n}$ . Perhatikan perbedaan dalam penyebutnya. Anda dapat membuat tes dan interval menggunakan statistik mana pun, dan selama Anda menggunakan statistik yang sama untuk keduanya, tidak akan ada perbedaan.

— MånsT

Ketika melihat parameter tunggal, ada kemungkinan bahwa tes tentang nilai parameter dan interval kepercayaan "ketidakcocokan" tergantung pada bagaimana mereka dibangun. Secara khusus, tes hipotesis adalah level $\alpha$ -test, jika menolak hipotesis nol proporsi $\leq \alpha$ saat hipotesis nol itu benar. Untuk alasan itu seseorang dapat mis menggunakan estimasi parameter model (misalnya varians) yang hanya valid di bawah hipotesis nol. Jika seseorang kemudian mencoba untuk membangun CI dengan membalikkan tes ini, cakupan mungkin tidak tepat di bawah hipotesis alternatif. Karena alasan itu, orang biasanya membuat interval kepercayaan secara berbeda sehingga cakupannya juga tepat di bawah alternatif, yang kemudian dapat menyebabkan ketidakcocokan (biasanya sangat kecil).

— Björn
sumber