Apakah ada referensi yang melegitimasi penggunaan z-test yang tidak disatukan untuk membandingkan dua proporsi?


8

Tes-z untuk membandingkan dua proporsi adalah z=p^1p^2Var(p^1p^2) . Biasanya didefinisikan itu

Var(p^1p^2)=p^(1p^)(1/n1+1/n2),

dimana

p^=n1p^1+n2p^2n1+n2.

Apakah ada referensi tertulis yang melegitimasi saya untuk menggunakan varian unpooled, yaitu

Var(p^1p^2)=p^1(1p^1)n1+p^2(1p^2)n2?

Jawaban:


8

Ada sedikit diskusi tentang ini di situs AP .

Anda dapat menggunakan statistik apa pun yang Anda inginkan, asalkan Anda jelas tentang apa yang Anda lakukan dan melihat distribusi nol yang sesuai untuk menghitung nilai p atau ambang batas.

Tetapi beberapa statistik lebih baik daripada yang lain; dalam hal ini Anda akan mencari (a) distribusi nol yang mudah dihitung dan (b) kekuatan untuk mendeteksi perbedaan.

Tetapi saya tidak tahu mengapa Anda lebih menyukai varian yang tidak dikumpulkan daripada varians yang dikumpulkan untuk pengujian, meskipun itu bisa lebih disukai dalam menghitung interval kepercayaan untuk perbedaan tersebut.


+1 Itu diskusi bagus yang Anda temukan. Namun, tampaknya gagal menjawab pertanyaan tersebut, yaitu apakah entah bagaimana statistik yang dikumpulkan dapat diperbaiki untuk memberikan ukuran tes yang diinginkan dan - mungkin - menghasilkan kekuatan yang lebih besar. Untuk mengatasi masalah ini, saya telah memberikan balasan yang terpisah.
whuber

Tautan Anda tidak masuk ke diskusi; ia pergi ke halaman dengan sudut pandang Charles Peltier. Tidak yakin mengapa ini adalah jawaban yang dipilih karena tidak menjawab apa pun untuk saya. Gunakan statistik apa pun yang tidak cukup konkret.
Jarad

2
@Jarad Salah satu definisi dari kata "diskusi" adalah "perawatan terperinci dari topik tertentu"; itu yang saya maksud. Jawaban yang dipilih dipilih oleh orang yang mengajukan pertanyaan. Dengan "menggunakan statistik apa pun yang Anda inginkan", saya merujuk ke bagian "... referensi yang melegitimasi saya ..." dari pertanyaan.
Karl

9

Varians unpooled cenderung terlalu kecil. Ini karena di bawah hipotesis nol masih akan ada variasi peluang dalam dua proporsi yang diamati, meskipun probabilitas yang mendasarinya sama. Variasi peluang ini berkontribusi pada varians yang dikumpulkan tetapi tidak untuk varians yang tidak dikumpulkan.

Akibatnya, untuk statistik unpooled bahkan tidak kira-kira memiliki distribusi normal standar. Misalnya, ketika dan probabilitas sebenarnya keduanya , varians hanya bukan . Dengan menggunakan tabel dari distribusi normal standar, Anda akan mendapatkan nilai-p yang salah: mereka cenderung kecil secara artifisial, terlalu sering menolak nol ketika bukti tidak benar-benar ada.z n1=n21/2z1/21

Namun demikian, orang bertanya-tanya apakah ini dapat diperbaiki. Bisa. Pertanyaannya menjadi apakah nilai dikoreksi , berdasarkan estimasi yang tidak dikumpulkan, dapat memiliki kekuatan yang lebih besar untuk mendeteksi penyimpangan dari hipotesis nol. Beberapa simulasi cepat menunjukkan ini bukan masalahnya: tes dikumpulkan (dibandingkan dengan tes unpooled disesuaikan dengan benar) memiliki peluang lebih baik untuk menolak nol setiap kali nol adalah palsu. Karena itu saya tidak repot-repot mengerjakan rumus untuk koreksi yang tidak dikumpulkan; sepertinya tidak ada gunanya.z

Singkatnya, tes unpooled salah, tetapi dengan koreksi yang tepat, itu dapat dibuat sah. Namun, tampaknya lebih rendah dari tes yang dikumpulkan.


Anda mengatakan "Misalnya, ketika dan probabilitas sebenarnya adalah 1/2, varians z hanya 1/2 bukan 1." Tetapi jika varians unpooled terlalu kecil, varians z harus terlalu besar, dan saya pikir itu akan menjadi sedikit terlalu besar. n1=n2
Karl

Maafkan saya tetapi saya tidak dapat mengikuti teladan Anda. Mengapa varians menjadi 1? Nilai mana yang Anda asumsikan untuk dan ? zp^1p^2
glassy

@glassy memiliki (asimptotik) varians unit berdasarkan konstruksi : perbedaan telah distandarisasi dengan membaginya dengan varians yang diestimasikan. zp1^p1^
whuber

Saya tidak ingin mengganggu Anda tetapi sebenarnya saya tidak setuju dan mengapa jika memiliki varian unit berdasarkan konstruksi, Anda menyatakan bahwa variansnya bisa . Bagiku variansnya sama dengan dalam case dan yang lain. Maaf, saya tidak mengerti bagaimana jumlah ini memiliki rasio 2: 1. Memang, dalam kasus keduanya sama. z1/2p^(1p^)2np^1(1p^1)n+p^2(1p^2)np^1=p^2
glassy

Saya tidak setuju sama sekali. Mengapa tidak mengatakan juga bahwa pembangunan interval kepercayaan untuk perbedaan antara dua proporsi bertentangan dengan distribusi normal? Memang, pertama: dalam kasus apa pun tidak dapat memiliki distribusi , karena itu bukan berarti (atau jumlah atau kombinasi linear) dari variabel acak normal. Sebaliknya, ia menyatu langsung ke distribusi normal ketika menyimpang (atau dan , jika Anda suka). Kedua: penaksir varians yang dikumpulkan dan tidak dikumpulkan keduanya benar dan konsisten. ztnn1n2
glassy
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.