Bisakah Anda jelaskan mengapa ikatan statistik tidak ditolak secara naif ketika


12

Saya perlu bantuan untuk menjelaskan, dan mengutip teks statistik dasar, makalah atau referensi lain, mengapa umumnya tidak benar menggunakan statistik margin of error (MOE) yang dilaporkan dalam polling untuk secara naif mendeklarasikan ikatan statistik.

Contoh: Calon A memimpin Calon B dalam suatu jajak pendapat, persen, margin-of-error untuk pemilih yang disurvei.4,5 % 50039-314.5%500

Alasan teman saya seperti:

Karena kerumitan pemodelan statistik, margin of error berarti bahwa dukungan sejati A bisa serendah 34,5 persen dan B bisa setinggi 35,5 persen. Oleh karena itu, A dan B sebenarnya dalam statistik mati panas.

Semua bantuan dihargai dengan mengartikulasikan dengan jelas cacat pemikiran teman saya. Saya sudah mencoba menjelaskan bahwa secara naif menolak hipotesis "A lead B" jika . halSEBUAH-halB<2M.HAIE


Untuk diskusi lebih lanjut tentang ini, termasuk pendekatan untuk menggabungkan MOE dengan benar, lihat stats.stackexchange.com/questions/18215 .
whuber

Jawaban:


7

Upaya pertama saya pada jawaban cacat (lihat di bawah untuk jawaban cacat). Alasan cacatnya adalah bahwa margin of error (MOE) yang dilaporkan berlaku untuk persentase pemungutan suara seorang calon tetapi tidak dengan perbedaan persentase. Upaya kedua saya secara eksplisit menjawab pertanyaan yang diajukan oleh OP sedikit lebih baik.

Usaha kedua

Teman OP beralasan sebagai berikut:

  1. Bangun interval kepercayaan untuk Calon A dan Calon B secara terpisah menggunakan MOE yang diberikan.
  2. Jika mereka tumpang tindih kita memiliki statistik mati dengar dan jika mereka tidak maka A saat ini memimpin B.

Masalah utama di sini adalah bahwa langkah pertama tidak valid. Membangun interval kepercayaan secara independen untuk kedua kandidat bukanlah langkah yang valid karena persentase polling untuk kedua kandidat adalah variabel acak dependen. Dengan kata lain, seorang pemilih yang memutuskan untuk tidak memilih A dapat berpotensi memutuskan untuk memilih B sebagai gantinya. Dengan demikian, cara yang benar untuk menilai apakah lead signifikan atau tidak adalah dengan membangun interval kepercayaan untuk perbedaan. Lihat wiki tentang cara menghitung kesalahan standar untuk perbedaan persentase polling berdasarkan beberapa asumsi.

Jawaban cacat di bawah

Menurut pendapat saya cara yang benar untuk memikirkan hasil pemungutan suara adalah sebagai berikut:

Dalam sebuah survei terhadap 500 pemilih, peluang bahwa kita akan melihat perbedaan dalam memimpin setinggi 8% lebih besar dari 5%.

Apakah Anda percaya bahwa 'A lead B' atau 'A ties B' tergantung pada sejauh mana Anda bersedia menerima 5% sebagai kriteria cut-off Anda.


@Srikvant. Asumsikan 5% adalah signifikansi yang dapat diterima. Saya mencari jawaban yang lebih tepat, yang memaparkan gagasan bahwa "A lead B" adalah statistik baru, perbedaan pA dan pB, dan bahwa interval kepercayaan yang sesuai bukan hanya 2 * MOE.

4

Lebih mudah untuk menjelaskan dalam hal standar deviasi, daripada interval kepercayaan.

halSEBUAH+halB=1halB=1-halSEBUAH

VSebuahr(halSEBUAH-halB)=VSebuahr(2halSEBUAH-1)=4VSebuahr(halSEBUAH)
SD(halSEBUAH-halB)=2SD(halSEBUAH).
halSEBUAHhalB
VSebuahr(halSEBUAH-halB)=VSebuahr(halSEBUAH)+VSebuahr(halB)-2CHaiv(halSEBUAH,halB).

halSEBUAH+halB=1halSEBUAHhalBSD(halSEBUAH-halB)2SD(halSEBUAH)

Tetapi semua nuansa ini tampaknya menunjukkan bahwa organisasi pemungutan suara harus melaporkan margin of error pada perbedaan. Dimana Nate Silver?


4

Tidak hanya itu cara yang buruk untuk menyebut hal-hal tetapi itu bahkan tidak mematikan statistik.

Anda tidak menggunakan interval kepercayaan yang tumpang tindih dengan cara itu. Jika Anda benar-benar hanya ingin mengatakan bahwa Calon A akan menang maka Calon A pasti memimpin. Lead adalah 8% MOE 6,4%. Interval kepercayaan dari skor pengurangan itu tidak menggandakan interval kepercayaan dari skor individual. Yang tersirat dengan mengklaim tumpang tindih CI (± MOE) di sekitar setiap perkiraan adalah mati panas. Dengan asumsi sama N dan varians, MOE dari perbedaannya adalah sqrt (2) kali 4,5. Itu karena menemukan perbedaan antara nilai hanya akan menggandakan varians (SD kuadrat). Interval kepercayaan didasarkan pada sqrt dari varians sehingga menggabungkannya adalah rata-rata (4,5) * sqrt (2). Karena MOE dari lead 8% Anda adalah sekitar 6,4% maka Calon A berada di lead.

Selain itu, MOE sangat konservatif dan didasarkan pada nilai pilihan 50%. Rumusnya adalah sqrt (0.25 / n) * 2. Ada rumus untuk menghitung kesalahan standar dari skor perbedaan yang bisa kita gunakan juga. Kami akan menerapkan bahwa menggunakan nilai-nilai yang ditemukan alih-alih cutoff 50% dan yang masih memberi kami keunggulan signifikan untuk Calon A (7,5% MOE). Saya percaya bahwa, mengingat komentar para penanya, dan kedekatan dari cutoff itu dengan yang hipotetis dipilih, bahwa itu mungkin yang mereka cari.

Setiap pengantar interval kepercayaan dan kekuasaan akan membantu di sini. Bahkan artikel wikipedia di MOE terlihat cukup bagus.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.