Ringkasan
Hitungan data yang melebihi memiliki distribusi Binomial dengan probabilitas tidak diketahui p . Gunakan ini untuk melakukan tes binomial dari p = 1 / 2 terhadap alternatif p ≠ 1 / 2 .3.5halp = 1 / 2p ≠ 1 / 2
Sisa dari posting ini menjelaskan model yang mendasarinya dan menunjukkan bagaimana melakukan perhitungan. Ini menyediakan R
kode kerja untuk melaksanakannya. Akun tambahan dari teori pengujian hipotesis yang mendasari disediakan dalam jawaban saya untuk "Apa arti dari nilai p dan nilai t dalam tes statistik?" .
Model statistik
Dengan asumsi nilai-nilai yang cukup beragam (dengan beberapa ikatan di ), kemudian di bawah hipotesis nol Anda, setiap nilai secara acak sampel memiliki 1 / 2 = 50 % kemungkinan melebihi 3,5 (sejak 3,5 ditandai sebagai nilai tengah dari populasi). Dengan asumsi semua 250 nilai secara acak dan independen sampel, jumlah mereka melebihi 3,5 karena itu akan memiliki Binomial ( 250 , 1 / 2 ) distribusi. Mari kita sebut nomor ini "hitungan," k .3.51 / 2 = 50 %3.53.52503.5( 250 , 1 / 2 )k
Di sisi lain, jika populasi berbeda median dari , peluang nilai acak sampel melebihi 3,5 akan berbeda dari 1 / 2 . Ini adalah hipotesis alternatif.3.53.51/2
Menemukan tes yang cocok
Cara terbaik untuk membedakan situasi nol dari alternatifnya adalah dengan melihat nilai-nilai yang paling mungkin di bawah nol dan kurang mungkin di bawah alternatif. Ini adalah nilai-nilai dekat 1 / 2 dari 250 , sama dengan 125 . Dengan demikian, wilayah kritis untuk pengujian Anda terdiri dari nilai yang relatif jauh dari 125 : mendekati 0 atau hampir 250 . Tetapi seberapa jauh dari 125 mereka harus menjadi bukti signifikan bahwa 3,5 bukan median populasi?k1/225012512502501253.5
Dalam tergantung pada standar signifikansi Anda: ini disebut ukuran tes , sering disebut . Di bawah hipotesis nol, harus ada dekat dengan - tetapi tidak lebih dari - peluang α bahwa k akan berada di wilayah kritis.ααk
Biasanya, ketika kita tidak memiliki prasangka tentang alternatif mana yang akan berlaku - median lebih besar atau kurang dari - kita mencoba untuk membangun daerah kritis sehingga ada setengah dari peluang itu, α / 2 , bahwa k rendah dan yang lain setengah, α / 2 , k itu tinggi. Karena kita tahu distribusi k di bawah hipotesis nol, informasi ini cukup untuk menentukan wilayah kritis.3.5α/2kα/2kk
Secara teknis, ada dua cara umum untuk melakukan perhitungan: menghitung probabilitas Binomial atau memperkirakannya dengan distribusi Normal.
Perhitungan dengan probabilitas binomial
Gunakan fungsi titik persentase (kuantil). Dalam R
, misalnya, ini disebut qbinom
dan akan dipanggil seperti
alpha <- 0.05 # Test size
c(qbinom(alpha/2, 250, 1/2)-1, qbinom(1-alpha/2, 250, 1/2)+1)
Output untuk adalahα=0.05
109 141
Ini berarti bahwa wilayah kritis terdiri dari semua nilai rendah antara (dan termasuk) 0 dan 109 , bersama dengan semua nilai tinggi k antara (dan termasuk) 141 dan 250 . Sebagai tanda centang, kami dapat meminta untuk menghitung peluang yang terletak di wilayah tersebut ketika nol benar:k0109k141250R
k
pbinom(109, 250, 1/2) + (1-pbinom(141-1, 250, 1/2))
Outputnya adalah , sangat dekat dengan - tetapi tidak lebih besar dari - α itu sendiri. Karena wilayah kritis harus diakhiri dengan bilangan bulat, biasanya tidak mungkin membuat ukuran pengujian aktual ini persis sama dengan ukuran uji nominal α , tetapi dalam kasus ini kedua nilai tersebut memang sangat dekat.0.0497αα
Perhitungan dengan perkiraan normal
Mean dari Binomial distribusi 250 × 1 / 2 = 125 dan varians adalah 250 × 1 / 2 × ( 1 - 1 / 2 ) = 250 / 4 , membuat standar deviasi yang sama untuk √(250,1/2)250×1/2=125250×1/2×(1−1/2)=250/4. Kami akan mengganti distribusi Binomial dengan distribusi Normal. Distribusi Normal standar memilikiα/2=0,05/2probabilitasnya kurang dari-1,95996, seperti yang dihitung olehperintah250/4−−−−−√≈7.9α/2=0.05/2−1.95996R
qnorm(alpha/2)
0.05/2+1.95996k1.95996125125±7.9×1.96≈109.5,140.5
250*1/2 + sqrt(250*1/2*(1-1/2)) * qnorm(alpha/2) * c(1,-1)
k109141p1/201α
Tes ini, karena ia tidak mengasumsikan apa - apa tentang populasi (kecuali bahwa ia tidak memiliki banyak kemungkinan fokus pada mediannya), tidak sekuat tes lain yang membuat asumsi spesifik tentang populasi. Namun, jika tes menolak nol, tidak perlu khawatir tentang kurangnya daya. Jika tidak, Anda harus melakukan trade-off yang rumit antara apa yang ingin Anda asumsikan dan apa yang dapat Anda simpulkan tentang populasi.