Bagaimana cara menguji median populasi?

Saya punya sampel 250 unit. Distribusi asimetris. Saya ingin menguji hipotesis bahwa median populasi berbeda dari 3,5, jadi saya pikir tes satu sampel akan sesuai. Saya tahu bahwa tes peringkat Wilcoxon tidak tepat karena distribusinya tidak simetris. Apakah tes tanda layak digunakan? Jika tidak, adakah yang bisa merekomendasikan tes lain?

hypothesis-testing median

— LeonRupnik
sumber

Anda kehilangan saya di baris pertama, karena beberapa alasan. (1) Sampel tidak dapat memiliki distribusi Gaussian (tetapi kira-kira dapat memiliki satu). (2) Salah satu karakteristik dari semua distribusi Gaussian (dan karenanya perkiraan untuk mereka) adalah simetri . Anda telah menentang diri sendiri. Dengan menggambarkan data Anda dalam istilah Anda sendiri, bukan jargon statistik, Anda akan lebih baik mengomunikasikan apa yang Anda miliki. Bisakah Anda juga menjelaskan, sejelas mungkin, apa yang benar-benar ingin Anda capai dengan data Anda? Informasi apa yang merupakan "contoh uji berdasarkan median" yang dimaksudkan untuk memberi Anda?

— whuber

Median sampel adalah apa pun itu; tidak perlu menguji itu. Mungkin Anda ingin menguji apakah median populasi (dari mana sampel diperoleh) sama dengan

? Jika demikian, penting untuk mengetahui bagaimana nilai

dikembangkan. Apakah ini ringkasan dari beberapa dataset lain, mungkin? Atau apakah itu nomor yang telah ditentukan, seperti standar kualitas?

3.5

$3.5$

3.5

$3.5$

— whuber

Ini adalah nomor yang telah ditentukan

— LeonRupnik

" Distribusi asimetris jadi saya ingin menguji hipotesis jika median populasi berbeda dari 3,5 ..." - Mengapa asimetri dalam sampel berdampak pada hipotesis apa yang menarik?

$\:$ " Apakah tes tanda layak untuk digunakan? " - tentu saja, tetapi (setidaknya dalam bentuk asli) itu bergantung pada kontinuitas - Anda perlu mengadaptasinya jika variabel Anda diskrit (Anda tidak mengatakan data Anda terdiri dari apa) .

— Glen_b -Reinstate Monica

Data ini kontinu

— LeonRupnik

Ringkasan

Hitungan data yang melebihi memiliki distribusi Binomial dengan probabilitas tidak diketahui . Gunakan ini untuk melakukan tes binomial dari terhadap alternatif . $3.5$ $p$ $p=1/2$ $p\ne 1/2$

Sisa dari posting ini menjelaskan model yang mendasarinya dan menunjukkan bagaimana melakukan perhitungan. Ini menyediakan Rkode kerja untuk melaksanakannya. Akun tambahan dari teori pengujian hipotesis yang mendasari disediakan dalam jawaban saya untuk "Apa arti dari nilai p dan nilai t dalam tes statistik?" .

Model statistik

Dengan asumsi nilai-nilai yang cukup beragam (dengan beberapa ikatan di ), kemudian di bawah hipotesis nol Anda, setiap nilai secara acak sampel memiliki kemungkinan melebihi (sejak ditandai sebagai nilai tengah dari populasi). Dengan asumsi semua nilai secara acak dan independen sampel, jumlah mereka melebihi karena itu akan memiliki Binomial distribusi. Mari kita sebut nomor ini "hitungan," . $3.5$ $1/2=50\%$ $3.5$ $3.5$ $250$ $3.5$ $(250,1/2)$ $k$

Di sisi lain, jika populasi berbeda median dari , peluang nilai acak sampel melebihi akan berbeda dari . Ini adalah hipotesis alternatif. $3.5$ $3.5$ $1/2$

Menemukan tes yang cocok

Cara terbaik untuk membedakan situasi nol dari alternatifnya adalah dengan melihat nilai-nilai yang paling mungkin di bawah nol dan kurang mungkin di bawah alternatif. Ini adalah nilai-nilai dekat dari , sama dengan . Dengan demikian, wilayah kritis untuk pengujian Anda terdiri dari nilai yang relatif jauh dari : mendekati atau hampir . Tetapi seberapa jauh dari mereka harus menjadi bukti signifikan bahwa bukan median populasi? $k$ $1/2$ $250$ $125$ $125$ $0$ $250$ $125$ $3.5$

Dalam tergantung pada standar signifikansi Anda: ini disebut ukuran tes , sering disebut . Di bawah hipotesis nol, harus ada dekat dengan - tetapi tidak lebih dari - peluang bahwa akan berada di wilayah kritis. $\alpha$ $\alpha$ $k$

Biasanya, ketika kita tidak memiliki prasangka tentang alternatif mana yang akan berlaku - median lebih besar atau kurang dari - kita mencoba untuk membangun daerah kritis sehingga ada setengah dari peluang itu, , bahwa rendah dan yang lain setengah, , itu tinggi. Karena kita tahu distribusi bawah hipotesis nol, informasi ini cukup untuk menentukan wilayah kritis. $3.5$ $\alpha/2$ $k$ $\alpha/2$ $k$ $k$

Secara teknis, ada dua cara umum untuk melakukan perhitungan: menghitung probabilitas Binomial atau memperkirakannya dengan distribusi Normal.

Perhitungan dengan probabilitas binomial

Gunakan fungsi titik persentase (kuantil). Dalam R, misalnya, ini disebut qbinomdan akan dipanggil seperti

alpha <- 0.05 # Test size
c(qbinom(alpha/2, 250, 1/2)-1, qbinom(1-alpha/2, 250, 1/2)+1)

Output untuk adalah $\alpha=0.05$

109 141

Ini berarti bahwa wilayah kritis terdiri dari semua nilai rendah antara (dan termasuk) dan , bersama dengan semua nilai tinggi antara (dan termasuk) dan . Sebagai tanda centang, kami dapat meminta untuk menghitung peluang yang terletak di wilayah tersebut ketika nol benar: $k$ $0$ $109$ $k$ $141$ $250$ Rk

pbinom(109, 250, 1/2) + (1-pbinom(141-1, 250, 1/2))

Outputnya adalah , sangat dekat dengan - tetapi tidak lebih besar dari - itu sendiri. Karena wilayah kritis harus diakhiri dengan bilangan bulat, biasanya tidak mungkin membuat ukuran pengujian aktual ini persis sama dengan ukuran uji nominal , tetapi dalam kasus ini kedua nilai tersebut memang sangat dekat. $0.0497$ $\alpha$ $\alpha$

Perhitungan dengan perkiraan normal

Mean dari Binomial distribusi dan varians adalah , membuat standar deviasi yang sama untuk $(250, 1/2)$ $250\times 1/2=125$ $250\times 1/2\times (1-1/2) = 250/4$ . Kami akan mengganti distribusi Binomial dengan distribusi Normal. Distribusi Normal standar memilikiprobabilitasnya kurang dari, seperti yang dihitung olehperintah $\sqrt{250/4}\approx 7.9$ $\alpha/2=0.05/2$ $-1.95996$ R

qnorm(alpha/2)

$0.05/2$ $+1.95996$ $k$ $1.95996$ $125$ $125 \pm 7.9\times 1.96 \approx 109.5, 140.5$

250*1/2 + sqrt(250*1/2*(1-1/2)) * qnorm(alpha/2) * c(1,-1)

$k$ $109$ $141$ $p$ $1/2$ $0$ $1$ $\alpha$

Tes ini, karena ia tidak mengasumsikan apa - apa tentang populasi (kecuali bahwa ia tidak memiliki banyak kemungkinan fokus pada mediannya), tidak sekuat tes lain yang membuat asumsi spesifik tentang populasi. Namun, jika tes menolak nol, tidak perlu khawatir tentang kurangnya daya. Jika tidak, Anda harus melakukan trade-off yang rumit antara apa yang ingin Anda asumsikan dan apa yang dapat Anda simpulkan tentang populasi.

— whuber
sumber

Karena ini secara praktis merupakan contoh jawaban " makna dari nilai-p " yang lebih abstrak , tidak hanya dalam menganut filosofi yang sama tetapi juga dalam cara jawaban Anda disusun, saya pikir Anda harus menghubungkannya ("Contoh dari bagaimana ini diterapkan dalam praktik dapat ditemukan dalam jawaban saya untuk ... ") di akhir jawaban Anda di sana.

— Silverfish

@ Silver Terima kasih; yang memang telah terlintas di benak saya. Saya pikir saya mungkin harus menunggu dulu. Di antara hal-hal lain, saya tidak akan terkejut jika beberapa anggota komunitas yang giat menggali thread duplikat, yang ingin saya periksa lebih dekat. Bagaimanapun, ini adalah bahan dasar - banyak pertanyaan yang diajukan tentang tes binomial. Satu-satunya klaim yang satu ini harus menjadi yang baru adalah bahwa ia tiba di sini sebagai kebutuhan untuk tes median - jadi itu tidak begitu jelas tes binomial pada awalnya - dan satu-satunya klaim jawaban saya harus layak membaca terletak pada upayanya untuk menjelaskan setiap langkah.

— whuber