Independensi mean sampel dan varians sampel dalam distribusi binomial


9

Biarkan . Kita tahu bahwa dan . Apakah ini menyiratkan bahwa mean sampel dan varians sampel saling bergantung ? Atau apakah itu hanya berarti bahwa varians populasi dapat ditulis sebagai fungsi dari mean populasi ?XBinomial(n,p)E[X]=npVar[X]=np(1p)x¯s2

Jawaban:


14

x¯ dan adalah variabel acak. Kita bisa mengerjakan distribusi bersama mereka. Mari kita coba kasus nontrivial yang paling sederhana, yaitu sampel ukuran dari distribusi Binomial . Hanya ada empat kemungkinan untuk sampel itu, yang dengan ini ditabulasikan bersama dengan probabilitasnya (dihitung dari independensi dua elemen sampel):s22(1,hal)

First value | Second value | Mean | Variance | Probability
          0 |            0 |    0 |        0 | (1-p)^2
          0 |            1 |  1/2 |      1/2 | (1-p)p
          1 |            0 |  1/2 |      1/2 | p(1-p)
          1 |            1 |    1 |        0 | p^2

Mean secara sempurna memprediksi varians dalam contoh ini. Jadi, asalkan semua probabilitas bukan nol (yaitu, bukan atau ), mean sampel dan varians sampel tidak independen.hal01

Pertanyaan yang menarik adalah apakah, jika dalam keluarga distribusi mean menentukan varians, mean sampel dan varians sampel dapat independen. Jawabannya adalah ya: ambil keluarga mana pun dari distribusi Normal yang variansnya bergantung pada rata-rata seperti set semua distribusi Normal . Tidak peduli yang distribusi ini mengatur sampel, varians mean dan sampel sampel akan independen, karena itulah kasus untuk setiap distribusi normal.(μ,μ2)

Analisis ini menunjukkan bahwa pertanyaan tentang struktur keluarga distribusi (yang menyangkut , , , dan sebagainya) tidak berpengaruh pada pertanyaan independensi statistik sampel dari elemen keluarga tertentu.nhalμ


Tapi mungkin itu karena distribusi normal adalah kasus "khusus"? Maksud saya, diketahui bahwa, untuk distribusi normal apa pun, benar bahwa rata-rata sampel tidak tergantung pada varian sampel. Tetapi apa yang terjadi jika kita berurusan dengan distribusi yang bukan distribusi normal?
user6874652

1
Biasanya mean sampel dan varians sampel tidak independen. Tidak ada bedanya keluarga distribusi mana yang mungkin menjadi bagian dari distribusi.
whuber

@whuber: Kecuali itu dengan N(μ,σ2)mean sampel dan varians sampel independen.
Michael Hardy

@Michael, terima kasih. Saya sudah mencatat itu di tubuh jawabannya.
whuber

@whuber: terima kasih atas analisisnya. Bisakah Anda juga mengungkapkan Rkode ini? Terimakasih banyak.
Maximilian

8

Properti yang, untuk sampel iid, mean sampel dan varians sampel independen, adalah karakterisasi dari distribusi normal: untuk tidak ada distribusi lain yang dimiliki oleh properti tersebut.

Lihat Patel, JK, & Read, CB (1982). Buku pegangan dari distribusi normal , hal. 81 dalam edisi 1 1982, dalam bab "Karakterisasi" (mungkin telah mengubah halaman dalam edisi 2 1996).

Jadi untuk distribusi lain, mean sampel dan varians sampel bergantung secara statistik.

Hasil umum mengenai mean sampel dan varians sampel dari sampel iid dari distribusi apa pun yang memiliki momen hingga 3d, adalah sebagai berikut (menggunakan estimator yang tidak bias untuk varians):

Cov(X¯,s2)=E(X¯s2)-E(x)Var(x)=1nE[X-E(x)]3

Dengan kata lain, kovarians antara mean sampel dan varians sampel sama dengan momen pusat ketiga, dibagi dengan n. Konsekuensi:

1) Ketika ukuran sampel meningkat, keduanya cenderung menjadi tidak berkorelasi.

2) Untuk setiap distribusi yang memiliki momen pusat ketiga sama dengan nol, mereka tidak berkorelasi (meskipun mereka tetap bergantung, untuk semua distribusi kecuali normal). Ini tentu saja mencakup semua distribusi simetris tentang rata-rata mereka, tetapi juga distribusi lain yang tidak simetris tentang rata-rata mereka tetapi masih, memiliki momen pusat ketiga sama dengan nol , lihat utas ini .


(+1) Hyperlinknya sudah mati untuk saya.
COOLSerdash

@COOLSerdash Ini bekerja untuk saya. Ini tautan ke halaman Amazon, mungkin itu diblokir untuk Anda?
Graipher

@COOLSerdash Terima kasih. Seperti disebutkan, hyperlink tampaknya valid. Cukup cari "Buku Pegangan Distribusi Patel Biasa".
Alecos Papadopoulos

(+1) Saya curiga ini mungkin masalahnya tetapi belum pernah melihat pernyataan formal tentang fakta ini. Apakah ada distribusi tidak normal yang berarti sampel dan varians sampel tidak berkorelasi?
John Coleman

1
@AlecosPapadopoulos Ya, tentu saja. Jika demikian maka itu akan menjadi contoh menarik ketika tidak berkorelasi tidak berarti independen. Saya belum mengerjakan semua detail, tetapi U(0,1)tampaknya berhasil.
John Coleman

3

Kasus ekstrem adalah Bernoulli(hal)=Binomial(1,hal). Pertimbangkan sampel ukuran (modal) N:

Ns2=k=1N(xk-x¯)2=(kxk2)-(2x¯sayaxk)+(Nx¯2)=(kxk)-2x¯kxk+(nx¯2)sejak xk=0 atau 1jadi xk2=xk=Nx¯-2Nx¯2+Nx¯2=Nx¯(1-x¯),begitu s2=x¯(1-x¯).
Jadi kapan (huruf kecil) n adalah 1,maka mean sampel menentukan varians sampel, sehingga mereka jauh dari independen. Tetapi varians sampel tidak sepenuhnya sepenuhnya menentukan mean sampel, karena ada dua nilaix¯ yang menghasilkan nilai yang sama x¯(1-x¯).

Ketika keduanya nhal dan n(1-hal) besar, maka saya berharap mean sampel dan varians sampel akan hampir independen karena distribusi hampir normal.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.