Bagaimana Statistik Chi Squared Pearson memperkirakan Distribusi Chi Squared


10

Jadi jika Statistik Kuadrat Pearson Pearson's diberikan untuk tabel , maka bentuknya adalah:1×N

i=1n(OiEi)2Ei

Maka ini mendekati χn12 , Distribusi Chi-Squared dengan n1 derajat kebebasan, karena ukuran sampel N semakin besar.

Yang tidak saya mengerti adalah bagaimana perkiraan asimptotik ini bekerja. Saya merasa Ei di penyebutnya harus diganti dengan si2ni . Karena itu akan memberi Anda χn2=i=1nZi2 , untuk Zin(0,1) . Tapi tentu saja ini memiliki n derajat kebebasan, bukan n1 , jadi jelas sesuatu yang lain sedang terjadi.


Meskipun ini tidak menjawab pertanyaan Anda , ini mungkin bisa menjelaskannya.
whuber

Jawaban:


11

Saya akan memotivasi ini secara intuitif, dan menunjukkan bagaimana hal itu terjadi untuk kasus khusus dua kelompok, dengan asumsi Anda senang menerima perkiraan normal ke binomial.

Mudah-mudahan itu akan cukup bagi Anda untuk memahami mengapa itu bekerja seperti itu.

Anda sedang berbicara tentang uji kelayakan chi-square. Katakanlah ada grup (Anda memilikinya sebagai , tetapi ada alasan saya cenderung lebih suka menyebutnya ).n kknk

Dalam model yang diterapkan untuk situasi ini, jumlah , adalah multinomial . i = 1 , 2 , . . . , kOii=1,2,...,k

Biarkan . Hitungan dikondisikan pada jumlah (kecuali dalam beberapa situasi yang cukup langka); dan ada beberapa set probabilitas yang ditentukan sebelumnya untuk setiap kategori, , yang berjumlah . N p i , i = 1 , 2 , , k 1N=i=1kOiNpi,i=1,2,,k1

Sama seperti dengan binomial, ada perkiraan normal asimptotik untuk multinomial - memang, jika Anda hanya mempertimbangkan hitungan dalam sel tertentu ("dalam kategori ini" atau tidak), maka akan menjadi binomial. Sama seperti dengan binomial, varians dari hitungan (serta kovariannya dalam multinomial) adalah fungsi dari dan ; Anda tidak memperkirakan varians secara terpisah.pNp

Yaitu, jika jumlah yang diharapkan cukup besar, vektor jumlah tersebut mendekati normal dengan rata-rata . Namun, karena penghitungan dikondisikan pada , distribusinya berdegenerasi (ada dalam hyperplane dimensi , karena menentukan dari penghitungan akan memperbaiki yang tersisa). Matriks varians-kovarians memiliki entri diagonal dan elemen diagonal , dan itu adalah peringkat karena degenerasi. N k - 1 k - 1 N p i ( 1 - p i ) - N p i p j k - 1Ei=NpiNk1k1Npi(1pi)Npipjk1

Akibatnya, untuk sel individual , dan Anda dapat menulis . Namun, persyaratannya tergantung (berkorelasi negatif), jadi jika Anda menjumlahkan kuadrat dari itu, ia tidak akan memiliki a (seperti halnya jika mereka merupakan variabel standar independen). Sebagai gantinya, kita berpotensi membangun sekumpulan variabel independen dari asli yang independen dan masih mendekati normal (asimptotik normal). Jika kita menyimpulkan mereka (standar) kotak, kita akan mendapatkan . Ada cara untuk membangun seperangkatz i = O i - E iVar(Oi)=Npi(1pi) zizi=OiEiEi(1pi)zi k - 1 k χ 2 k - 1 k - 1χk2k1kχk12k1 variabel secara eksplisit, tetapi untungnya ada jalan pintas yang sangat rapi yang menghindari jumlah yang berarti sejumlah upaya, dan menghasilkan hasil yang sama (nilai statistik yang sama) seolah-olah kita telah pergi ke masalah.

Pertimbangkan, untuk kesederhanaan, kebaikan sesuai dengan dua kategori (yang sekarang binomial). Probabilitas berada di sel pertama adalah , dan di sel kedua adalah . Ada pengamatan di sel pertama, dan di sel kedua.p 2 = 1 - p X = O 1 N - X = O 2p1=pp2=1pX=O1NX=O2

Hitungan sel pertama yang diamati, adalah asimptotik . Kita dapat membakukannya sebagai . Maka kira-kira (asimtotik ).N ( N p , N p ( 1 - p ) ) z = X - N pXN(Np,Np(1p)) z2=(X-Np)2z=XNpNp(1p) ~χ 2 1 ~χ 2 1z2=(XNp)2Np(1p)χ12χ12

Perhatikan itu

i=12(OiEi)2Ei=[XNp]2Np+[(NX)(NNp)]2N(1p)=[XNp]2Np+[XNp]2N(1p)=(XNp)2[1Np+1N(1p)] .

Tapi

1Np+1N(1p)=Np+N(1p)Np.N(1p)=1Np(1p) .

Jadi yang merupakan kami mulai dengan - yang asimptotik akan menjadi variabel acak . Ketergantungan antara dua sel sedemikian rupa sehingga dengan menyelam dengan bukannya kita secara tepat mengimbangi ketergantungan antara keduanya, dan mendapatkan variabel acak kuadrat-an-sekitar-normal yang asli. z2χ 2 1 EiEi(1-pi)i=12(OiEi)2Ei=(XNp)2Np(1p)z2χ12EiEi(1pi)

Jenis ketergantungan-jumlah yang sama dijaga dengan pendekatan yang sama ketika ada lebih dari dua kategori - dengan menjumlahkan bukannya atas semua istilah , Anda benar-benar mengimbangi efek ketergantungan, dan mendapatkan jumlah yang setara dengan jumlah normals independen . (Oi-Ei)2(OiEi)2Ei kk-1(OiEi)2Ei(1pi)kk1

Ada berbagai cara untuk menunjukkan statistik memiliki distribusi yang asimtotik untuk lebih besar (tercakup dalam beberapa program statistik sarjana, dan dapat ditemukan dalam sejumlah teks tingkat sarjana), tetapi saya tidak ingin membimbing Anda terlalu jauh melampaui level yang disarankan oleh pertanyaan Anda. Memang derivasi mudah ditemukan dalam catatan di internet, misalnya ada dua derivasi berbeda dalam ruang sekitar dua halaman di sini kχk12k


Terima kasih, ini masuk akal. Apakah ini suatu kebetulan / kecelakaan matematis yang berhasil dengan sangat baik untuk hanya dibagi berdasarkan nilai yang diharapkan? atau adakah penjelasan statistik yang intuitif mengapa hal ini terjadi?
Thoth

Ada beberapa penjelasan yang mungkin atau tidak intuitif, tergantung pada hal-hal yang berbeda dari orang ke orang. Misalnya, jika jumlah yang diamati pada awalnya adalah variabel Poisson independen, maka varians untuk akan benar-benar mengarahkan Anda untuk membaginya dengan (& Poisson juga normal asimptotik). Jika Anda mengkondisikan pada total (seperti di atas), Anda mendapatkan multinomial. Apakah Anda mengkondisikan pada total atau tidak (yaitu apakah Anda memperlakukannya sebagai Poisson atau multinomial), penaksir ML adalah sama, dan varians penaksir itu sama - ( E izEi
ctd

(ctd) ... Akibatnya, Anda harus membaginya dengan dan harus keluar dengan tepat. [Tapi kamu masih punya df.] k - 1Eik1
Glen_b -Reinstate Monica

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.