Saya akan memotivasi ini secara intuitif, dan menunjukkan bagaimana hal itu terjadi untuk kasus khusus dua kelompok, dengan asumsi Anda senang menerima perkiraan normal ke binomial.
Mudah-mudahan itu akan cukup bagi Anda untuk memahami mengapa itu bekerja seperti itu.
Anda sedang berbicara tentang uji kelayakan chi-square. Katakanlah ada grup (Anda memilikinya sebagai , tetapi ada alasan saya cenderung lebih suka menyebutnya ).n kknk
Dalam model yang diterapkan untuk situasi ini, jumlah , adalah multinomial . i = 1 , 2 , . . . , kOii=1,2,...,k
Biarkan . Hitungan dikondisikan pada jumlah (kecuali dalam beberapa situasi yang cukup langka); dan ada beberapa set probabilitas yang ditentukan sebelumnya untuk setiap kategori, , yang berjumlah . N p i , i = 1 , 2 , … , k 1N=∑ki=1OiNpi,i=1,2,…,k1
Sama seperti dengan binomial, ada perkiraan normal asimptotik untuk multinomial - memang, jika Anda hanya mempertimbangkan hitungan dalam sel tertentu ("dalam kategori ini" atau tidak), maka akan menjadi binomial. Sama seperti dengan binomial, varians dari hitungan (serta kovariannya dalam multinomial) adalah fungsi dari dan ; Anda tidak memperkirakan varians secara terpisah.pNp
Yaitu, jika jumlah yang diharapkan cukup besar, vektor jumlah tersebut mendekati normal dengan rata-rata . Namun, karena penghitungan dikondisikan pada , distribusinya berdegenerasi (ada dalam hyperplane dimensi , karena menentukan dari penghitungan akan memperbaiki yang tersisa). Matriks varians-kovarians memiliki entri diagonal dan elemen diagonal , dan itu adalah peringkat karena degenerasi. N k - 1 k - 1 N p i ( 1 - p i ) - N p i p j k - 1Ei=NpiNk−1k−1Npi(1−pi)−Npipjk−1
Akibatnya, untuk sel individual , dan Anda dapat menulis . Namun, persyaratannya tergantung (berkorelasi negatif), jadi jika Anda menjumlahkan kuadrat dari itu, ia tidak akan memiliki a (seperti halnya jika mereka merupakan variabel standar independen). Sebagai gantinya, kita berpotensi membangun sekumpulan variabel independen dari asli yang independen dan masih mendekati normal (asimptotik normal). Jika kita menyimpulkan mereka (standar) kotak, kita akan mendapatkan . Ada cara untuk membangun seperangkatz i = O i - E iVar(Oi)=Npi(1−pi) zizi=Oi−EiEi(1−pi)√zi k - 1 k χ 2 k - 1 k - 1χ2kk−1kχ2k−1k−1 variabel secara eksplisit, tetapi untungnya ada jalan pintas yang sangat rapi yang menghindari jumlah yang berarti sejumlah upaya, dan menghasilkan hasil yang sama (nilai statistik yang sama) seolah-olah kita telah pergi ke masalah.
Pertimbangkan, untuk kesederhanaan, kebaikan sesuai dengan dua kategori (yang sekarang binomial). Probabilitas berada di sel pertama adalah , dan di sel kedua adalah . Ada pengamatan di sel pertama, dan di sel kedua.p 2 = 1 - p X = O 1 N - X = O 2p1=pp2=1−pX=O1N−X=O2
Hitungan sel pertama yang diamati, adalah asimptotik . Kita dapat membakukannya sebagai . Maka kira-kira (asimtotik ).N ( N p , N p ( 1 - p ) ) z = X - N pXN(Np,Np(1−p)) z2=(X-Np)2z=X−NpNp(1−p)√ ~χ 2 1 ~χ 2 1z2=(X−Np)2Np(1−p)∼χ21∼χ21
Perhatikan itu
∑2i=1(Oi−Ei)2Ei=[X−Np]2Np+[(N−X)−(N−Np)]2N(1−p)=[X−Np]2Np+[X−Np]2N(1−p)=(X−Np)2[1Np+1N(1−p)] .
Tapi
1Np+1N(1−p)=Np+N(1−p)Np.N(1−p)=1Np(1−p) .
Jadi yang merupakan kami mulai dengan - yang asimptotik akan menjadi variabel acak . Ketergantungan antara dua sel sedemikian rupa sehingga dengan menyelam dengan bukannya kita secara tepat mengimbangi ketergantungan antara keduanya, dan mendapatkan variabel acak kuadrat-an-sekitar-normal yang asli. z2χ 2 1 EiEi(1-pi)∑2i=1(Oi−Ei)2Ei=(X−Np)2Np(1−p)z2χ21EiEi(1−pi)
Jenis ketergantungan-jumlah yang sama dijaga dengan pendekatan yang sama ketika ada lebih dari dua kategori - dengan menjumlahkan bukannya atas semua istilah , Anda benar-benar mengimbangi efek ketergantungan, dan mendapatkan jumlah yang setara dengan jumlah normals independen . (Oi-Ei)2(Oi−Ei)2Ei kk-1(Oi−Ei)2Ei(1−pi)kk−1
Ada berbagai cara untuk menunjukkan statistik memiliki distribusi yang asimtotik untuk lebih besar (tercakup dalam beberapa program statistik sarjana, dan dapat ditemukan dalam sejumlah teks tingkat sarjana), tetapi saya tidak ingin membimbing Anda terlalu jauh melampaui level yang disarankan oleh pertanyaan Anda. Memang derivasi mudah ditemukan dalam catatan di internet, misalnya ada dua derivasi berbeda dalam ruang sekitar dua halaman di sini kχ2k−1k