Bagaimana Statistik Chi Squared Pearson memperkirakan Distribusi Chi Squared

10

Jadi jika Statistik Kuadrat Pearson Pearson's diberikan untuk tabel , maka bentuknya adalah: $1 \times N$

\sum_{i = 1}^{n} \frac{(O_{i} - E_{i})^{2}}{E_{i}}

$\sum_{i=1}^n\frac{(O_i - E_i)^2}{E_i}$

Maka ini mendekati $\chi_{n-1}^2$ , Distribusi Chi-Squared dengan $n-1$ derajat kebebasan, karena ukuran sampel $N$ semakin besar.

Yang tidak saya mengerti adalah bagaimana perkiraan asimptotik ini bekerja. Saya merasa $E_i$ di penyebutnya harus diganti dengan $\frac{s_i^2}{n_i}$ . Karena itu akan memberi Anda $\chi_n^2 = \sum_{i=1}^nZ_i^2$ , untuk $Z_i\sim n(0,1)$ . Tapi tentu saja ini memiliki $n$ derajat kebebasan, bukan $n-1$ , jadi jelas sesuatu yang lain sedang terjadi.

chi-squared asymptotics

— Thoth
sumber

Meskipun ini tidak menjawab pertanyaan Anda , ini mungkin bisa menjelaskannya.

— whuber

11

Saya akan memotivasi ini secara intuitif, dan menunjukkan bagaimana hal itu terjadi untuk kasus khusus dua kelompok, dengan asumsi Anda senang menerima perkiraan normal ke binomial.

Mudah-mudahan itu akan cukup bagi Anda untuk memahami mengapa itu bekerja seperti itu.

Anda sedang berbicara tentang uji kelayakan chi-square. Katakanlah ada grup (Anda memilikinya sebagai , tetapi ada alasan saya cenderung lebih suka menyebutnya ). $k$ $n$ $k$

Dalam model yang diterapkan untuk situasi ini, jumlah , adalah multinomial . $O_i$ $i=1,2,...,k$

Biarkan . Hitungan dikondisikan pada jumlah (kecuali dalam beberapa situasi yang cukup langka); dan ada beberapa set probabilitas yang ditentukan sebelumnya untuk setiap kategori, , yang berjumlah . $N=\sum_{i=1}^k O_i$ $N$ $p_i, i=1, 2, \ldots,k$ $1$

Sama seperti dengan binomial, ada perkiraan normal asimptotik untuk multinomial - memang, jika Anda hanya mempertimbangkan hitungan dalam sel tertentu ("dalam kategori ini" atau tidak), maka akan menjadi binomial. Sama seperti dengan binomial, varians dari hitungan (serta kovariannya dalam multinomial) adalah fungsi dari dan ; Anda tidak memperkirakan varians secara terpisah. $N$ $p$

Yaitu, jika jumlah yang diharapkan cukup besar, vektor jumlah tersebut mendekati normal dengan rata-rata . Namun, karena penghitungan dikondisikan pada , distribusinya berdegenerasi (ada dalam hyperplane dimensi , karena menentukan dari penghitungan akan memperbaiki yang tersisa). Matriks varians-kovarians memiliki entri diagonal dan elemen diagonal , dan itu adalah peringkat karena degenerasi. $E_i=Np_i$ $N$ $k-1$ $k-1$ $Np_i(1-p_i)$ $-Np_ip_j$ $k-1$

Akibatnya, untuk sel individual , dan Anda dapat menulis . Namun, persyaratannya tergantung (berkorelasi negatif), jadi jika Anda menjumlahkan kuadrat dari itu, ia tidak akan memiliki a (seperti halnya jika mereka merupakan variabel standar independen). Sebagai gantinya, kita berpotensi membangun sekumpulan variabel independen dari asli yang independen dan masih mendekati normal (asimptotik normal). Jika kita menyimpulkan mereka (standar) kotak, kita akan mendapatkan . Ada cara untuk membangun seperangkat $\text{Var}(O_i)=Np_i(1-p_i)$ $z_i = \frac{O_i-E_i}{\sqrt{E_i(1-p_i)}}$ $z_i$ $\chi^2_k$ $k-1$ $k$ $\chi^2_{k-1}$ $k-1$ variabel secara eksplisit, tetapi untungnya ada jalan pintas yang sangat rapi yang menghindari jumlah yang berarti sejumlah upaya, dan menghasilkan hasil yang sama (nilai statistik yang sama) seolah-olah kita telah pergi ke masalah.

Pertimbangkan, untuk kesederhanaan, kebaikan sesuai dengan dua kategori (yang sekarang binomial). Probabilitas berada di sel pertama adalah , dan di sel kedua adalah . Ada pengamatan di sel pertama, dan di sel kedua. $p_1=p$ $p_2=1-p$ $X = O_1$ $N-X=O_2$

Hitungan sel pertama yang diamati, adalah asimptotik . Kita dapat membakukannya sebagai . Maka kira-kira (asimtotik ). $X$ $\text{N}(Np,Np(1-p))$ $z=\frac{X-Np}{\sqrt{Np(1-p)}}$ $z^2 = \frac{(X-Np)^2}{Np(1-p)}$ $\sim \chi^2_1$ $\sim \chi^2_1$

Perhatikan itu

$\sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} = \frac{[X-Np]^2}{Np}+ \frac{[(N-X)-(N-Np)]^2}{N(1-p)}= \frac{[X-Np]^2}{Np}+ \frac{[X-Np]^2}{N(1-p)}=(X-Np)^2[\frac{1}{Np}+ \frac{1}{N(1-p)}]$ .

Tapi

$\frac{1}{Np}+ \frac{1}{N(1-p)} =\frac{Np+N(1-p)}{Np.N(1-p)} = \frac{1}{Np(1-p)}$ .

Jadi yang merupakan kami mulai dengan - yang asimptotik akan menjadi variabel acak . Ketergantungan antara dua sel sedemikian rupa sehingga dengan menyelam dengan bukannya kita secara tepat mengimbangi ketergantungan antara keduanya, dan mendapatkan variabel acak kuadrat-an-sekitar-normal yang asli. $\sum_{i=1}^2 \frac{(O_i-E_i)^2}{E_i} =\frac{(X-Np)^2}{Np(1-p)}$ $z^2$ $\chi^2_1$ $E_i$ $E_i(1-p_i)$

Jenis ketergantungan-jumlah yang sama dijaga dengan pendekatan yang sama ketika ada lebih dari dua kategori - dengan menjumlahkan bukannya atas semua istilah , Anda benar-benar mengimbangi efek ketergantungan, dan mendapatkan jumlah yang setara dengan jumlah normals independen . $\frac{(O_i-E_i)^2}{E_i}$ $\frac{(O_i-E_i)^2}{E_i(1-p_i)}$ $k$ $k-1$

Ada berbagai cara untuk menunjukkan statistik memiliki distribusi yang asimtotik untuk lebih besar (tercakup dalam beberapa program statistik sarjana, dan dapat ditemukan dalam sejumlah teks tingkat sarjana), tetapi saya tidak ingin membimbing Anda terlalu jauh melampaui level yang disarankan oleh pertanyaan Anda. Memang derivasi mudah ditemukan dalam catatan di internet, misalnya ada dua derivasi berbeda dalam ruang sekitar dua halaman di sini $\chi^2_{k-1}$ $k$

— Glen_b -Reinstate Monica
sumber

Terima kasih, ini masuk akal. Apakah ini suatu kebetulan / kecelakaan matematis yang berhasil dengan sangat baik untuk hanya dibagi berdasarkan nilai yang diharapkan? atau adakah penjelasan statistik yang intuitif mengapa hal ini terjadi?

— Thoth

Ada beberapa penjelasan yang mungkin atau tidak intuitif, tergantung pada hal-hal yang berbeda dari orang ke orang. Misalnya, jika jumlah yang diamati pada awalnya adalah variabel Poisson independen, maka varians untuk akan benar-benar mengarahkan Anda untuk membaginya dengan (& Poisson juga normal asimptotik). Jika Anda mengkondisikan pada total (seperti di atas), Anda mendapatkan multinomial. Apakah Anda mengkondisikan pada total atau tidak (yaitu apakah Anda memperlakukannya sebagai Poisson atau multinomial), penaksir ML adalah sama, dan varians penaksir itu sama - (

z

$z$

E_{i}

$E_i$

— ctd

(ctd) ... Akibatnya, Anda harus membaginya dengan dan harus keluar dengan tepat. [Tapi kamu masih punya df.]

E_{i}

$E_i$

k - 1

$k-1$

— Glen_b -Reinstate Monica

0

Naskah satu halaman http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf yang dirujuk oleh pengguna @Glen_b akhirnya menunjukkan bahwa statistik dapat ditulis ulang sebagai Hotelling dengan peringkat kovarians = (lihat persamaan 9.6). Kami kemudian dapat meminta hasil klasik SJ Sepanski (1994) untuk mendapatkan distribusi asimptotiknya sebagai chi-square dengan derajat kebebasan. $T^2$ $k-1$ $k-1$

— dohmatob
sumber