Mari kita menangani kasus paling sederhana untuk mencoba memberikan intuisi yang paling. Misalkan menjadi sampel iid dari distribusi diskrit dengan hasil k . Biarkan π 1 , ... , π k menjadi probabilitas dari setiap hasil tertentu. Kami tertarik pada (asymptotic) distribusi statistik chi-squared
X 2 = k ΣX1,X2,…,Xnkπ1,…,πk
Di sini n π i adalah jumlah hitungan yang diharapkan darihasil ke- i .
X2=∑i=1k(Si−nπi)2nπi.
nπii
Heuristik sugestif
Tentukan , sehinggaX2=∑iU 2 i =‖U‖ 2 2 di manaU=(U1,…,Uk).Ui=(Si−nπi)/nπi−−−√X2=∑iU2i=∥U∥22U=(U1,…,Uk)
Karena adalah B i n ( n , πSi , maka olehCentral Limit Theorem,
T i = U iBin(n,πi)
Maka, kami juga memiliki itu, U i d →
Ti=Ui1−πi−−−−−√=Si−nπinπi(1−πi)−−−−−−−−−√→dN(0,1),
.
Ui→dN(0,1−πi)
Sekarang, jika para adalah (asimtotik) independen (yang mereka tidak), maka kita bisa berpendapat bahwa
Σ i T 2 i adalah asimtotik χ 2 k didistribusikan. Tapi, perhatikan bahwa T k adalah fungsi deterministik ( T 1 , ... , T k - 1 ) dan sehingga T i variabel tidak mungkin independen.Ti∑iT2iχ2kTk(T1,…,Tk−1)Ti
Karena itu, kita harus memperhitungkan kovarians di antara mereka. Ternyata bahwa "benar" cara untuk melakukan ini adalah dengan menggunakan sebaliknya, dan kovarians antara komponen U juga mengubah distribusi asymptotic dari apa yang kita sangka adalah χ 2 k untuk apa, pada kenyataannya, a χ 2 k - 1 .UiUχ2kχ2k−1
Beberapa detail tentang ini mengikuti.
Perawatan yang lebih ketat
Hal ini tidak sulit untuk memeriksa bahwa, pada kenyataannya,
untuki≠j.Cov(Ui,Uj)=−πiπj−−−−√i≠j
Jadi, kovarian adalah
A = I - √U
dimana √
A=I−π−−√π−−√T,
. Perhatikan bahwa
Aadalah simetrik dan idempoten, yaitu,
A=A2=AT. Jadi, khususnya, jika
Z=(Z1,...,Zk)memiliki komponen standar normal iid, maka
AZ~N(0,A). (
NBDistribusi normal multivariat dalam kasus ini
merosot.)
π−−√=(π1−−√,…,πk−−√)AA=A2=ATZ=(Z1,…,Zk)AZ∼N(0,A)
Sekarang, oleh Teorema Batas Pusat Multivariat , vektor U0A
UAZX2=UTUZTATAZ=ZTAZ
Arank(A)AA=QDQTQDrank(A)
ZTAZ must be χ2k−1 distributed since
A has rank k−1 in our case.
Other connections
The chi-square statistic is also closely related to likelihood ratio
statistics. Indeed, it is a Rao score statistic and can be viewed as a
Taylor-series approximation of the likelihood ratio statistic.
References
This is my own development based on experience, but obviously influenced by classical texts. Good places to look to learn more are
- G. A. F. Seber and A. J. Lee (2003), Linear Regression Analysis, 2nd ed., Wiley.
- E. Lehmann and J. Romano (2005), Testing Statistical Hypotheses, 3rd ed., Springer. Section 14.3 in particular.
- D. R. Cox and D. V. Hinkley (1979), Theoretical Statistics, Chapman and Hall.