@Silverfish meminta perluasan jawaban oleh PolatAlemdar, yang tidak diberikan, jadi saya akan mencoba mengembangkannya di sini.
Kenapa nama chisquare berjarak? Tes chisquare untuk tabel kontingensi didasarkan pada
jadi idenya adalah untuk menjaga formulir ini dan menggunakannya sebagai pengukur jarak. Hal ini memberikan rumus ketiga OP, denganxidiartikan sebagai pengamatan danyisebagai harapan, yang menjelaskan komentar PolatAlemdar ini "Hal ini digunakan dalam distribusi probabilitas diskrit", seperti misalnya dalam kebaikan pengujian fit. Bentuk ketiga inibukanfungsi jarak, karena asimetris dalam variabelxdany. Untuk perbandingan histogram, kita menginginkan fungsi jarak yang simetris dalamxdany, dan dua bentuk pertama memberikan ini. Perbedaan di antara mereka hanyalah faktor konstan1
χ2=∑cells(Oi−Ei)2Ei
xiyixyxy , yang tidak penting selama Anda hanya memilih satu formulir secara konsisten (meskipun versi dengan faktor tambahan
112 lebih baik jika Anda ingin membandingkan dengan bentuk asimetris). Perhatikan kesamaan dalam rumus ini dengan jarak euclide kuadrat, yang bukan kebetulan, jarak chisquare adalah semacamjarak euclidean
tertimbang. Karena alasan itu, rumus dalam OP biasanya diletakkan di bawah tanda root untuk mendapatkan
jarak. Berikut ini kami ikuti ini.
12
Jarak Chisquare digunakan juga dalam analisis korespondensi. Untuk melihat hubungan ke bentuk yang digunakan di sana, biarkan menjadi sel-sel dari tabel kontingensi dengan R baris dan C kolom. Nyatakan total baris menjadi x + j = ∑ i x i j dan kolom total dengan x i + = ∑ j x i j . Jarak chisquare antara baris l , k diberikan oleh
χ 2 ( l , k ) =xijRCx+j=∑ixijxi+=∑jxijl,k
Untuk kasus dengan hanya dua baris (dua histogram) ini memulihkan formula pertama OP (modulo tanda root).
χ2(l,k)=∑j1x+j(xljxl+−xkjxk+)2−−−−−−−−−−−−−−−−−−−⎷
EDIT
Menjawab pertanyaan dalam komentar di bawah ini: Sebuah buku dengan diskusi panjang tentang jarak chisquare adalah "CORRESPONDENCE ANALYSIS in PRACTICE (Edisi Kedua)" oleh Michael Greenacre (Chapman & Hall). Ini adalah nama yang mapan, berasal dari kemiripannya dengan chisquare yang digunakan dengan tabel kontingensi. Distribusi apa yang dimilikinya? Saya belum pernah mempelajarinya, tapi mungkin (dalam beberapa kondisi ...) ia akan memiliki beberapa distribusi chisquare, kira-kira. Bukti harus serupa dengan apa yang dilakukan dengan tabel kontingensi, kebanyakan literatur tentang analisis korespondensi tidak masuk ke teori distribusi. Sebuah makalah yang memiliki beberapa teori yang mungkin relevan adalah http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Lihat juga/stats//search?q=%22chisquare+distance%22 untuk beberapa posting lain yang relevan di situs ini.