Ini pertanyaan yang bagus, tapi pertanyaan besar. Saya tidak berpikir saya bisa memberikan jawaban yang lengkap, tetapi saya akan membuang beberapa makanan untuk dipikirkan.
Pertama, di bawah poin utama Anda, koreksi yang Anda maksud dikenal sebagai koreksi Yates 'untuk kontinuitas . Masalahnya adalah kita menghitung statistik inferensial diskrit :
(Ini diskrit karena, dengan hanya sejumlah terbatas contoh yang diwakili dalam tabel kontingensi, ada sejumlah terbatas nilai realisasi yang dapat diambil oleh statistik ini.) Terlepas dari kenyataan ini, ini dibandingkan dengandistribusi referensiberkelanjutan(yaitu.,distribusiχ2dengan derajat kebebasan(r-1)(c-1)). Ini tentu mengarah pada ketidakcocokan pada tingkat tertentu. Dengan kumpulan data yang sangat kecil, dan jika beberapa sel memiliki nilai yang diharapkan kurang dari 5, ada kemungkinan bahwa nilai-p mungkin terlalu kecil. Koreksi Yates menyesuaikan untuk ini.
χ2=∑(O−E)2E
χ2 (r−1)(c−1)
Ironisnya, masalah mendasar yang sama (discrete-continuous mismatch) dapat menyebabkan nilai-p yang terlalu tinggi . Secara khusus, nilai-p didefinisikan secara konvensional sebagai kemungkinan mendapatkan data yang ekstrem atau lebihdari data yang diamati. Dengan data kontinu, dapat dipahami bahwa probabilitas mendapatkan nilai yang pasti semakin kecil, dan dengan demikian kami benar-benar memiliki probabilitas data yang lebih ekstrem. Namun, dengan data diskrit, ada kemungkinan terbatas untuk mendapatkan data seperti milik Anda. Hanya dengan menghitung probabilitas mendapatkan data yang lebih ekstrem daripada nilai Anda, menghasilkan nilai-p nominal yang terlalu rendah (mengarah ke kesalahan tipe I yang meningkat), tetapi termasuk kemungkinan mendapatkan data yang sama seperti milik Anda mengarah pada nilai-p nominal yang terlalu tinggi (yang akan menyebabkan peningkatan kesalahan tipe II). Fakta-fakta ini mendorong gagasan nilai tengah p . Di bawah pendekatan ini, nilai-p adalah probabilitas data yang lebih ekstrem daripada Anda ditambah setengahnya probabilitas data sama seperti milik Anda.
Seperti yang Anda tunjukkan, ada banyak kemungkinan untuk menguji data tabel kontingensi. Perlakuan paling pro dan kontra dari berbagai pendekatan ada di sini . Makalah itu khusus untuk tabel 2x2, tetapi Anda masih bisa belajar banyak tentang opsi untuk data tabel kontingensi dengan membacanya.
Saya juga berpikir ada baiknya mempertimbangkan model dengan serius. Tes yang lebih tua seperti chi-squared cepat, mudah, dan dipahami oleh banyak orang, tetapi jangan meninggalkan Anda dengan pemahaman yang komprehensif tentang data Anda seperti yang Anda dapatkan dari membangun model yang tepat. Jika masuk akal untuk memikirkan baris [kolom] dari tabel kontingensi Anda sebagai variabel respons, dan kolom [baris] sebagai variabel penjelas / prediktor, pendekatan pemodelan akan mengikuti dengan mudah. Misalnya, jika Anda hanya memiliki dua baris, Anda dapat membangun model regresi logistik ; jika ada beberapa kolom, Anda bisa menggunakan pengkodean sel referensi (pengkodean dummy) untuk membangun model tipe ANOVA. Di sisi lain, jika Anda memiliki lebih dari dua baris, regresi logistik multinomialdapat digunakan dengan cara yang sama. Jika baris Anda memiliki urutan intrinsik, regresi logistik ordinal akan menghasilkan kinerja yang unggul untuk multinomial. Model log-linear (regresi Poisson) mungkin kurang relevan kecuali Anda memiliki tabel kontingensi dengan lebih dari dua dimensi, menurut saya.
Untuk perawatan yang komprehensif dari topik-topik seperti ini, sumber terbaik adalah buku-buku karya Agresti: baik perawatan skala penuh (lebih ketat), buku intro- nya (lebih mudah tetapi masih komprehensif dan sangat baik), atau mungkin juga buku ordinalnya .
G2-test
G2=∑O⋅ln(OE)