Sepertinya ketika asumsi homogenitas varians terpenuhi bahwa hasil dari uji-t Welch yang disesuaikan dan uji-t standar hampir sama. Mengapa tidak selalu menggunakan t Welch yang disesuaikan?
Sepertinya ketika asumsi homogenitas varians terpenuhi bahwa hasil dari uji-t Welch yang disesuaikan dan uji-t standar hampir sama. Mengapa tidak selalu menggunakan t Welch yang disesuaikan?
Jawaban:
Saya ingin menentang dua jawaban lainnya berdasarkan pada sebuah makalah (dalam bahasa Jerman) oleh Kubinger, Rasch dan Moder (2009) .
Mereka berpendapat, berdasarkan simulasi "ekstensif" dari distribusi apakah memenuhi atau tidak memenuhi asumsi yang dipaksakan oleh uji-t, (normalitas dan homogenitas varian) bahwa uji welch berkinerja sama baiknya ketika asumsi dipenuhi (yaitu, pada dasarnya sama probabilitas melakukan kesalahan alfa dan beta) tetapi mengungguli uji-t jika asumsi tidak terpenuhi, terutama dalam hal kekuatan. Oleh karena itu, mereka merekomendasikan untuk selalu menggunakan uji welch jika ukuran sampel melebihi 30.
Sebagai meta-komentar: Bagi orang-orang yang tertarik pada statistik (seperti saya dan mungkin sebagian besar lainnya di sini) argumen yang didasarkan pada data (seperti milik saya) setidaknya harus dihitung secara sama sebagai argumen yang semata-mata didasarkan pada alasan teoritis (seperti yang lainnya di sini).
Pembaruan:
Setelah memikirkan topik ini lagi, saya menemukan dua rekomendasi lebih lanjut yang mana yang lebih baru membantu pendapat saya. Lihatlah makalah asli (yang keduanya, setidaknya bagi saya, tersedia secara bebas) untuk argumen yang mengarah pada rekomendasi ini.
Rekomendasi pertama datang dari Graeme D. Ruxton pada 2006: " Jika Anda ingin membandingkan kecenderungan sentral dari 2 populasi berdasarkan sampel data yang tidak terkait, maka uji t varians yang tidak sama harus selalu digunakan dalam preferensi untuk uji-t Student. atau Mann-Whitney U tes. "
dalam:
Ruxton, GD, 2006. The merata variance t-test adalah alternatif kurang dimanfaatkan untuk tes t dan uji Mann-Whitney U .
Behav. Ecol . 17, 688–690.
Rekomendasi kedua (yang lebih tua) dari Coombs et al. (1996, hal. 148): " Singkatnya, uji t sampel independen umumnya dapat diterima dalam hal mengendalikan tingkat kesalahan Tipe I asalkan ada cukup besar sampel berukuran sama, bahkan ketika asumsi varians populasi yang sama dilanggar. Untuk tidak setara sampel berukuran besar, bagaimanapun, alternatif yang tidak mengasumsikan varians populasi yang sama lebih disukai.Gunakan tes orde dua James ketika distribusi baik simetris berekor pendek atau normal. Alternatif yang menjanjikan termasuk tes sarana Wilcox H dan Yuen yang dipangkas, yang menyediakan kontrol yang lebih luas dari tingkat kesalahan Tipe I daripada tes Welch atau James dan memiliki kekuatan lebih besar ketika data berekor panjang. " (penekanan ditambahkan)
Dalam:
Coombs WT, Algina J, Oltman D. 1996. Tes hipotesis omnibus univariat dan multivariat dipilih untuk mengendalikan tingkat kesalahan tipe I ketika varians populasi belum tentu sama . Rev Educ Res 66: 137–79.
tentu saja, seseorang dapat membuang kedua tes tersebut, dan mulai menggunakan uji-Bayesian (uji rasio Savage-Dickey), yang dapat menjelaskan varian yang tidak sama dan tidak sama, dan yang paling penting, memungkinkan kuantifikasi bukti yang mendukung hipotesis nol (yang berarti, tidak ada lagi pembicaraan "kegagalan menolak")
Tes ini sangat sederhana (dan cepat) untuk diterapkan, dan ada makalah yang jelas menjelaskan kepada pembaca yang tidak terbiasa dengan statistik Bayesian bagaimana menggunakannya, bersama dengan skrip R. Anda pada dasarnya bisa memasukkan data Anda mengirim perintah ke konsol R:
ada juga tutorial untuk semua ini, dengan contoh data:
http://www.ruudwetzels.com/index.php?src=SDtest
Saya tahu ini bukan respons langsung terhadap apa yang ditanyakan, tetapi saya pikir pembaca mungkin menikmati memiliki alternatif yang baik ini
tepuk tangan
Karena hasil yang pasti lebih disukai daripada perkiraan, dan menghindari kasus tepi ganjil di mana perkiraan dapat menyebabkan hasil yang berbeda dari metode yang tepat.
Metode Welch bukan cara yang lebih cepat untuk melakukan uji-t lama, ini merupakan pendekatan yang mudah dilakukan untuk masalah yang sangat sulit: bagaimana membangun uji-t di bawah variasi yang tidak setara. Kasus equal-variance dipahami dengan baik, sederhana, dan tepat, dan karena itu harus selalu digunakan jika memungkinkan.
Dua alasan yang dapat saya pikirkan:
T Student reguler cukup kuat untuk heteroskedastisitas jika ukuran sampel sama.
Jika Anda sangat meyakini apriori bahwa datanya adalah homoseks, maka Anda tidak kehilangan apa-apa dan mungkin mendapatkan sejumlah kecil daya dengan menggunakan Stud'ts T dan bukannya Welch's T.
Salah satu alasan yang tidak akan saya berikan adalah bahwa Student's T tepat dan Welch's tidak. IMHO ketepatan Mahasiswa T adalah akademik karena hanya tepat untuk data terdistribusi normal, dan tidak ada data riil persis terdistribusi secara normal. Saya tidak dapat memikirkan kuantitas tunggal yang sebenarnya diukur dan dianalisis secara statistik di mana distribusi secara masuk akal dapat memiliki dukungan dari semua bilangan real. Sebagai contoh, hanya ada begitu banyak atom di alam semesta, dan beberapa jumlah tidak mungkin negatif. Karena itu, ketika Anda menggunakan segala jenis T-test pada data nyata, Anda membuat perkiraan bagaimanapun.
Fakta bahwa sesuatu yang lebih kompleks berkurang menjadi sesuatu yang kurang kompleks ketika beberapa asumsi diperiksa tidak cukup untuk membuang metode yang lebih sederhana.
Saya akan mengambil pandangan sebaliknya di sini. Mengapa repot-repot dengan tes Welch ketika uji t siswa berpasangan standar memberi Anda hasil yang hampir identik. Saya mempelajari masalah ini beberapa waktu lalu dan saya menjelajahi berbagai skenario dalam upaya untuk memecahkan tes t dan mendukung tes Welch. Untuk melakukannya saya menggunakan ukuran sampel hingga 5 kali lebih besar untuk satu kelompok dibandingkan yang lain. Dan, saya menjelajahi varian hingga 25 kali lebih besar untuk satu kelompok vs yang lain. Dan, itu benar-benar tidak membuat perbedaan materi. Uji t tidak berpasangan masih menghasilkan kisaran nilai p yang hampir identik dengan tes Welch.
Anda dapat melihat pekerjaan saya di tautan berikut dan fokus terutama pada slide 5 dan 6.
Memang benar bahwa sifat-sifat yang sering dari tes terkoreksi Welch lebih baik daripada T Student biasa, setidaknya untuk kesalahan. Saya setuju bahwa itu saja adalah argumen yang cukup bagus untuk tes Welch. Namun, saya biasanya enggan merekomendasikan koreksi Welch karena penggunaannya sering menipu. Yang, diakui bukan kritik terhadap tes itu sendiri.
Alasan saya tidak merekomendasikan koreksi Welch adalah karena itu tidak hanya mengubah derajat kebebasan dan distribusi teoritis selanjutnya dari mana nilai p diambil. Itu membuat tes non-parametrik. Untuk melakukan uji t dikoreksi Welch satu masih mengumpulkan varians seolah-olah varians yang sama dapat diasumsikan tetapi kemudian mengubah prosedur pengujian akhir menyiratkan baik bahwa varians yang sama tidak dapat diasumsikan, atau bahwa Anda hanya peduli dengan varians sampel. Ini membuatnya menjadi tes non-parametrik karena varians yang dikumpulkan dianggap non-representatif dari populasi dan Anda mengakui bahwa Anda hanya menguji nilai yang diamati.
Tidak ada yang salah dengan hal itu. Namun, saya menganggapnya menipu karena a) biasanya tidak dilaporkan dengan cukup spesifik; dan b) orang yang menggunakannya cenderung memikirkannya secara bergantian dengan uji-t. Satu-satunya cara saya tahu bahwa itu telah dilakukan di koran yang diterbitkan adalah ketika saya melihat DF aneh untuk distribusi-t. Itu juga satu-satunya cara Rexton (direferensikan dalam jawaban Henrik) bisa tahu dalam ulasan. Sayangnya, sifat non-parametrik dari uji koreksi Welch terjadi apakah derajat kebebasan telah berubah atau tidak (yaitu bahkan jika varians sampel sama). Tetapi masalah pelaporan ini merupakan gejala fakta bahwa sebagian besar orang yang menggunakan koreksi Welch tidak mengenali perubahan ini pada pengujian yang telah terjadi.
Oleh karena itu, karena ini, saya percaya bahwa jika Anda akan merekomendasikan tes non-parametrik jangan gunakan yang sering muncul parametrik atau setidaknya sangat jelas tentang apa yang Anda lakukan. Nama resmi tes harus T-test Non-Parametrik Welch Dikoreksi. Jika orang melaporkannya seperti itu, saya akan jauh lebih bahagia dengan rekomendasi Henrik.