Saya meninggalkan paragraf ini agar komentarnya masuk akal: Mungkin asumsi normalitas dalam populasi asli terlalu ketat, dan dapat dilupakan dengan fokus pada distribusi sampling, dan terima kasih pada teorema batas pusat, terutama untuk sampel besar.
t
Seperti yang Anda sebutkan, distribusi-t menyatu dengan distribusi normal ketika sampel meningkat, karena plot R cepat ini menunjukkan:
t
Jadi menerapkan z-test akan baik-baik saja dengan sampel besar.
Mengatasi masalah dengan jawaban awal saya. Terima kasih, Glen_b atas bantuan Anda dengan OP (kemungkinan kesalahan interpretasi baru sepenuhnya menjadi milik saya).
- T STATISTIK BERIKUT DI DISTRIBUSI DI BAWAH ASUMSI NORMALITAS:
Mengesampingkan kerumitan dalam rumus untuk satu sampel vs dua sampel (berpasangan dan tidak berpasangan), statistik t umum yang berfokus pada kasus membandingkan rata-rata sampel dengan rata-rata populasi adalah:
uji-t = X¯- μsn√= X¯- μσ/ n√s2σ2---√= X¯- μσ/ n--√∑nx = 1( X- X¯)2n - 1σ2--------√(1)
Xμσ2
- ( 1 ) ∼ N( 1 , 0 )
- ( 1 )s2/ σ2n - 1∼ 1n - 1χ2n - 1( n - 1 ) s2/ σ2∼ χ2n - 1
- Numerator dan penyebut harus independen.
t-statistik ∼ t ( df= n - 1 )
- TEORI BATAS TENGAH:
Kecenderungan ke arah normal dari distribusi sampling dari sampel berarti ketika ukuran sampel meningkat dapat membenarkan asumsi distribusi normal pembilang bahkan jika populasi tidak normal. Namun, itu tidak mempengaruhi dua kondisi lainnya (distribusi chi square dari penyebut dan independensi pembilang dari penyebut).
Tetapi tidak semua hilang, dalam posting ini dibahas bagaimana teorema Slutzky mendukung konvergensi asimptotik menuju distribusi normal bahkan jika distribusi chi penyebut tidak terpenuhi.
- KEKERASAN:
Di atas kertas "Pandangan yang Lebih Realistis pada Robustness dan Tipe II Properti Kesalahan dari Uji t untuk Berangkat Dari Populality Normalality" oleh Sawilowsky SS dan Blair RC dalam Psychological Bulletin, 1992, Vol. 111, No. 2, 352-360 , di mana mereka menguji distribusi yang kurang ideal atau lebih "dunia nyata" (kurang normal) untuk kesalahan daya dan untuk kesalahan tipe I, pernyataan berikut dapat ditemukan: "Meskipun sifatnya konservatif berkenaan dengan Tipe Saya salah dalam uji t untuk beberapa distribusi nyata ini, ada sedikit pengaruh pada tingkat daya untuk berbagai kondisi perawatan dan ukuran sampel yang diteliti. Para peneliti dapat dengan mudah mengkompensasi sedikit kehilangan daya dengan memilih ukuran sampel yang sedikit lebih besar " .
" Pandangan yang berlaku tampaknya bahwa uji t sampel independen cukup kuat, sejauh kesalahan Tipe I terkait, dengan bentuk populasi non-Gaussian selama (a) ukuran sampel sama atau hampir sama, (b) sampel ukurannya cukup besar (Boneau, 1960, menyebutkan ukuran sampel 25 hingga 30), dan (c) tes dua sisi daripada satu ekor. Perhatikan juga bahwa ketika kondisi ini dipenuhi dan perbedaan antara alpha nominal dan alpha aktual dilakukan terjadi, perbedaan biasanya bersifat konservatif daripada liberal. "
Para penulis menekankan aspek kontroversial dari topik ini, dan saya berharap dapat mengerjakan beberapa simulasi berdasarkan distribusi lognormal seperti yang disebutkan oleh Profesor Harrell. Saya juga ingin membuat beberapa perbandingan Monte Carlo dengan metode non-parametrik (misalnya uji Mann-Whitney U). Jadi ini masih dalam proses ...
SIMULASI:
Penafian: Berikut ini adalah salah satu latihan ini dalam "membuktikan sendiri" dengan satu atau lain cara. Hasilnya tidak dapat digunakan untuk membuat generalisasi (setidaknya tidak oleh saya), tapi saya kira saya dapat mengatakan bahwa kedua (mungkin cacat) simulasi MC ini tampaknya tidak terlalu mengecewakan untuk penggunaan uji t dalam keadaan. dijelaskan.
Kesalahan tipe I:
Pada masalah kesalahan tipe I, saya menjalankan simulasi Monte Carlo menggunakan distribusi Lognormal. Mengekstraksi apa yang akan dianggap sampel yang lebih besar (n = 50μ = 0σ= 1
5 %4,5 %
Sebenarnya plot kepadatan uji t yang diperoleh tampaknya tumpang tindih pdf sebenarnya dari distribusi t:
Bagian yang paling menarik adalah melihat "penyebut" dari uji t, bagian yang seharusnya mengikuti distribusi chi-squared:
( n - 1 ) s2/ σ2= 98( 49)( SD2SEBUAH+ SD2SEBUAH) ) / 98( eσ2- 1 )e2 μ + σ2
.
Di sini kita menggunakan standar deviasi umum, seperti pada entri Wikipedia ini :
SX1X2= ( n1- 1 )S2X1+ ( n2- 1 )S2X2n1+ n2- 2----------------------√
Dan, yang mengejutkan (atau tidak) plotnya sangat berbeda dengan pdf chi-squared yang dilapiskan:
Kesalahan dan Kekuasaan Tipe II:
The distribusi tekanan darah mungkin log-normal , yang datang sangat berguna untuk mengatur skenario sintetis di mana kelompok pembanding terpisah nilai rata-rata jarak relevansi klinis, mengatakan dalam sebuah studi klinis menguji efek dari tekanan darah obat yang berfokus pada TD diastolik, efek yang signifikan dapat dianggap sebagai penurunan rata-rata10 mmHg (SD kira-kira 9 mmHg terpilih):
Menjalankan uji-t perbandingan pada simulasi Monte Carlo yang hampir serupa untuk kesalahan tipe I antara kelompok-kelompok fiktif ini, dan dengan tingkat signifikansi 5 % kita berakhir dengan 0,024 % kesalahan tipe II, dan kekuatan hanya 99 %.
Kodenya ada di sini .