Mengapa statistik-T membutuhkan data untuk mengikuti distribusi normal


11

Saya sedang melihat notebook ini , dan saya bingung dengan pernyataan ini:

Ketika kita berbicara tentang normalitas yang kita maksud adalah bahwa data harus terlihat seperti distribusi normal. Ini penting karena beberapa uji statistik mengandalkan ini (misalnya t-statistik).

Saya tidak mengerti mengapa statistik-T membutuhkan data untuk mengikuti distribusi normal.

Memang, Wikipedia mengatakan hal yang sama:

Distribusi-t siswa (atau hanya distribusi-t) adalah setiap anggota keluarga dari distribusi probabilitas berkesinambungan yang muncul ketika memperkirakan rata-rata populasi yang berdistribusi normal

Namun, saya tidak mengerti mengapa asumsi ini diperlukan.

Tidak ada dari rumusnya yang menunjukkan kepada saya bahwa data harus mengikuti distribusi normal:

masukkan deskripsi gambar di sini

Saya melihat sedikit definisi, tetapi saya tidak mengerti mengapa kondisi ini diperlukan.

Jawaban:


17

Informasi yang Anda butuhkan ada di bagian "Karakterisasi" pada halaman Wiki . Sebuah -Distribusi dengan derajat kebebasan dapat didefinisikan sebagai distribusi variabel random sehingga mana adalah distribusi normal standar variabel acak dan adalah variabel acak dengan derajat kebebasan . Selain itu, dan harus independen. Jadi mengingat dan yang mengikuti definisi di atas, Anda kemudian dapat sampai pada variabel acak yang memiliki atνT

T=ZV/ν,
ZVχ2νZVZVt distribusi.

Sekarang, misalkan didistribusikan menurut distribusi . Biarkan memiliki rata-rata dan varians . Biarkan menjadi mean sampel dan menjadi varians sampel. Kami kemudian akan melihat formula:X1,X2,,XnFFμσ2X¯S2

X¯μS/n=X¯μσ/n(n1)S2(n1)σ2.

Jika, menunjukkan distribusi normal, maka , dan dengan demikian . Selain itu, oleh Teorema Cochran . Akhirnya, dengan aplikasi teorema Basu , dan bersifat independen. Ini kemudian menyiratkan bahwa statistik yang dihasilkan memiliki distribusi- dengan derajat kebebasan.FX¯N(μ,σ2/n)X¯μσ/nN(0,1)(n1)S2σ2χn12X¯S2tn1

Jika distribusi data asli tidak normal, maka, distribusi yang tepat dari pembilang dan penyebut masing-masing tidak akan menjadi standar normal dan , dan dengan demikian statistik yang dihasilkan tidak akan memiliki distribusi- .Fχ2t


3
Saya selalu menemukan cukup menarik berapa banyak teknologi matematika masuk ke hasil mendasar ini dalam statistik matematika.
Matthew Drury

3
Pos yang bagus. Namun, kita tidak perlu menggunakan teorema-teorema besar itu untuk membuktikan independensi antara dan , serta . Lihat jawaban pertama dari posting ini. X¯Sχ2
Zhanxiong

2

Saya pikir mungkin ada beberapa kebingungan antara statistik dan formulanya, versus distribusi dan formulanya. Anda dapat menerapkan rumus statistik-t untuk dataset apa pun dan mendapatkan "statistik-t", tetapi statistik ini tidak akan didistribusikan menurut distribusi siswa-t kecuali jika data berasal dari distribusi normal (atau setidaknya, tidak akan menjadi dijamin menjadi; tebakan saya adalah bahwa distribusi tidak normal tidak akan menghasilkan distribusi siswa-t ketika rumus statistik t diterapkan, tetapi saya tidak yakin akan hal itu). Alasannya adalah karena distribusi t-statistik dihitung dari distribusi data yang menghasilkannya, jadi jika Anda memiliki distribusi dasar yang berbeda, maka Anda tidak dijamin memiliki distribusi yang sama untuk statistik yang diturunkan.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.