Mengapa statistik-T membutuhkan data untuk mengikuti distribusi normal

11

Saya sedang melihat notebook ini , dan saya bingung dengan pernyataan ini:

Ketika kita berbicara tentang normalitas yang kita maksud adalah bahwa data harus terlihat seperti distribusi normal. Ini penting karena beberapa uji statistik mengandalkan ini (misalnya t-statistik).

Saya tidak mengerti mengapa statistik-T membutuhkan data untuk mengikuti distribusi normal.

Memang, Wikipedia mengatakan hal yang sama:

Distribusi-t siswa (atau hanya distribusi-t) adalah setiap anggota keluarga dari distribusi probabilitas berkesinambungan yang muncul ketika memperkirakan rata-rata populasi yang berdistribusi normal

Namun, saya tidak mengerti mengapa asumsi ini diperlukan.

Tidak ada dari rumusnya yang menunjukkan kepada saya bahwa data harus mengikuti distribusi normal:

Saya melihat sedikit definisi, tetapi saya tidak mengerti mengapa kondisi ini diperlukan.

mathematical-statistics normal-distribution

— oktavian
sumber

17

Informasi yang Anda butuhkan ada di bagian "Karakterisasi" pada halaman Wiki . Sebuah -Distribusi dengan derajat kebebasan dapat didefinisikan sebagai distribusi variabel random sehingga mana adalah distribusi normal standar variabel acak dan adalah variabel acak dengan derajat kebebasan . Selain itu, dan harus independen. Jadi mengingat dan yang mengikuti definisi di atas, Anda kemudian dapat sampai pada variabel acak yang memiliki a $t$ $\nu$ $T$

T = \frac{Z}{\sqrt{V / ν}},

$T = \dfrac{Z}{\sqrt{V/\nu}} \,,$

Z

$Z$

V

$V$

χ^{2}

$\chi^2$

ν

$\nu$

Z

$Z$

V

$V$

Z

$Z$

V

$V$

t

$t$ distribusi.

Sekarang, misalkan didistribusikan menurut distribusi . Biarkan memiliki rata-rata dan varians . Biarkan menjadi mean sampel dan menjadi varians sampel. Kami kemudian akan melihat formula: $X_1, X_2, \dots, X_n$ $F$ $F$ $\mu$ $\sigma^2$ $\bar{X}$ $S^2$

\frac{\bar{X} - μ}{S / \sqrt{n}} = \frac{\frac{\bar{X} - μ}{σ / \sqrt{n}}}{\sqrt{\frac{(n - 1) S^{2}}{(n - 1) σ^{2}}}} .

$\dfrac{\bar{X} - \mu}{S/\sqrt{n}} = \dfrac{\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{(n-1)\sigma^2}}} \,.$

Jika, menunjukkan distribusi normal, maka , dan dengan demikian . Selain itu, oleh Teorema Cochran . Akhirnya, dengan aplikasi teorema Basu , dan bersifat independen. Ini kemudian menyiratkan bahwa statistik yang dihasilkan memiliki distribusi- dengan derajat kebebasan. $F$ $\bar{X} \sim N(\mu, \sigma^2/n)$ $\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)$ $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}$ $\bar{X}$ $S^2$ $t$ $n-1$

Jika distribusi data asli tidak normal, maka, distribusi yang tepat dari pembilang dan penyebut masing-masing tidak akan menjadi standar normal dan , dan dengan demikian statistik yang dihasilkan tidak akan memiliki distribusi- . $F$ $\chi^2$ $t$

— Greenparker
sumber

3

Saya selalu menemukan cukup menarik berapa banyak teknologi matematika masuk ke hasil mendasar ini dalam statistik matematika.

— Matthew Drury

3

Pos yang bagus. Namun, kita tidak perlu menggunakan teorema-teorema besar itu untuk membuktikan independensi antara dan , serta . Lihat jawaban pertama dari posting ini.

\bar{X}

$\bar{X}$

S

$S$

χ^{2}

$\chi^2$

— Zhanxiong

2

Saya pikir mungkin ada beberapa kebingungan antara statistik dan formulanya, versus distribusi dan formulanya. Anda dapat menerapkan rumus statistik-t untuk dataset apa pun dan mendapatkan "statistik-t", tetapi statistik ini tidak akan didistribusikan menurut distribusi siswa-t kecuali jika data berasal dari distribusi normal (atau setidaknya, tidak akan menjadi dijamin menjadi; tebakan saya adalah bahwa distribusi tidak normal tidak akan menghasilkan distribusi siswa-t ketika rumus statistik t diterapkan, tetapi saya tidak yakin akan hal itu). Alasannya adalah karena distribusi t-statistik dihitung dari distribusi data yang menghasilkannya, jadi jika Anda memiliki distribusi dasar yang berbeda, maka Anda tidak dijamin memiliki distribusi yang sama untuk statistik yang diturunkan.

— Akumulasi
sumber