Apa yang sebenarnya didistribusikan menurut distribusi-t?

Saya mencoba memahami ide di balik distribusi-t. Berikut langkah-langkah yang saya pahami sejauh ini:

Kami menggunakan sampel elemen N untuk memperkirakan rata-rata populasi. Secara lebih rinci, kami menggunakan mean sampel sebagai estimasi rata-rata populasi.
Kami ingin tahu seberapa dekat estimasi kami dengan nilai sebenarnya. Atau, lebih khusus kita ingin tahu seberapa besar seharusnya interval di sekitar mean sampel sehingga kita dapat mengatakan bahwa mean populasi berada dalam interval ini dengan probabilitas tertentu.
Untuk menjawab pertanyaan ini, kami mengasumsikan bahwa nilai-nilai dalam populasi didistribusikan menurut distribusi normal dengan rata-rata yang diketahui dan standar deviasi.
Memiliki parameter distribusi nilai-nilai dalam populasi kita dapat menghitung distribusi mean sampel sebagai fungsi dari distribusi populasi dan ukuran sampel.
Kita dapat menunjukkan bahwa distribusi rata-rata sampel juga merupakan distribusi normal dengan rata-rata yang sama dengan distribusi populasi dan deviasi standar yang diberikan oleh rumus berikut , di mana adalah ukuran sampel . $s = \sigma/\sqrt{N}$ $N$
Memiliki distribusi sampel rata-rata, kita dapat dengan mudah menghitung probabilitas bahwa rata-rata sampel dipisahkan dari rata-rata nyata dengan X. Atau, dengan kata lain, kita dapat menghitung probabilitas bahwa rata-rata populasi berada dalam interval tertentu di sekitar rata-rata sampel .
Itu hampir apa yang kita butuhkan. Satu-satunya masalah adalah bahwa dalam pengaturan kehidupan nyata kita sering tidak tahu standar deviasi dari distribusi populasi (dan ini adalah parameter yang menentukan bagaimana rata-rata sampel kami didistribusikan di sekitar rata-rata populasi).
Apa yang bisa kita lakukan adalah mengganti deviasi standar populasi dengan sampel deviasi standar. Dengan kata lain kami mengganti parameter yang tepat dan tidak dikenal dengan perkiraan perkiraan kami untuk itu.

Jadi, inilah posisi saya sejauh ini. Dengan mengganti populasi STD dengan sampel STD, kami membuat estimasi distribusi sampel menjadi lebih buruk. Dan untuk "mengkompensasi" nilai "salah" ini dari parameter distribusi, kami mengubah bentuk distribusi (kami mengatakan itu bukan distribusi normal lagi, itu adalah distribusi t). Tetapi apa sebenarnya yang didistribusikan menurut distribusi-t? Ketika kita mengetahui populasi STD, kita tahu bagaimana mean sampel didistribusikan di sekitar mean populasi. Sekarang kita tidak tahu populasi STD, tetapi itu tidak mengubah distribusi mean sampel di sekitar mean populasi!

— Roma
sumber

Anda sangat dekat ...

Jika $X_1, \dots, X_n$ adalah sampel pengamatan normal iid dengan rerata $\mu$ dan varians $\sigma^2$ , maka rata-rata terstandarisasi

\frac{{\bar{X}}_{n} - μ}{σ / \sqrt{n}}

$\frac{\bar X_n-\mu}{\sigma/\sqrt{n}}$ adalah standar normal. Sekarang, seperti yang Anda tunjukkan, pada kenyataannya kita tidak pernah tahu

σ

$\sigma$ . Jadi kami ganti

σ

$\sigma$ oleh estimasi sampelnya

S

$S$ dan pertimbangkan arti "mahasiswa"

T = \frac{{\bar{X}}_{n} - μ}{S / \sqrt{n}}

$T = \frac{\bar X_n-\mu}{S/\sqrt{n}}$ sebagai gantinya. Variabel acak ini sedikit berbeda dari yang di atas. Akibatnya, distribusinya sedikit tidak normal, yaitu Siswa dengan

n - 1

$n-1$ derajat kebebasan.

Karena tidak terlalu kecil $n$ , $S$ dekat dengan $\sigma$ (itulah konsistensi dari simpangan baku sampel). Kemudian, rata-rata terstandarisasi sangat dekat dengan yang terpelajar. Ini menjelaskan mengapa distribusi Siswa dengan banyak derajat kebebasan terlihat seperti normal.

Mean mahasiswa adalah titik awal untuk memperoleh interval kepercayaan dan tes hipotesis untuk $\mu$ .

Contoh : Untuk menemukan batas kepercayaan 95% lebih rendah $\bar X_n -c$ untuk $\mu$ , Anda memecahkan persamaan berikut

P ({\bar{X}}_{n} - c \leq μ) = 0,95

$P(\bar X_n -c \le \mu) = 0.95$ untuk

c

$c$ . Untuk melakukannya, Anda mencoba untuk memodifikasi persamaan dalam probabilitas sehingga mean mahasiswa yang muncul (coba untuk mencari tahu subteps):

P (T \leq \frac{c}{S / \sqrt{n}}) = 0,95.

$P(T \le \frac{c}{S/\sqrt{n}}) = 0.95.$ Maka Anda menggunakan fakta itu

T

$T$ memiliki distribusi siswa dengan

n - 1

$n-1$ df untuk menghilangkan probabilitas:

\frac{c}{S / \sqrt{n}} = q t_{0,95; n - 1},

$\frac{c}{S/\sqrt{n}} = qt_{0.95;n-1},$ dimana

q t_{0.95; n - 1}

$qt_{0.95;n-1}$ adalah 95% kuantil yang sesuai. Jadi,

c = \frac{S}{\sqrt{n}} \cdot q t_{0,95; n - 1}

$c = \frac{S}{\sqrt{n}} \cdot qt_{0.95;n-1}$ dan batas kepercayaan bawah (terkenal) berikut:

{\bar{X}}_{n} - \frac{S}{\sqrt{n}} \cdot q t_{0,95; n - 1}

$\bar X_n - \frac{S}{\sqrt{n}} \cdot qt_{0.95;n-1}$

— Michael M.
sumber

Ini berarti bahwa alih-alih berbicara tentang mean sampel ( X_n), kita berbicara tentang "mean standar". Kita dapat mengatakan bahwa distribusi rata-rata terstandarisasi adalah normal dengan rata-rata nol dan STD sama dengan 1. Tidak, kami mendefinisikan variabel lain dengan mengganti populasi STD dengan sampel STD dan mengatakan bahwa variabel baru ini didistribusikan sesuai dengan t-distribusi. BAIK. Hal terakhir yang saya tidak mengerti adalah mengapa kita tidak mengganti mean populasi dengan mean sampel. Jika kita tidak tahu sigma kita mungkin juga tidak tahu mu.

— Roman

Kami lakukan! Tetapi pertanyaan paling menarik tentang

μ

$\mu$ seperti "dalam kisaran apa yang akan

μ

$\mu$ menjadi dengan kepastian tinggi "(-> interval kepercayaan) atau" adalah

μ

$\mu$ benar-benar berbeda dari 0 "(-> uji hipotesis) dijawab dengan menggunakan fakta bahwa rata-rata siswa mengikuti distribusi Siswa. Anda tidak dapat menjawab pertanyaan seperti itu hanya dengan melihat pada perkiraan.

— Michael M