Uji statistik untuk nilai yang secara signifikan lebih jauh dari rata-rata populasi: apakah tes-Z atau uji-T?

Seberapa signifikan suatu nilai dibandingkan dengan daftar nilai? Dalam kebanyakan kasus pengujian statistik melibatkan membandingkan set sampel dengan populasi. Dalam kasus saya, sampel dibuat dengan satu nilai dan kami membandingkannya dengan populasi.

Saya seorang dilettante dalam pengujian hipotesis statistik dihadapkan dengan mungkin masalah paling mendasar. Bukan hanya satu tes tetapi ratusan dari mereka. Saya memiliki ruang parameter, dan harus melakukan uji signifikansi untuk setiap titik. Nilai dan daftar latar belakang (populasi) dihasilkan untuk setiap kombinasi parameter. Kemudian saya memesan ini dengan nilai-p dan menemukan kombinasi parameter yang menarik. Faktanya, penemuan kombinasi parameter di mana p-val ini tinggi (tidak signifikan) juga penting.

Jadi mari kita ambil satu tes tunggal: Saya memiliki nilai yang dihitung dihasilkan dari set yang dipilih dan latar belakang nilai yang dihitung dengan memilih set pelatihan acak. Nilai yang dihitung adalah 0,35 dan set latar belakang (mungkin?) Biasanya didistribusikan dengan rata-rata 0,25 dan std yang sangat sempit (e-7). Saya sebenarnya tidak memiliki pengetahuan tentang distribusi, karena sampel dihitung dari sesuatu yang lain, mereka bukan sampel angka acak dari beberapa distribusi, jadi latar belakang adalah kata yang tepat untuk itu.

Hipotesis nol adalah bahwa "rata-rata tes sampel sama dengan nilai saya yang dihitung, sebesar 0,35". Kapan saya harus menganggap ini sebagai tes-Z atau uji-T? Saya ingin nilainya secara signifikan lebih tinggi dari rata-rata populasi, oleh karena itu ini adalah tes satu-ekor.

Saya agak bingung tentang apa yang harus dipertimbangkan sebagai sampel: Saya memiliki sampel satu (pengamatan) dan daftar latar belakang sebagai populasi ATAU sampel saya adalah daftar latar belakang dan saya membandingkannya dengan keseluruhan (tidak dicampuri) populasi yang menurut hipotesis nol harus memiliki rata-rata yang sama. Setelah ini diputuskan, tes saya menuju ke arah yang berbeda.

Jika ini adalah uji-T, bagaimana cara menghitung nilai p-nya? Saya ingin menghitung sendiri daripada menggunakan fungsi R / Python / Excel (saya sudah tahu bagaimana melakukannya) karena itu saya harus membuat formula yang benar terlebih dahulu.

Untuk mulai dengan, saya menduga T-test agak terlalu umum, karena dalam kasus saya T-test akan dikaitkan dengan ukuran sampel dan akan memiliki bentuk: mana dan s adalah , sampel std versus populasi std. Jadi saya punya dua kasus: ukuran sampel saya adalah ukuran populasi, yang saya "tebak" berarti saya berurusan dengan uji-Z, atau statistik populasi (n dan std) tidak diketahui tetapi distribusinya dapat dalam beberapa cara diperkirakan dan saya benar-benar berurusan dengan uji-T. Bagaimanapun, pertanyaan saya berikut ini adalah:

T = Z / s,

$T=Z/s,$

Z = \frac{\bar{X}}{\frac{σ}{\sqrt{n}}}

$Z=\frac{\bar{X}}{\frac{\sigma}{\sqrt{n}}}$

s = \hat{σ} / σ

$s=\hat{\sigma}/\sigma$

Bagaimana cara menghitung nilai p? (Yaitu tidak menggunakan fungsi R / Python / Excel atau pencarian tabel p-value tetapi sebenarnya menghitungnya berdasarkan rumus, karena saya ingin tahu apa yang saya lakukan)
Bagaimana cara saya menentukan ambang batas signifikansi berdasarkan ukuran sampel saya? (formula akan menyenangkan)

hypothesis-testing statistical-significance

— grokkaine
sumber

10^{6}

$10^6$

0.35 = 10^{6} \times 10^{- 7} + 0.25

$0.35 = 10^6 \times 10^{-7} + 0.25$

0.35

$0.35$

@ grokkaine - Pertanyaan ini menimbulkan masalah menarik dan tampaknya berharga, tapi saya akan merasa lebih berharga jika Anda sedikit mengeditnya, berhati-hatilah dengan persyaratan Anda.

— rolando2

Bukan hanya satu tes tetapi ratusan dari mereka. Saya memiliki ruang parameter, dan harus melakukan uji signifikansi untuk setiap titik. Nilai dan daftar latar belakang (populasi) dihasilkan untuk setiap kombinasi parameter. Kemudian saya memesan ini dengan nilai-p dan menemukan kombinasi parameter yang menarik. Faktanya, penemuan kombinasi parameter di mana p-val ini tinggi (tidak signifikan) juga penting. Saya akan mencoba mengedit posting saya nanti.

— grokkaine

Jawaban:

Anda mengajukan pertanyaan yang menarik. Hal pertama yang pertama, jika Anda memiliki pengamatan 0,35, rata-rata 0,25, dan standar deviasi 1/10 ^ 7 (itulah cara saya menafsirkan bit e--7), Anda benar-benar tidak perlu masuk ke hipotesis apa pun latihan pengujian. Pengamatan 0,35 Anda sangat berbeda dari rata-rata 0,25 mengingat bahwa itu akan menjadi beberapa ribu standar deviasi dari rata-rata dan mungkin akan beberapa juta kesalahan standar dari rata-rata.

Perbedaan antara uji-Z dan uji-t mengacu terutama pada ukuran sampel. Dengan sampel yang lebih kecil dari 120, Anda harus menggunakan uji-t untuk menghitung nilai p. Ketika ukuran sampel lebih besar dari itu, tidak ada bedanya jika sama sekali yang Anda gunakan. Sangat menyenangkan untuk menghitungnya dengan dua cara terlepas dari ukuran sampel dan mengamati betapa sedikit perbedaan antara kedua tes.

Sejauh menghitung sendiri, Anda dapat menghitung statistik t dengan membagi perbedaan antara pengamatan Anda dan mean dan membaginya dengan kesalahan standar. Kesalahan standar adalah standar deviasi dibagi dengan akar kuadrat dari ukuran sampel. Sekarang, Anda memiliki stat t Anda. Untuk menghitung nilai ap, saya pikir tidak ada alternatif selain mencari nilai t Anda di dalam tabel pengujian. Jika Anda menerima TDIST alternatif Excel sederhana (nilai t stat, DF, 1 atau 2 untuk 1 atau 2 nilai p tail) melakukan trik. Untuk menghitung nilai ap menggunakan Z, rumus Excel untuk uji 1-ekor adalah: (1 - NORMSDIST (nilai Z). Nilai Z sama dengan stat t (atau jumlah kesalahan standar yang jauh dari rata-rata).

Sama seperti peringatan, metode-metode pengujian hipotesis dapat terdistorsi oleh ukuran sampel. Dengan kata lain, semakin besar ukuran sampel Anda semakin kecil kesalahan standar Anda, semakin tinggi nilai Z yang dihasilkan atau t statistik, semakin rendah nilai p, dan semakin tinggi signifikansi statistik Anda. Sebagai jalan pintas dalam logika ini, ukuran sampel yang besar akan menghasilkan signifikansi statistik yang tinggi. Tetapi, signifikansi statistik yang tinggi dalam kaitannya dengan ukuran sampel yang besar dapat sepenuhnya tidak material. Dengan kata lain, signifikan secara statistik adalah ungkapan matematika. Itu tidak berarti signifikan (per kamus Webster).

Untuk melepaskan diri dari jebakan ukuran sampel besar ini, ahli statistik telah beralih ke metode Efek Ukuran. Yang terakhir digunakan sebagai satuan jarak statistik antara dua pengamatan Standar Deviasi dan bukan Kesalahan Standar. Dengan kerangka kerja ukuran sampel tidak akan berdampak pada signifikansi statistik Anda. Menggunakan Efek Ukuran juga akan cenderung menjauhkan Anda dari nilai p dan menuju Interval Keyakinan yang bisa lebih bermakna dalam bahasa Inggris.

— Sympa
sumber

Terima kasih atas jawabannya, saya agak bingung tentang apa yang harus dipertimbangkan sebagai sampel: Saya juga punya sampel satu (pengamatan) dan daftar latar belakang sebagai populasi ATAU sampel saya adalah daftar latar belakang dan saya membandingkannya dengan seluruh populasi (yang tidak diberi sampel) yang menurut hipotesis nol harus memiliki rata-rata yang sama. Setelah ini diputuskan, tes saya menuju ke arah yang berbeda.

— grokkaine

Gunakan semua pengamatan yang Anda miliki sebagai sampel (apa pun namanya). Dan, hitung jarak statistik antara satu pengamatan Anda dan rata-rata sampel seperti yang didefinisikan. Hitung standar deviasi dan kesalahan standar sampel Anda. Dan, jarak statistik pengamatan Anda dari mean adalah: (Pengamatan - Mean) / Standard error = t stat. Gunakan fungsi Excel TDIST (DF, t stat, 1 (untuk satu ekor)) dan Anda mendapatkan nilai p Anda.

— Sympa

Pengujian hipotesis selalu mengacu pada populasi. Jika Anda ingin membuat pernyataan tentang sampel, Anda tidak perlu menguji (bandingkan saja apa yang Anda lihat). Orang yang sering percaya pada asimptotik, selama ukuran sampel Anda besar, jangan khawatir tentang distribusi data Anda. Z-test dan T-test pada dasarnya sama dalam hal menghitung statistik uji, hanya nilai kritis yang diperoleh dari distribusi yang berbeda (Normal vs Student-T). Jika ukuran sampel Anda besar, perbedaannya kecil.

Mengenai Q1: Lihat saja dari distribusi-T dengan n-1 derajat kebebasan, di mana n adalah ukuran sampel.

Mengenai Q2: Anda menghitung ambang batas berdasarkan tingkat signifikansi yang Anda inginkan untuk uji-Z, dan berdasarkan tingkat signifikansi pada ukuran sampel untuk T-Test.

Tetapi serius, Anda harus meninjau beberapa dasar-dasar.

— joint_p
sumber

Terima kasih atas jawabannya. Sebenarnya itu adalah t-dist yang saya gunakan, tetapi saya juga ingin mengerti "mengapa" saya menggunakannya. Bagaimana Anda mendefinisikan sampel "besar" dan bagaimana nilai-p berbeda. Lebih penting lagi, bagaimana kita tahu kapan distribusi normal atau siswa-t? Apakah ada tes statistik untuk itu? Mungkin menggunakan tes kolmogorov-smirnov untuk yang kedua dan hmm .. apa yang harus digunakan untuk yang pertama?

— grokkaine

besar ... baik Z dan t bertemu mulai dengan n = 60. Bandingkan saja nilai-p yang Anda dapatkan dari kedua tes. Asumsi distribusi t / Normal tidak tergantung pada distribusi data yang mendasarinya. Ini didasarkan pada asumsi, bahwa distribusi sampling dari rata-rata adalah normal. Bahkan jika variabel yang Anda uji didistribusikan Gamma, itu masih berlaku. Dengan n = 200 atau lebih seharusnya itu berfungsi dengan baik. Sekali lagi, semua hal ini didasarkan pada statistik frequentist.

— joint_p

+1 untuk komentar pada pengujian hipotesis selalu merujuk pada populasi tetapi -1 untuk kelihatannya melewatkan poin bahwa si penanya memiliki sampel 1.

— Peter Ellis

Saya tidak begitu yakin apa yang dimaksud dengan "Saya memiliki nilai yang dihitung dan latar belakang nilai yang dihasilkan secara acak. Nilai yang dihitung adalah 0,35" seharusnya berarti ... Saya pikir ini entah bagaimana menyiratkan bahwa ada lebih dari 1 pengamatan.

— joint_p

memposting ulang komentar saya dari paragraf lain: Saya sedikit bingung dengan apa yang harus dipertimbangkan sebagai sampel: Saya juga punya sampel satu (pengamatan) dan daftar latar belakang sebagai populasi ATAU sampel saya adalah daftar latar belakang dan Saya membandingkan bahwa dengan seluruh populasi (yang tidak diberi sampel) yang menurut hipotesis nol harus memiliki rata-rata yang sama. Setelah ini diputuskan, tes saya menuju ke arah yang berbeda.

— grokkaine