Apakah p = 5,0% signifikan?

14

Hari ini saya ditanya, apakah nilai p 0,05 (tepat) dianggap signifikan (diberi alpha = 5%) atau tidak. Saya tidak tahu jawabannya dan Google memberikan kedua jawaban: (a) hasilnya signifikan jika p kurang dari 5% dan (b) jika p kurang dari 5% atau sama dengan 5%.

Tentu saja, tidak ada situs web yang mengutip siapa pun. Kenapa harus - pengetahuan umum dan 5% sewenang-wenang. Tetapi itu tidak akan membantu saya untuk memberitahu siswa saya sesuatu yang perlu diingat.

Jadi, inilah pertanyaan putus asa saya tentang pengujian hipotesis: Jika nilai-p tepat dengan alpha - apakah saya menganggap hasilnya signifikan atau tidak? Dan apa kutipan otoritatif dalam kasus ini?

Terima kasih banyak

hypothesis-testing statistical-significance p-value

— BurninLeo
sumber

19

Mengesampingkan beberapa masalah praktis (misalnya sejauh mana arbitrer, misalnya), definisi tingkat signifikansi dan nilai-p membuat jawaban untuk pertanyaan ini tidak ambigu. $\alpha$

Artinya, secara resmi, aturan penolakan adalah bahwa Anda menolak ketika . $p = \alpha$

Seharusnya masalah hanya untuk kasus diskrit, tetapi dalam situasi itu, jika Anda tidak menolak ketika , tingkat kesalahan tipe I Anda tidak akan benar-benar menjadi ! $p=\alpha$ $\alpha$

(Sejauh yang saya ketahui tidak ada kutipan 'otoritatif'; Anda benar-benar harus memahami pendekatan Neyman-Pearson dan Fisherian untuk pengujian hipotesis, dan itu adalah sesuatu yang berkembang dari waktu ke waktu.)

Ada sejumlah teks statistik bagus yang menggambarkan pengujian hipotesis dengan benar.

Definisi p-value diberikan dengan benar dalam kalimat pertama artikel Wikipedia yang relevan *:

p-value adalah probabilitas untuk memperoleh statistik uji setidaknya paling ekstrem seperti yang sebenarnya diamati, dengan asumsi bahwa hipotesis nol adalah benar.

* (dan tidak, wikipedia bukan otoritas, saya hanya mengatakan bahwa definisi ini benar)

Untuk kesederhanaan, mari kita tetap dengan titik nol; itu berfungsi untuk mendapatkan titik tanpa berlumpur perairan dengan masalah tambahan.

Sekarang level signifikansi, adalah tingkat kesalahan tipe I yang dipilih. Ini adalah tingkat di mana Anda memilih hipotesis nol untuk ditolak ketika itu benar. Artinya, ini adalah proporsi waktu Anda harus menolak nol. Sekarang mempertimbangkan statistik uji dengan distribusi diskrit - satu-satunya waktu dari persis sebenarnya mungkin **. (Ini juga biasanya akan menjadi kasus bahwa alpha yang sebenarnya akan berbeda dari sesuatu yang bagus dan bulat seperti 5%.) $\alpha$ $p$ $\alpha$

** Yah saya kira saya membatasi diskusi saya hanya untuk statistik uji murni-diskrit atau murni kontinu. Dalam kasus campuran, Anda dapat mengetahui bagaimana diskusi diskrit saya berlaku (dalam situasi saat diskusi berlaku).

misalnya pertimbangkan uji tanda dua sisi dengan , katakanlah. Level signifikan terdekat yang dapat dicapai hingga 5% adalah 4,904%. Jadi mari kita pilih (atau lebih tepatnya, $n=17$ $\alpha = 4.904\%$ ). $\frac{137500}{2^{17}}$

Jadi ketika benar, berapakah tingkat penolakan jika kita menolak ketika ? Kita dapat menyelesaikannya. Ini 4,904% - itu adalah kami pilih. $H_0$ $p=\alpha$ $\alpha$

Di sisi lain, ketika benar, berapakah tingkat penolakan jika kita tidak menolak ketika ? Kita dapat menyelesaikannya. Ini hanya 1,27%. Itu jauh lebih sedikit dari . Itu bukan ujian yang kami ikuti! $H_0$ $p=\alpha$ $\alpha$

Yaitu, pengujian kami (cukup jelas!) Memiliki sifat yang diinginkan jika berada di wilayah penolakan. $p=\alpha$

[Sekarang mari kita pertimbangkan situasimu. Apakah nilai p Anda sebenarnya tepat 5%? Saya yakin itu tidak persis seperti itu, karena beberapa alasan berbeda. Tetapi bagaimanapun juga, Anda dapat menyatakan bahwa secara formal, adalah penolakan.] $p=\alpha$

Jika Anda menggambarkan aturan penolakan Anda di muka dan menunjukkan bahwa (jika asumsi puas), ia memiliki tingkat signifikansi yang diinginkan, maka mungkin tidak perlu untuk referensi.

$H_0$

$\alpha$

(Jika Anda memiliki edisi berbeda, nomor halaman dapat berubah, tetapi memiliki indeks, sehingga Anda dapat mencari istilah; hati-hati, Anda mungkin perlu melihat daftar di bawah 'Pengujian hipotesis' atau sesuatu yang serupa dalam indeks untuk menemukan 'wilayah penolakan')

Hmm, mari kita coba buku lain dari rak. Statistik Matematika Wackerly, Mendenhall & Scheaffer dengan Aplikasi, edisi ke-5 , mendefinisikan wilayah penolakan pada p412 dan nilai-p (def yang sama dengan C&B) pada p431.

— Glen_b -Reinstate Monica
sumber

Terima kasih. Tolong izinkan saya pertanyaan bodoh dari "pengguna statistik praktis": Di mana kecuali Wikipedia akan saya temukan definisi dan / atau aturan penolakan ini, Anda merujuk? Saya memutar beberapa buku statistik, tetapi tidak menemukan bagian itu. Mungkin mencari kata-kata yang salah ...

— BurninLeo

lihat pembaruan untuk menjawab

— Glen_b -Reinstate Monica

Kamu hebat! Tentu, Anda tahu itu, tapi kadang-kadang layak untuk disebutkan. Terima kasih banyak!

— BurninLeo

1

(+1) Jawaban yang sangat bagus.

— chl

2

Pengakuan menarik yang saya pelajari di kelas biostatistik awal saya dari seorang profesor adalah bahwa tingkat signifikansi 0,05 lebih tiba melalui konsensus daripada kebenaran emas. Sejak itu, saya telah melihat literatur yang menggoda dengan tingkat signifikansi 0,05, seperti "mendekati" masih menjadi temuan studi yang mengejutkan dan saya telah mendengar argumen bahwa tingkat signifikansi 0,05 mungkin tidak berlaku untuk semua bidang penelitian. Dengan mengatakan itu, saya telah menemukan estimasi titik dan interval kepercayaan lebih informatif daripada tingkat signifikansi. Inilah artikel menarik tentang masalah ini (bagi saya).

— pengguna2300643
sumber

Terima kasih atas referensi @ user2300643. Dan terima kasih telah menghindari hambatan finansial untuk mengakses!

— doug.numbers

Ada diskusi yang menarik tentang asal-usul tingkat signifikansi 5% dll di sini .

— Glen_b -Reinstate Monica

0

Nilai p biasanya ditetapkan untuk konsensus seperti yang dikatakan sebelumnya (atau lebih tepatnya kemalasan). Untuk benar-benar dapat mengatakan bahwa ada sesuatu yang signifikan kita harus menemukan nilai p yang sesuai dengan ukuran efek, ukuran sampel, dan seberapa ketat Anda ingin itu untuk data Anda. Ini disebut analisis daya (ini adalah subbidang dalam statistik). Banyak orang yang tidak sadar atau tidak menggunakannya karena tidak langsung. Ini bukan berarti tidak apa-apa. Kita harus selalu melakukan studi semacam ini untuk menarik kesimpulan yang benar-benar bermakna.

— raygozag
sumber