Apa arti dari nilai p dan nilai t dalam uji statistik?


246

Setelah mengambil kursus statistik dan kemudian mencoba membantu sesama siswa, saya perhatikan satu mata pelajaran yang menginspirasi banyak banging kepala kantor adalah menafsirkan hasil tes hipotesis statistik. Tampaknya siswa dengan mudah belajar bagaimana melakukan perhitungan yang diperlukan oleh tes yang diberikan tetapi terbiasa menafsirkan hasil. Banyak alat yang terkomputerisasi melaporkan hasil pengujian dalam hal "nilai p" atau "nilai t".

Bagaimana Anda menjelaskan poin-poin berikut kepada mahasiswa yang mengambil kursus statistik pertama:

  • Apa yang dimaksud dengan "nilai-p" dalam kaitannya dengan hipotesis yang diuji? Apakah ada kasus ketika seseorang harus mencari nilai p tinggi atau nilai p rendah?

  • Apa hubungan antara nilai-p dan nilai-t?


11
Sedikit dari ini pada dasarnya tercakup oleh kalimat pertama artikel wikipedia pada nilai p , yang dengan benar mendefinisikan nilai-p. Jika itu dipahami, banyak yang dibuat jelas.
Glen_b

1
Dapatkan saja bukunya: Statistik tanpa Air Mata. Mungkin menyelamatkan kewarasanmu !!

7
@ user48700 Bisakah Anda meringkas bagaimana Statistik Tanpa Air Mata menjelaskan ini?
Matt Krause

5
Seseorang harus menggambar grafik pertanyaan terkait nilai-p dari waktu ke waktu dan saya yakin kita akan melihat musim dan korelasi dengan kalender akademik di perguruan tinggi atau kelas ilmu data Coursera
Aksakal

Selain rekomendasi buku yang bagus dan relevan dalam jawaban dan komentar, saya ingin menyarankan buku lain, dengan tepat disebut "Apa itu nilai p?" .
Aleksandr Blekh

Jawaban:


150

Memahami -nilaip

Misalkan, Anda ingin menguji hipotesis bahwa tinggi rata-rata siswa pria di Universitas Anda adalah kaki inci. Anda mengumpulkan ketinggian siswa yang dipilih secara acak dan menghitung mean sampel (katakanlah ternyata kaki inci). Dengan menggunakan formula / statistik rutin yang sesuai Anda menghitung nilai untuk hipotesis Anda dan mengatakan itu ternyata .7 100 5 9 p 0,065710059p0.06

Untuk menafsirkan tepat, kita harus mengingat beberapa hal:p=0.06

  1. Langkah pertama di bawah pengujian hipotesis klasik adalah asumsi bahwa hipotesis yang dipertimbangkan adalah benar. (Dalam konteks kami, kami menganggap bahwa tinggi rata-rata sebenarnya adalah kaki inci.)757

  2. Bayangkan melakukan perhitungan berikut: Hitung probabilitas bahwa rata-rata sampel lebih besar dari kaki inci dengan asumsi bahwa hipotesis kami sebenarnya benar (lihat poin 1).959

Dengan kata lain, kita ingin tahu

P(Samplemean5ft9inches|Truevalue=5ft7inches).

Perhitungan pada langkah 2 adalah apa yang disebut nilai- . Oleh karena itu, -nilai dari berarti bahwa jika kita mengulangi percobaan kami banyak, berkali-kali (setiap kali kita memilih mahasiswa secara acak dan menghitung mean sampel) maka kali dari kita dapat mengharapkan untuk melihat sampel berarti lebih besar dari atau sama dengan kaki inci.p 0,06 100 6 100 5 9pp0.06100610059

Dengan pemahaman di atas, haruskah kita tetap mempertahankan asumsi bahwa hipotesis kita benar (lihat langkah 1)? Nah, menunjukkan bahwa satu dari dua hal telah terjadi:p=0.06

  • (A) Entah hipotesis kami benar dan peristiwa yang sangat tidak mungkin telah terjadi (misalnya, semua siswa adalah atlet siswa)100

atau

  • (B) Asumsi kami salah dan sampel yang kami peroleh tidaklah aneh.

Cara tradisional untuk memilih antara (A) dan (B) adalah memilih cut-off yang sewenang-wenang untuk . Kami memilih (A) jika dan (B) jika .p > 0,05 p < 0,05pp>0.05p<0.05


3
Gunakan waktumu! Saya tidak akan berpikir tentang memilih "Jawaban Terbaik" selama seminggu atau lebih.
Sharpie

1
Sekarang saya memiliki kesempatan untuk kembali dan membaca seluruh jawaban - +1 besar untuk contoh tinggi siswa. Sangat jelas dan ditata dengan baik.
Sharpie

3
Kerja bagus ... tapi kita perlu menambahkan (C) model kita (yang terkandung dalam formula / statistik rutin) salah.
Andrew Robinson

6
Nilai-t (atau statistik uji lainnya) sebagian besar merupakan langkah perantara. Ini pada dasarnya beberapa statistik yang terbukti, dengan beberapa asumsi, memiliki distribusi yang terkenal. Karena kita tahu distribusi statistik uji di bawah nol, kita kemudian dapat menggunakan tabel standar (kebanyakan perangkat lunak saat ini) untuk mendapatkan nilai-p.
Gala

1
Bukankah nilai p diperoleh sebagai hasil dari melakukan uji chi-square dan kemudian dari tabel chi-square? Apakah saya bertanya-tanya mengapa probabilitas yang dihitung di atas menunjukkan nilai-p itu sendiri ?!
Pria London

123

Dialog Antara Guru dan Siswa yang Bijaksana

Dengan rendah hati disampaikan dengan keyakinan bahwa sejauh ini tidak cukup krayon telah digunakan dalam utas ini. Sinopsis singkat bergambar muncul di bagian akhir.


Siswa : Apa arti nilai p? Banyak orang tampaknya setuju itu adalah kesempatan kita akan "melihat sampel berarti lebih besar dari atau sama dengan" suatu statistik atau itu "probabilitas untuk mengamati hasil ini ... mengingat hipotesis nol itu benar" atau di mana "statistik sampel saya jatuh pada [simulasi] distribusi " dan bahkan " probabilitas mengamati statistik uji setidaknya sebesar yang dihitung dengan asumsi hipotesis nol benar " .

Guru : Dipahami dengan benar, semua pernyataan itu benar dalam banyak keadaan.

Siswa : Saya tidak melihat bagaimana kebanyakan dari mereka relevan. Tidakkah Anda mengajari kami bahwa kami harus menyatakan hipotesis nol dan hipotesis alternatif ? Bagaimana mereka terlibat dalam gagasan "lebih besar atau sama dengan" atau "setidaknya sama besar" atau "sangat ekstrim" yang sangat populer ini?H AH0HA

Guru : Karena secara umum dapat terlihat rumit, apakah akan membantu bagi kita untuk mengeksplorasi contoh konkret?

Mahasiswa : Tentu. Tapi tolong buat yang realistis tapi sederhana jika Anda bisa.

Guru : Teori pengujian hipotesis ini secara historis dimulai dengan kebutuhan para astronom untuk menganalisis kesalahan pengamatan, jadi bagaimana kalau mulai dari sana. Saya sedang membaca beberapa dokumen lama suatu hari di mana seorang ilmuwan menggambarkan upayanya untuk mengurangi kesalahan pengukuran pada peralatannya. Dia telah melakukan banyak pengukuran bintang dalam posisi yang diketahui dan mencatat perpindahan mereka di depan atau di belakang posisi itu. Untuk memvisualisasikan perpindahan itu, ia menggambar histogram yang - ketika dihaluskan sedikit - tampak seperti ini.

Gambar 1: Histogram perpindahan

Mahasiswa : Saya ingat bagaimana histogram bekerja: sumbu vertikal diberi label "Kepadatan" untuk mengingatkan saya bahwa frekuensi relatif dari pengukuran diwakili oleh area daripada ketinggian.

Guru : Benar. Nilai "tidak biasa" atau "ekstrem" akan terletak di wilayah dengan wilayah yang cukup kecil. Ini krayon. Apakah Anda pikir Anda bisa mewarnai di wilayah yang luasnya hanya sepersepuluh dari total?

Mahasiswa : Tentu; itu mudah. [Warna pada gambar.]

Gambar 2: Pewarnaan pertama siswa.

Guru : Sangat bagus! Itu terlihat seperti sekitar 10% dari area bagi saya. Ingat, bagaimanapun, bahwa satu-satunya area dalam histogram yang penting adalah yang berada di antara garis-garis vertikal: mereka mewakili peluang atau probabilitas bahwa perpindahan akan terletak di antara garis-garis tersebut pada sumbu horizontal. Itu berarti Anda perlu mewarnai sampai ke bawah dan itu akan menjadi lebih dari setengah area, bukan?

Mahasiswa : Oh, begitu. Biarkan saya coba lagi. Saya ingin mewarnai di mana kurva sangat rendah, bukan? Paling rendah di kedua ujungnya. Apakah saya harus mewarnai hanya dalam satu area atau apakah tidak masalah untuk memecahnya menjadi beberapa bagian?

Guru : Menggunakan beberapa bagian adalah ide yang cerdas. Di mana mereka?

Mahasiswa (menunjuk): Di sini dan di sini. Karena krayon ini tidak terlalu tajam, saya menggunakan pena untuk menunjukkan garis yang saya gunakan.

Gambar 3: Pewarnaan kedua siswa

Guru : Bagus sekali! Biarkan saya ceritakan kisah selanjutnya. Ilmuwan melakukan beberapa perbaikan pada perangkatnya dan kemudian dia melakukan pengukuran tambahan. Dia menulis bahwa perpindahan yang pertama hanya , yang menurutnya adalah pertanda baik, tetapi sebagai ilmuwan yang cermat dia melanjutkan untuk mengambil lebih banyak pengukuran sebagai cek. Sayangnya, pengukuran-pengukuran lainnya hilang - manuskrip terputus pada titik ini - dan yang kita miliki hanyalah angka tunggal, .0,10.10.1

Mahasiswa : Sayang sekali. Tapi bukankah itu jauh lebih baik daripada penyebaran luas dalam sosok Anda?

Guru : Itulah pertanyaan yang ingin saya jawab. Untuk mulai dengan, apa yang harus kita sebagai ?H0

Mahasiswa : Ya, orang yang skeptis akan bertanya-tanya apakah perbaikan yang dilakukan pada perangkat memiliki efek sama sekali. Beban pembuktian ada pada ilmuwan: dia ingin menunjukkan bahwa yang skeptis itu salah. Itu membuat saya berpikir hipotesis nol agak buruk bagi ilmuwan: itu mengatakan bahwa semua pengukuran baru - termasuk nilai kita ketahui - harus berperilaku seperti yang dijelaskan oleh histogram pertama. Atau mungkin bahkan lebih buruk dari itu: mereka mungkin bahkan lebih tersebar.0.1

Guru : Ayo, kamu baik-baik saja.

Siswa : Jadi alternatifnya adalah bahwa pengukuran baru akan kurang tersebar, bukan?

Guru : Sangat bagus! Bisakah Anda menggambar saya seperti apa histogram dengan penyebaran kurang? Ini salinan histogram pertama; Anda dapat menggambar di atasnya sebagai referensi.

Siswa (menggambar): Saya menggunakan pena untuk menguraikan histogram baru dan saya mewarnai di area di bawahnya. Saya telah membuatnya sehingga sebagian besar kurva mendekati nol pada sumbu horizontal dan sebagian besar wilayahnya mendekati nilai (horizontal) nol: itulah artinya kurang menyebar atau lebih tepat.

Gambar 4: Histogram baru siswa

Guru : Itu awal yang baik. Tetapi ingat bahwa histogram yang menunjukkan peluang harus memiliki luas total . Total area histogram pertama adalah . Berapa banyak area di dalam histogram baru Anda?111

Mahasiswa : Kurang dari setengah, saya kira. Saya melihat itu masalah, tapi saya tidak tahu bagaimana cara memperbaikinya. Apa yang harus saya lakukan?

Guru : Caranya adalah membuat histogram baru lebih tinggi dari yang lama sehingga luas totalnya adalah . Di sini, saya akan menunjukkan kepada Anda versi yang dibuat komputer untuk diilustrasikan.1

Gambar 5: Histogram baru guru

Siswa : Saya mengerti: Anda merentangkannya secara vertikal sehingga bentuknya tidak benar-benar berubah tetapi sekarang area merah dan abu-abu (termasuk bagian di bawah merah) adalah jumlah yang sama.

Guru : Benar. Anda melihat gambar hipotesis nol (berwarna biru, menyebar) dan bagian dari hipotesis alternatif (berwarna merah, dengan penyebaran lebih sedikit).

Siswa : Apa yang Anda maksud dengan "bagian" dari alternatif? Bukankah itu yang hipotesis alternatif?

Guru : Ahli statistik dan tata bahasa tampaknya tidak bergaul. :-) Serius, apa yang mereka maksud dengan "hipotesis" biasanya adalah serangkaian kemungkinan besar. Di sini, alternatifnya (seperti yang Anda nyatakan sebelumnya) adalah bahwa pengukurannya "kurang tersebar" dari sebelumnya. Tapi apalagi ? Ada banyak kemungkinan. Di sini, izinkan saya menunjukkan yang lain. Saya menggambarnya dengan garis kuning. Ada di antara dua sebelumnya.

Gambar 6: Nol bersama dengan dua elemen alternatif

Siswa : Saya mengerti: Anda dapat memiliki jumlah spread berbeda tetapi Anda tidak tahu sebelumnya berapa banyak spread sebenarnya. Tapi mengapa Anda membuat naungan lucu di foto ini?

Guru : Saya ingin menyoroti di mana dan bagaimana perbedaan histogram. Saya menaungi mereka dalam abu-abu di mana histogram alternatif lebih rendah dari nol dan merah di mana alternatif lebih tinggi .

Mahasiswa : Mengapa itu penting?

Guru : Apakah Anda ingat bagaimana Anda mewarnai histogram pertama di kedua ekornya? [Melihat melalui kertas.] Ah, ini dia. Mari mewarnai gambar ini dengan cara yang sama.

Gambar 7: Nol dan alternatif, berwarna.

Mahasiswa : Saya ingat: itu adalah nilai-nilai ekstrem. Saya menemukan tempat-tempat di mana kepadatan nol adalah sekecil mungkin dan diwarnai 10% dari area di sana.

Guru : Ceritakan tentang alternatif di daerah-daerah ekstrim itu.

Siswa : Sulit dilihat, karena krayon menutupinya, tetapi sepertinya hampir tidak ada peluang untuk alternatif di area yang saya warnai. Histogram mereka benar terhadap sumbu nilai dan tidak ada ruang untuk area di bawahnya.

Guru : Mari kita lanjutkan pemikiran itu. Jika saya memberi tahu Anda, secara hipotetis, bahwa suatu pengukuran memiliki perpindahan , dan meminta Anda untuk memilih yang mana dari ketiga histogram ini yang paling mungkin berasal, yang mana yang akan terjadi?2

Mahasiswa : Yang pertama - yang biru. Ini yang paling tersebar dan itu satu-satunya di mana tampaknya memiliki peluang untuk terjadi.2

Guru : Dan bagaimana dengan nilai dalam naskah?0.1

Siswa : Hmmm ... itu cerita yang berbeda. Ketiga histogram cukup tinggi di atas tanah pada .0.1

Guru : Baik, cukup adil. Tapi anggaplah saya katakan nilai nilainya mendekati , seperti antara dan . Apakah itu membantu Anda membaca beberapa probabilitas dari grafik ini?0 0,20.100.2

Mahasiswa : Tentu, karena saya bisa menggunakan area. Saya hanya perlu memperkirakan area di bawah setiap kurva antara dan . Tapi itu terlihat sangat sulit.0.200.2

Guru : Anda tidak perlu sejauh itu. Bisakah Anda memberi tahu area mana yang terbesar?

Mahasiswa : Yang di bawah kurva tertinggi, tentu saja. Ketiga area memiliki basis yang sama, sehingga semakin tinggi kurva, semakin banyak area di bawahnya dan basis. Itu berarti histogram tertinggi - yang saya gambar, dengan garis merah - adalah yang paling mungkin untuk perpindahan . Saya pikir saya melihat ke mana Anda akan pergi dengan ini, tetapi saya sedikit khawatir: bukankah saya harus melihat semua histogram untuk semua alternatif, bukan hanya satu atau dua yang ditampilkan di sini? Bagaimana saya bisa melakukan itu?0.1

Guru : Anda pandai mengambil pola, jadi beri tahu saya: karena alat pengukur dibuat lebih dan lebih tepat, apa yang terjadi pada histogramnya?

Siswa : Semakin sempit - oh, dan itu harus menjadi lebih tinggi juga, jadi total areanya tetap sama. Itu membuatnya sangat sulit untuk membandingkan histogram. Yang alternatif semua lebih tinggi dari nol di , itu sudah jelas. Tetapi pada nilai-nilai lain kadang-kadang alternatif lebih tinggi dan kadang-kadang lebih rendah! Misalnya, [menunjuk pada nilai dekat ], di sini histogram merah saya adalah yang terendah, histogram kuning adalah yang tertinggi, dan histogram nol asli ada di antara mereka. Tapi di sebelah kanan, nol adalah yang tertinggi.3 / 403/4

Guru : Secara umum, membandingkan histogram adalah bisnis yang rumit. Untuk membantu kami melakukannya, saya telah meminta komputer untuk membuat plot lain: ia telah membagi masing-masing ketinggian histogram alternatif (atau "kepadatan") dengan tinggi histogram nol, menciptakan nilai yang dikenal sebagai "rasio kemungkinan." Akibatnya, nilai yang lebih besar dari berarti alternatif lebih mungkin, sedangkan nilai kurang dari berarti alternatif lebih kecil. Ini telah menarik satu alternatif lagi: itu lebih tersebar daripada dua lainnya, tetapi masih kurang menyebar daripada peralatan aslinya.111

Gambar 8: Rasio kemungkinan

Guru (lanjutan): Bisakah Anda tunjukkan di mana alternatif cenderung lebih mungkin daripada nol?

Mahasiswa (mewarnai): Di sini di tengah, jelas. Dan karena ini bukan histogram lagi, saya kira kita harus melihat ketinggian daripada area, jadi saya hanya menandai rentang nilai pada sumbu horizontal. Tapi bagaimana saya tahu berapa banyak warna di tengah? Di mana saya berhenti mewarnai?

Gambar 9: Plot rasio kemungkinan yang ditandai

Guru : Tidak ada aturan yang pasti. Itu semua tergantung pada bagaimana kita berencana untuk menggunakan kesimpulan kita dan seberapa sengit skeptisnya. Tapi duduk dan pikirkan apa yang telah Anda capai: Anda sekarang menyadari bahwa hasil dengan rasio kemungkinan besar adalah bukti untuk alternatif dan hasil dengan rasio kemungkinan kecil adalah bukti terhadap alternatif. Apa yang akan saya minta Anda lakukan adalah mewarnai di area yang, sejauh mungkin, memiliki peluang kecil terjadi di bawah hipotesis nol dan peluang yang relatif besar terjadi di bawah alternatif. Kembali ke diagram pertama yang Anda warnai, pada awal percakapan kami, Anda mewarnai kedua ujung nol karena keduanya "ekstrem." Apakah mereka masih melakukan pekerjaan dengan baik?

Mahasiswa : Saya kira tidak. Meskipun mereka cukup ekstrim dan langka di bawah hipotesis nol, mereka praktis mustahil untuk salah satu alternatif. Jika pengukuran baru saya, katakanlah , saya pikir saya akan berpihak pada skeptis dan menyangkal bahwa ada perbaikan telah terjadi, meskipun adalah hasil yang tidak biasa dalam hal apapun. Saya ingin mengubah pewarnaan itu. Sini - biarkan aku punya krayon lain.3.03.03.0

Gambar 10: Peningkatan markup

Guru : Apa yang diwakilinya?

Siswa : Kami mulai dengan Anda meminta saya untuk menggambar hanya 10% dari area di bawah histogram asli - yang menggambarkan nol. Jadi sekarang saya menarik 10% dari area di mana alternatif tampaknya lebih mungkin terjadi. Saya pikir ketika pengukuran baru di daerah itu, itu memberitahu kita bahwa kita harus percaya alternatifnya.

Guru : Dan bagaimana seharusnya orang yang skeptis bereaksi terhadap itu?

Siswa : Orang yang skeptis tidak pernah mengakui bahwa dia salah, bukan? Tapi saya pikir imannya harus sedikit terguncang. Lagipula, kami mengaturnya sehingga meskipun sebuah pengukuran bisa berada di dalam area yang baru saja saya gambar, itu hanya memiliki peluang 10% untuk berada di sana ketika nolnya benar. Dan itu memiliki peluang lebih besar untuk berada di sana ketika alternatifnya benar. Saya tidak bisa memberi tahu Anda seberapa besar peluang itu, karena itu akan tergantung pada seberapa banyak ilmuwan meningkatkan peralatan. Saya hanya tahu itu lebih besar. Jadi bukti akan melawan skeptis.

Guru : Baiklah. Maukah Anda meringkas pemahaman Anda sehingga kami sangat jelas tentang apa yang telah Anda pelajari?

Siswa : Saya belajar bahwa untuk membandingkan hipotesis alternatif dengan hipotesis nol, kita harus membandingkan histogram mereka. Kami membagi kepadatan alternatif dengan kepadatan nol: itulah yang Anda sebut "rasio kemungkinan." Untuk membuat tes yang baik, saya harus memilih sejumlah kecil seperti 10% atau apa pun yang mungkin cukup untuk mengguncang skeptis. Maka saya harus menemukan nilai di mana rasio kemungkinan setinggi mungkin dan warna sampai 10% (atau apa pun) telah diwarnai.

Guru : Dan bagaimana Anda menggunakan pewarnaan itu?

Siswa : Seperti yang Anda ingatkan saya sebelumnya, pewarnaan harus berada di antara garis-garis vertikal. Nilai-nilai (pada sumbu horizontal) yang terletak di bawah pewarnaan adalah bukti terhadap hipotesis nol. Nilai-nilai lain - yah, sulit untuk mengatakan apa artinya tanpa melihat lebih detail semua histogram yang terlibat.

Guru : Kembali ke nilai dalam naskah, apa yang akan Anda simpulkan?0.1

Siswa : Itu di dalam area warna terakhir saya, jadi saya pikir ilmuwan itu mungkin benar dan peralatannya benar-benar ditingkatkan.

Guru : Satu hal terakhir. Kesimpulan Anda didasarkan pada memilih 10% sebagai kriteria, atau "ukuran" dari tes. Banyak orang lebih suka menggunakan 5% sebagai gantinya. Beberapa lebih suka 1%. Apa yang bisa Anda katakan pada mereka?

Mahasiswa : Saya tidak bisa melakukan semua tes itu sekaligus! Yah, mungkin aku bisa. Saya dapat melihat bahwa berapapun ukuran tes yang seharusnya, saya harus mulai mewarnai dari , yang dalam hal ini nilai "paling ekstrem", dan bekerja ke luar di kedua arah dari sana. Jika saya berhenti tepat di - nilai sebenarnya diamati - saya pikir saya akan berwarna di suatu tempat antara dan , katakan . 5% dan 1% orang dapat langsung tahu bahwa saya terlalu banyak warna: jika mereka ingin hanya warna 5% atau 1%, mereka bisa, tetapi mereka tidak akan mencapai sejauh0,1 0,05 0,1 0,08 0,100.10.050.10.080.1. Mereka tidak akan sampai pada kesimpulan yang sama seperti yang saya lakukan: mereka akan mengatakan tidak ada cukup bukti bahwa suatu perubahan benar-benar terjadi.

Guru : Anda baru saja mengatakan kepada saya apa yang semua orang kutipan di awal benar-benar berarti. Seharusnya jelas dari contoh ini bahwa mereka tidak mungkin bermaksud "lebih ekstrim" atau "lebih besar dari atau sama" atau "setidaknya sama besar" dalam arti memiliki nilai yang lebih besar atau bahkan memiliki nilai di mana kepadatan nol kecil. Mereka benar-benar memaksudkan hal-hal ini dalam arti rasio kemungkinan besar yang telah Anda jelaskan. Omong-omong, angka sekitar yang Anda hitung disebut "p-value." Ini hanya dapat dipahami dengan tepat seperti yang telah Anda jelaskan: berkenaan dengan analisis ketinggian histogram relatif - rasio kemungkinan.0.08

Mahasiswa : Terima kasih. Saya tidak yakin saya sepenuhnya memahami semua ini, tetapi Anda telah memberi saya banyak hal untuk dipikirkan.

Guru : Jika Anda ingin melangkah lebih jauh, lihatlah Neyman-Pearson Lemma . Anda mungkin siap untuk memahaminya sekarang.


Ringkasan

Banyak tes yang didasarkan pada statistik tunggal seperti yang ada dalam dialog akan menyebutnya " " atau " ". Ini adalah cara-cara untuk menunjukkan seperti apa histogram nol itu, tetapi itu hanya petunjuk: apa yang kita beri nama nomor ini tidak terlalu penting. Konstruksi yang dirangkum oleh siswa, seperti diilustrasikan di sini, menunjukkan bagaimana hubungannya dengan nilai-p. Nilai p adalah ukuran uji terkecil yang akan menyebabkan pengamatan mengarah pada penolakan hipotesis nol.t t = 0,1ztt=0.1

Gambar 11: nilai-p sebagai area.

Dalam gambar ini, yang diperbesar untuk menunjukkan detail, hipotesis nol diplot dalam warna biru solid dan dua alternatif khas diplot dengan garis putus-putus. Wilayah di mana alternatif tersebut cenderung jauh lebih besar daripada nol diarsir. Naungan dimulai di mana kemungkinan relatif dari alternatif terbesar (pada ). Naungan berhenti ketika pengamatan tercapai. Nilai-p adalah area wilayah yang diarsir di bawah histogram nol: ini adalah kesempatan, dengan asumsi nol itu benar, untuk mengamati hasil yang rasio kemungkinannya cenderung besar terlepas dari alternatif mana yang benar. Secara khusus, konstruksi ini sangat tergantung pada hipotesis alternatif. Itu tidak dapat dilakukan tanpa menentukan alternatif yang mungkin.t = 0,10t=0.1


4
Ini sangat baik berkaitan dengan komentar saya pada jawaban lain, bahwa tidak ada jawaban sebelumnya untuk pertanyaan ini telah ditangani, secara umum, aspek " p- value " yang lebih umum terdengar . (Meskipun jawaban "tes teh" termasuk contoh spesifik yang bagus.) Saya terutama mengagumi cara contoh ini sengaja dibuat untuk menyoroti bahwa "lebih ekstrem" dapat berarti sangat bertentangan dengan "lebih besar" atau "lebih jauh dari nol".
Silverfish

4
Saya berharap guru dan buku pelajaran tidak menggunakan ungkapan "atau lebih ekstrim", sungguh. Dua varian yang saya dengar mungkin diparafrasekan sebagai "lebih disukai terhadap " atau "lebih persuasif dari ". Dalam contoh ini, nilai yang mendekati nol akan lebih persuasif bahwa teleskop menjadi lebih andal, tetapi ini membutuhkan beberapa akrobat linguistik (masuk akal, tetapi berpotensi membingungkan) untuk menggambarkannya sebagai "lebih ekstrem". H 1H1H1
Silverfish,

3
Uniknya, seperti biasa, terima kasih telah meluangkan waktu untuk menuliskan jawaban yang sangat membantu itu. Saya benar-benar bertanya-tanya mengapa buku teks tidak pernah ditulis dengan cara yang menawarkan tingkat kejelasan dan intuisi yang mendekati ini.
jeremy radcliff

Saya pikir tautan ke definisi kemungkinan wrt contoh ini bisa bermanfaat
baxx

1
Berbahaya menggunakan sarkasme dalam komentar, @baxx, karena tidak ada cukup ruang yang memungkinkan kita untuk melakukannya dengan sopan dan elegan. Oleh karena itu biasanya bukan ide yang baik untuk menganggap komentar sedang sarkastik kecuali secara eksplisit memberi tahu Anda. Anggap saja komentar dimaksudkan untuk membantu Anda. Jika Anda hanya mengikuti klik pertama dalam pencarian yang saya berikan, saya pikir pertanyaan Anda akan dijawab.
whuber

44

Sebelum menyentuh topik ini, saya selalu memastikan bahwa siswa senang bergerak di antara persentase, desimal, peluang dan pecahan. Jika mereka tidak sepenuhnya senang dengan ini maka mereka dapat menjadi sangat bingung.

Saya ingin menjelaskan pengujian hipotesis untuk pertama kalinya (dan karena itu nilai-p dan statistik uji) melalui eksperimen teh klasik Fisher. Saya punya beberapa alasan untuk ini:

(i) Saya pikir bekerja melalui percobaan dan mendefinisikan istilah-istilah saat kita melanjutkan lebih masuk akal bahwa hanya mendefinisikan semua istilah ini untuk memulai. (ii) Anda tidak perlu bergantung secara eksplisit pada distribusi probabilitas, area di bawah kurva, dll untuk mendapatkan poin utama dari pengujian hipotesis. (iii) Ini menjelaskan gagasan konyol tentang "sebagai atau lebih ekstrem daripada yang diamati" dengan cara yang cukup masuk akal (iv) Saya menemukan siswa suka memahami sejarah, asal-usul dan kisah belakang tentang apa yang mereka pelajari karena menjadikannya lebih nyata. dari beberapa teori abstrak. (v) Tidak masalah dari disiplin apa atau subjek siswa berasal, mereka dapat berhubungan dengan contoh teh (NB Beberapa siswa internasional mengalami kesulitan dengan lembaga teh khas Inggris dengan susu.)

[Catatan: Saya awalnya mendapat ide ini dari artikel hebat Dennis Lindley "Analisis Data Eksperimental: Penghargaan Teh & Anggur" di mana ia menunjukkan mengapa metode Bayesian lebih unggul daripada metode klasik.]

Kisah belakang adalah bahwa Muriel Bristol mengunjungi Fisher suatu sore di tahun 1920-an di Rothamsted Experimental Station untuk minum teh. Ketika Fisher memasukkan susu ke dalam, dia mengeluh mengatakan bahwa dia juga bisa tahu apakah susu itu dituangkan pertama (atau yang terakhir) dan bahwa dia lebih suka yang pertama. Untuk mengujinya, ia merancang eksperimen teh klasiknya di mana Muriel disajikan dengan sepasang cangkir teh dan ia harus mengidentifikasi yang mana yang ditambahkan susu terlebih dahulu. Ini diulangi dengan enam pasang cangkir teh. Pilihannya adalah Kanan (R) atau Salah (W) dan hasilnya adalah: RRRRRW.

Misalkan Muriel sebenarnya hanya menebak dan tidak memiliki kemampuan untuk melakukan diskriminasi apa pun. Ini disebut Hipotesis Null . Menurut Fisher tujuan dari percobaan ini adalah untuk mendiskreditkan hipotesis nol ini. Jika Muriel menebak dia akan mengidentifikasi cangkir teh dengan benar dengan probabilitas 0,5 pada setiap belokan dan karena mereka independen hasil yang diamati memiliki 0,5 = 0,016 (atau 1/64). Fisher kemudian berpendapat bahwa:6

(a) hipotesis nol (Muriel menebak) adalah benar dan suatu kejadian dengan probabilitas kecil telah terjadi atau,

(B) hipotesis nol adalah salah dan Muriel memiliki kekuatan diskriminatif.

Nilai-p (atau nilai probabilitas) adalah probabilitas untuk mengamati hasil ini (RRRRRW) mengingat hipotesis nol benar - itu adalah probabilitas kecil yang dimaksud dalam (a), di atas. Dalam hal ini 0,016. Karena peristiwa dengan probabilitas kecil hanya jarang terjadi (menurut definisi) situasi (b) mungkin penjelasan yang lebih disukai tentang apa yang terjadi daripada situasi (a). Ketika kita menolak hipotesis nol kita sebenarnya menerima hipotesis sebaliknya yang kita sebut hipotesis alternatif. Dalam contoh ini, Muriel yang memiliki kekuatan diskriminatif adalah hipotesis alternatif.

Pertimbangan penting adalah apa yang kita kategorikan sebagai probabilitas "kecil"? Apa poin batas di mana kami bersedia untuk mengatakan bahwa suatu peristiwa tidak mungkin? Benchmark standar adalah 5% (0,05) dan ini disebut tingkat signifikansi. Ketika nilai-p lebih kecil dari tingkat signifikansi kami menolak hipotesis nol sebagai salah dan menerima hipotesis alternatif kami. Sudah lazim untuk mengklaim hasil adalah "signifikan" ketika nilai-p lebih kecil dari tingkat signifikansi yaitu ketika probabilitas dari apa yang kami amati terjadi mengingat hipotesis nol benar lebih kecil dari titik cutoff kami. Penting untuk jelas bahwa menggunakan 5% sepenuhnya subjektif (seperti menggunakan tingkat signifikansi umum lainnya 1% dan 10%).

Fisher menyadari bahwa ini tidak berhasil; setiap kemungkinan hasil dengan satu pasangan yang salah sama-sama menunjukkan kekuatan diskriminatif. Probabilitas yang relevan untuk situasi (a), di atas, karena itu adalah 6 (0,5) ^ 6 = 0,094 (atau 6/64) yang sekarang tidak signifikan pada tingkat signifikansi 5%. Untuk mengatasi hal ini Fisher berargumen bahwa jika 1 kesalahan dalam 6 dianggap sebagai bukti kekuatan diskriminatif maka tidak ada kesalahan yaitu hasil yang lebih kuat menunjukkan kekuatan diskriminatif daripada yang diamati harus dimasukkan saat menghitung nilai p. Ini menghasilkan amandemen berikut untuk alasan, baik:

(a) hipotesis nol (Muriel menebak) adalah benar dan probabilitas kejadian sebagai, atau lebih, ekstrem daripada yang diamati adalah kecil, atau

(B) hipotesis nol adalah salah dan Muriel memiliki kekuatan diskriminatif.

Kembali ke eksperimen teh kami dan kami menemukan bahwa nilai p di bawah pengaturan ini adalah 7 (0,5) ^ 6 = 0,109 yang masih tidak signifikan pada ambang 5%.

Saya kemudian meminta siswa untuk bekerja dengan beberapa contoh lain seperti melempar koin untuk mengetahui apakah koin itu adil atau tidak. Ini latihan rumah konsep hipotesis nol / alternatif, nilai p dan tingkat signifikansi. Kami kemudian pindah ke kasus variabel kontinu dan memperkenalkan gagasan tentang uji-statistik. Seperti yang telah kita bahas pada distribusi normal, distribusi normal standar dan transformasi-z secara mendalam, ini hanyalah masalah menggabungkan beberapa konsep.

Selain menghitung statistik uji, nilai-p, dan membuat keputusan (signifikan / tidak signifikan), saya meminta siswa untuk mengerjakan makalah yang dipublikasikan dengan mengisi permainan kosong yang hilang.


2
Saya tahu saya agak menghidupkan kembali utas yang sangat lama, tetapi begini ... Saya benar-benar menikmati jawaban Anda, tetapi saya melewatkan bagian nilai-t di dalamnya :( Bisakah Anda menggunakan contoh yang diberikan untuk membicarakannya? Tidak ada yang menjawab tentang bagian uji-t
Sosi

@ Sosi Mungkin karena nilai-p jauh lebih umum daripada nilai-t. Ini seperti mengajukan pertanyaan tentang mobil dan kemudian tentang rem pada Ford Fiesta.
dugaan

2
Jawabannya sangat menarik (+1), tetapi ada beberapa hal yang membingungkan pada akhirnya. 1. Apa artinya nilai menjadi "signifikan pada level 5%"? Nilai -di bawah 5%, atau tidak. Saya tidak melihat gunanya menggunakan kalimat yang tidak jelas seperti itu, meninggalkan "signifikansi" tidak jelas. 2. Apa artinya "memutuskan" apakah nilai- adalah signifikan? Tampaknya tidak dibenarkan untuk membawa teori keputusan ke dalam campuran dengan cara ini (terutama karena Fisher adalah penentang kuat penerapan kerangka pengujian Neyman-Pearson dalam ilmu). p pppp
Olivier

27

Tidak ada jumlah penjelasan atau perhitungan verbal yang benar-benar membantu saya untuk memahami pada tingkat usus apa nilai-p itu, tetapi itu benar-benar menjadi fokus bagi saya begitu saya mengambil kursus yang melibatkan simulasi. Itu memberi saya kemampuan untuk benar-benar melihat data yang dihasilkan oleh hipotesis nol dan untuk merencanakan cara / dll. sampel simulasi, kemudian lihat di mana statistik sampel saya jatuh pada distribusi itu.

Saya pikir keuntungan utama dari ini adalah memungkinkan siswa melupakan matematika dan distribusi statistik tes selama satu menit dan fokus pada konsep yang ada. Memang, itu mengharuskan saya belajar bagaimana mensimulasikan hal-hal itu, yang akan menimbulkan masalah bagi sekelompok siswa yang sama sekali berbeda. Tapi itu berhasil untuk saya, dan saya telah menggunakan simulasi berkali-kali untuk membantu menjelaskan statistik kepada orang lain dengan sangat sukses (misalnya, "Ini adalah data Anda terlihat; ini adalah apa yang distribusi Poisson terlihat seperti overlay. Apakah Anda YAKIN Anda ingin) untuk melakukan regresi Poisson? ").

Ini tidak persis menjawab pertanyaan yang Anda ajukan, tetapi bagi saya, setidaknya, itu membuat mereka sepele.


10
Saya setuju dengan sepenuh hati tentang penggunaan simulasi untuk menjelaskan ini. Tetapi hanya sebuah catatan kecil pada contoh di akhir: Saya menemukan bahwa orang (bukan hanya siswa) memang merasa sulit untuk membedakan asumsi distribusi tertentu, misalnya poisson, antara terdistribusi poisson secara marginal dan terdistribusi poisson kondisional . Karena hanya yang terakhir yang penting untuk model regresi, sekelompok nilai variabel dependen yang bukan poisson tidak perlu menjadi alasan untuk khawatir.
conjugateprior

1
Saya harus mengakui bahwa saya tidak tahu itu. Saya sangat menghargai komentar Anda di situs ini selama beberapa hari terakhir dari keanggotaan Anda - Saya harap Anda akan tetap bertahan.
Matt Parker

@MattParker apakah Anda tahu ada sumber belajar yang difokuskan pada penggunaan simulasi untuk mengembangkan pemahaman? Atau itu hanya kasus menempatkan beberapa skrip python / R bersama-sama dan menjalankan banyak tes?
baxx

1
@baxx Situs web [Teori Melihat] oleh Daniel Kunin] (students.brown.edu/seeing-theory/) memiliki beberapa alat yang menarik untuk ini, tetapi masih dalam pengembangan. Kalau tidak, ya, saya baru saja bereksperimen dengan alat R-built-in untuk simulasi - menggunakannya untuk membuktikan kepada diri sendiri bagaimana beberapa metode bekerja, atau untuk melihat apa yang akan terjadi jika prediktor diganti dengan variabel acak, dll. Maaf, Saya berharap saya tahu sumber daya yang lebih baik untuk ini!
Matt Parker

@MattParker terima kasih keren. Ya - sedikit ayam dan telur di dalamnya, untuk membangun eksperimen Anda (saya kira?) Perlu setidaknya mendapatkan cukup untuk menulisnya. Tidak perlu khawatir ..... Hanya memeriksa situs yang Anda
tautkan

16

Definisi p-value yang bagus adalah "probabilitas mengamati statistik uji setidaknya sebesar yang dihitung dengan asumsi hipotesis nol benar".

Masalahnya adalah bahwa hal itu membutuhkan pemahaman tentang "statistik uji" dan "hipotesis nol". Tapi, itu mudah ditemui. Jika hipotesis nol itu benar, biasanya sesuatu seperti "parameter dari populasi A sama dengan parameter dari populasi B", dan Anda menghitung statistik untuk memperkirakan parameter tersebut, berapa probabilitas melihat statistik uji yang mengatakan, "mereka ini berbeda"?

Misalnya, jika koin itu adil, berapa probabilitas saya akan melihat 60 kepala dari 100 lemparan? Itu menguji hipotesis nol, "koin itu adil", atau "p = 0,5" di mana p adalah probabilitas kepala.

Statistik uji dalam kasus itu adalah jumlah kepala.

Sekarang, saya berasumsi bahwa apa yang Anda sebut "nilai-t" adalah "statistik uji" umum, bukan nilai dari "distribusi t". Mereka bukan hal yang sama, dan istilah "nilai-t" tidak (harus) digunakan secara luas dan bisa membingungkan.

Apa yang Anda sebut "nilai-t" mungkin adalah apa yang saya sebut "statistik uji". Untuk menghitung nilai-p (ingat, itu hanya probabilitas) Anda perlu distribusi, dan nilai untuk dimasukkan ke distribusi yang akan mengembalikan probabilitas. Setelah Anda melakukannya, probabilitas Anda kembali adalah nilai-p Anda. Anda dapat melihat bahwa mereka terkait karena di bawah distribusi yang sama, statistik uji yang berbeda akan mengembalikan nilai p yang berbeda. Statistik uji yang lebih ekstrim akan mengembalikan nilai-p yang lebih rendah memberikan indikasi lebih besar bahwa hipotesis nol salah.

Saya telah mengabaikan masalah nilai-p satu sisi dan dua sisi di sini.


11

Bayangkan Anda memiliki tas berisi 900 kelereng hitam dan 100 putih, yaitu 10% kelereng berwarna putih. Sekarang bayangkan Anda mengambil 1 marmer, lihat dan catat warnanya, ambil yang lain, catat warnanya dll. Dan lakukan ini 100 kali. Pada akhir proses ini, Anda akan memiliki nomor kelereng putih yang, idealnya, kita harapkan menjadi 10, yaitu 10% dari 100, tetapi dalam kenyataannya mungkin 8, atau 13 atau apa pun hanya karena keacakan. Jika Anda mengulangi percobaan penarikan 100 kelereng ini berkali-kali, dan kemudian memplot histogram dari jumlah kelereng putih yang ditarik per percobaan, Anda akan menemukan bahwa Anda akan memiliki Kurva Bell yang berpusat di sekitar 10.

Ini mewakili hipotesis 10% Anda: dengan tas yang berisi 1000 kelereng yang 10% berwarna putih, jika Anda secara acak mengeluarkan 100 kelereng, Anda akan menemukan 10 kelereng putih dalam seleksi, memberi atau menerima 4 atau lebih. Nilai p adalah semua tentang ini "memberi atau menerima 4 atau lebih." Katakanlah dengan merujuk pada Kurva Lonceng yang dibuat sebelumnya, Anda dapat menentukan bahwa kurang dari 5% dari waktu yang Anda dapatkan 5 kelereng putih atau lebih sedikit dan 5% dari waktu menyumbang 15 kelereng putih atau lebih yaitu> 90% dari kali 100 pilihan marmer Anda akan mengandung antara 6 hingga 14 kelereng putih inklusif.

Sekarang dengan asumsi seseorang menjatuhkan sekantong 1000 kelereng dengan jumlah kelereng putih di dalamnya, kami memiliki alat untuk menjawab pertanyaan-pertanyaan ini

i) Apakah ada kurang dari 100 kelereng putih?

ii) Apakah ada lebih dari 100 kelereng putih?

iii) Apakah tas berisi 100 kelereng putih?

Keluarkan 100 kelereng dari tas dan hitung berapa banyak sampel ini berwarna putih.

a) Jika ada 6 hingga 14 putih dalam sampel Anda tidak dapat menolak hipotesis bahwa ada 100 kelereng putih di dalam tas dan nilai-p yang sesuai untuk 6 sampai 14 akan> 0,05.

b) Jika ada 5 atau lebih sedikit putih dalam sampel Anda dapat menolak hipotesis bahwa ada 100 kelereng putih di dalam tas dan nilai-p yang sesuai untuk 5 atau lebih sedikit akan menjadi <0,05. Anda akan mengharapkan tas berisi <10% kelereng putih.

c) Jika ada 15 putih atau lebih dalam sampel Anda dapat menolak hipotesis bahwa ada 100 kelereng putih di dalam tas dan nilai-p yang sesuai untuk 15 atau lebih akan menjadi <0,05. Anda akan mengharapkan tas berisi> 10% kelereng putih.

Menanggapi komentar Baltimark

Mengingat contoh di atas, ada kira-kira: -

4,8% kemungkinan untuk mendapatkan 5 bola putih atau kurang

1,85% kemungkinan 4 atau kurang

0,55% kemungkinan 3 atau kurang

0,1% kemungkinan 2 atau kurang

6,25% kemungkinan 15 atau lebih

3,25% kemungkinan 16 atau lebih

Kemungkinan 1,5% dari 17 atau lebih

Peluang 0,65% dari 18 atau lebih

Peluang 0,25% dari 19 atau lebih

0,1% kemungkinan 20 atau lebih

0,05% kemungkinan 21 atau lebih

Angka-angka ini diperkirakan dari distribusi empiris yang dihasilkan oleh rutin Monte Carlo sederhana yang dijalankan dalam R dan hasil kuantil dari distribusi sampel.

Untuk keperluan menjawab pertanyaan awal, misalkan Anda menggambar 5 bola putih, hanya ada peluang sekitar 4,8% bahwa jika 1000 tas marmer benar-benar berisi 10% bola putih, Anda hanya akan mengeluarkan 5 bola putih dalam sampel 100. Ini sama dengan nilai p <0,05. Anda sekarang harus memilih di antara

i) Benar-benar ada 10% bola putih di dalam tas dan saya baru saja "sial" untuk menggambar begitu sedikit

atau

ii) Saya telah menggambar sangat sedikit bola putih sehingga tidak mungkin benar-benar ada 10% bola putih (tolak hipotesis 10% bola putih)


Pertama-tama, ini hanyalah contoh besar dan tidak benar-benar menjelaskan menjelaskan konsep nilai-p dan uji-statistik. Kedua, Anda hanya mengklaim bahwa jika Anda mendapatkan kurang dari 5 atau lebih dari 15 kelereng putih, Anda menolak hipotesis nol. Dari distribusi mana Anda menghitung probabilitas itu? Ini dapat diperkirakan dengan dist normal. berpusat di 10, dengan standar deviasi 3. Kriteria penolakan Anda hampir tidak cukup ketat.
Baltimark

Saya setuju bahwa ini hanyalah sebuah contoh, dan saya memang benar saya hanya mengeluarkan angka 5 dan 15 dari udara untuk tujuan ilustrasi. Ketika saya punya waktu saya akan memposting jawaban kedua, yang saya harap akan lebih lengkap.
babelproofreader

10

Apa nilai p tidak memberi tahu Anda adalah seberapa besar kemungkinan hipotesis nol itu benar. Di bawah kerangka kerja pengujian signifikansi konvensional (Fisher) pertama-tama kita menghitung kemungkinan mengamati data dengan asumsi hipotesis nol benar, ini adalah nilai-p. Tampaknya secara intuitif masuk akal untuk mengasumsikan hipotesis nol mungkin salah jika data tidak cukup untuk diamati di bawah hipotesis nol. Ini sepenuhnya masuk akal. Para ahli statistik secara tradisional menggunakan ambang batas dan "menolak hipotesis nol pada tingkat signifikansi 95%" jika (1 - p)> 0,95; namun ini hanya sebuah konvensi yang telah terbukti masuk akal dalam praktiknya - itu tidak berarti bahwa ada kemungkinan kurang dari 5% bahwa hipotesis nol itu salah (dan karena itu kemungkinan 95% bahwa hipotesis alternatif itu benar).

Pencitraan fungsi f () yang memetakan nilai-p ke probabilitas bahwa hipotesis alternatif itu benar. Akan masuk akal untuk menyatakan bahwa fungsi ini benar-benar menurun (sedemikian rupa sehingga semakin besar kemungkinan pengamatan di bawah hipotesis nol, semakin kecil kemungkinan hipotesis alternatif itu benar), dan bahwa ia memberikan nilai antara 0 dan 1 (karena memberikan perkiraan probabilitas). Namun, hanya itu yang kita ketahui tentang f (), jadi sementara ada hubungan antara p dan probabilitas bahwa hipotesis alternatif itu benar, ia tidak dikalibrasi. Ini berarti kita tidak dapat menggunakan nilai-p untuk membuat pernyataan kuantitatif tentang kemungkinan hipotesis nol dan alternatif.

Peringatan Caveat: Ini tidak benar-benar dalam kerangka sering untuk berbicara tentang probabilitas bahwa hipotesis itu benar, karena itu bukan variabel acak - itu bisa benar atau tidak. Jadi di mana saya telah berbicara tentang kemungkinan kebenaran suatu hipotesis, saya secara implisit telah pindah ke interpretasi Bayesian. Tidaklah tepat untuk mencampur Bayesian dan frequentist, namun selalu ada godaan untuk melakukannya karena apa yang kita inginkan adalah indikasi kuantitatif dari kemungkinan masuk akal / probabilitas hipotesis. Tapi ini bukan apa yang diberikan p-value.


7

Dalam statistik Anda tidak pernah bisa mengatakan sesuatu yang benar-benar pasti, jadi ahli statistik menggunakan pendekatan lain untuk mengukur apakah hipotesis itu benar atau tidak. Mereka mencoba menolak semua hipotesis lain yang tidak didukung oleh data.

Untuk melakukan ini, tes statistik memiliki hipotesis nol dan hipotesis alternatif. Nilai p yang dilaporkan dari uji statistik adalah kemungkinan hasil yang diberikan bahwa hipotesis nol itu benar. Itu sebabnya kami ingin nilai-p kecil. Semakin kecil mereka, semakin kecil kemungkinan hasilnya jika hipotesis nol itu benar. Jika nilai-p cukup kecil (yaitu, sangat tidak mungkin untuk hasil terjadi jika hipotesis nol benar), maka hipotesis nol ditolak.

Dengan cara ini, hipotesis nol dapat dirumuskan dan kemudian ditolak. Jika hipotesis nol ditolak, Anda menerima hipotesis alternatif sebagai penjelasan terbaik. Ingat saja bahwa hipotesis alternatif tidak pernah pasti, karena hipotesis nol dapat, secara kebetulan, menghasilkan hasilnya.


nilai p adalah kemungkinan hasil sebagai atau lebih "ekstrem" dari hasil yang diberikan, bukan hasil yang sebenarnya. nilai-p adalah dan bukan (T adalah statistik uji, dan t adalah nilai yang diamati). Pr(Tt|H0)Pr(T=t|H0)
probabilityislogic

5

Saya agak malu-malu untuk menghidupkan kembali topik lama, tetapi saya melompat dari sini , jadi saya memposting ini sebagai jawaban atas pertanyaan di tautan.

Nilai-p adalah istilah konkret, seharusnya tidak ada ruang untuk kesalahpahaman. Tetapi, entah bagaimana mistis bahwa terjemahan sehari-hari dari definisi nilai-p mengarah ke banyak salah tafsir yang berbeda. Saya pikir akar masalahnya adalah penggunaan frasa "setidaknya sama merugikannya dengan hipotesis nol" atau "setidaknya sama ekstrimnya dengan yang ada dalam data sampel Anda" dll.

Misalnya, kata Wikipedia

... p-value adalah probabilitas untuk mendapatkan hasil sampel yang diamati (atau hasil yang lebih ekstrim) ketika hipotesis nol sebenarnya benar.

Arti nilai kabur ketika orang pertama kali menemukan "(atau hasil yang lebih ekstrem)" dan mulai berpikir " lebih banyak ekstreeeme ?".p

Saya pikir lebih baik menyerahkan "hasil yang lebih ekstrem" ke sesuatu seperti tindakan ucapan tidak langsung . Jadi, pendapat saya adalah

Nilai-p adalah probabilitas untuk melihat apa yang Anda lihat di "dunia imajiner" di mana hipotesis nolnya benar.

Untuk membuat ide ini konkret, anggaplah Anda memiliki sampel yang xterdiri dari 10 pengamatan dan Anda berhipotesis bahwa rata-rata populasi adalah . Jadi, di dunia Anda yang dihipotesiskan, distribusi populasi adalah .μ0=20N(20,1)

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

Anda menghitung t-stat sebagai , dan mencari tahu bahwat0=nX¯μ0s

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

Jadi, apa probabilitas mengamatisebesar 2,97 ("lebih ekstrem" datang ke sini) di dunia imajiner? Dalam dunia imajiner , dengan demikian, nilai-p harus |t0|t0t(9)

pvalue=Pr(|t0|2.97)=0.01559054
2*(1 - pt(2.974405, 9))
#[1] 0.01559054

Karena nilai-p kecil, sangat kecil kemungkinan sampel xdiambil di dunia yang dihipotesiskan. Oleh karena itu, kami menyimpulkan bahwa sangat tidak mungkin bahwa dunia yang dihipotesiskan sebenarnya adalah dunia yang sebenarnya.


2
+1, tetapi ketika Anda menulis "probabilitas untuk melihat apa yang Anda lihat" dan menghilangkan bagian "lebih ekstrem", kalimat ini menjadi benar-benar salah (dan berpotensi menyesatkan, bahkan jika mungkin kurang membingungkan). Ini bukan probabilitas untuk melihat apa yang Anda lihat (ini biasanya nol). Ini adalah probabilitas untuk melihat apa yang Anda lihat "atau lebih ekstrem". Meskipun ini mungkin sedikit membingungkan bagi banyak orang, itu masih penting (dan orang dapat berdebat tanpa henti tentang tingkat subjektivitas yang bersembunyi di balik kata-kata "lebih ekstrem" ini).
amoeba

@amoeba Saya pikir, ketika diberikan contoh yang cukup, itu bisa berfungsi sebagai proxy untuk "memperoleh hasil sampel yang diamati (atau hasil yang lebih ekstrim)". Mungkin, kata-kata yang lebih baik dibutuhkan.
Khashaa

1
Saya akan melakukan pengamatan yang sama dengan @amoeba; bagian "atau lebih ekstrem" ditangani dengan baik dengan contoh di ketinggian siswa dan jawaban pihak teh, tapi saya tidak berpikir ada jawaban di utas ini mengenai penjelasan umum yang jelas tentang hal itu, terutama yang mencakup hipotesis alternatif yang berbeda. Saya setuju dengan jawaban ini yang menyarankan bahwa bagian "atau lebih ekstrem" adalah titik konseptual bagi banyak siswa.
Silverfish

@ Silververfish: dan bukan hanya siswa. Berapa banyak kata-kata kasar Bayesian-vs-frequentist yang pernah saya baca yang membahas masalah subjektivitas / objektivitas dari bit "yang lebih ekstrem" ini!
amoeba

1
@Silver Saya setuju dengan kritik Anda dan telah mengirim jawaban yang mencoba mengatasinya. "Atau lebih ekstrem" adalah inti masalahnya.
whuber

4

Saya merasa bermanfaat untuk mengikuti urutan di mana Anda menjelaskan konsep dalam urutan berikut: (1) Skor z dan proporsi di atas dan di bawah skor z dengan asumsi kurva normal. (2) Gagasan distribusi sampling, dan skor z untuk sampel yang diberikan berarti ketika standar deviasi populasi diketahui (dan kemudian uji satu sampel z) (3) Uji satu sampel dan kemungkinan suatu sampel berarti ketika standar deviasi populasi tidak diketahui (penuh dengan cerita tentang identitas rahasia seorang ahli statistik industri tertentu dan mengapa Guinness adalah Good For Statistics). (4) Uji-t dua sampel dan distribusi sampel dari perbedaan rata-rata. Kemudahan yang diterima siswa pengantar pada uji-t banyak berkaitan dengan pekerjaan dasar yang disiapkan untuk topik ini.

/ * instruktur mode siswa yang ketakutan mati * /


4

Saya juga menemukan simulasi menjadi berguna dalam mengajar.

Berikut ini adalah simulasi untuk kasus paling mendasar yang dapat kami contoh kali dari (karenanya, dikenal untuk kesederhanaan) dan uji terhadap sisi kiri alternatif-sisi.nN(μ,1)σ2=1H0:μ=μ0

Kemudian, -statistic adalah bawah , sehingga -value hanya atau dalam R.tN(0,1)H0pΦ(tstat)tstat:=n(X¯μ0)N(0,1)H0pΦ(tstat)pnorm(tstat)

Dalam simulasi, fraksi waktu yang dihasilkan data di bawah nol (di sini, ) menghasilkan sampel berarti disimpan dalam jumlah yang lebih sedikit (yaitu, `` lebih ekstrem '' dalam hal ini tes sisi kiri) daripada yang dihitung dari data yang diamati.μ 0 = 2N(μ0,1)μ0=2nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)

0

Apa yang dimaksud dengan "nilai-p" dalam kaitannya dengan hipotesis yang diuji?

Dalam pengertian ontologis (apa itu kebenaran?), Itu tidak ada artinya . Setiap pengujian hipotesis didasarkan pada asumsi yang belum diuji . Ini biasanya bagian dari tes itu sendiri, tetapi juga merupakan bagian dari model apa pun yang Anda gunakan (misalnya dalam model regresi). Karena kita hanya mengasumsikan ini, kita tidak bisa tahu apakah alasan mengapa nilai-p di bawah ambang batas kita adalah karena nol adalah salah. Ini adalah non sequitur untuk menyimpulkan tanpa syarat bahwa karena nilai-p rendah kita harus menolak nol. Misalnya, sesuatu dalam model bisa salah.

Dalam arti epistemologis (apa yang bisa kita pelajari?), Itu berarti sesuatu . Anda memperoleh pengetahuan yang tergantung pada premis yang tidak teruji sebagai benar. Karena (setidaknya sampai sekarang) kita tidak dapat membuktikan setiap bangunan realitas, semua pengetahuan kita akan selalu bersyarat. Kami tidak akan pernah sampai ke "kebenaran".


-1

Saya pikir contoh-contoh yang melibatkan kelereng atau koin atau pengukur ketinggian bisa baik untuk berlatih matematika, tetapi mereka tidak baik untuk membangun intuisi. Mahasiswa suka mempertanyakan masyarakat, bukan? Bagaimana kalau menggunakan contoh politik?

Katakanlah seorang kandidat politik menjalankan kampanye yang menjanjikan bahwa beberapa kebijakan akan membantu perekonomian. Dia terpilih, kebijakannya diberlakukan, dan 2 tahun kemudian, ekonomi sedang booming. Dia siap untuk dipilih kembali, dan mengklaim bahwa kebijakannya adalah alasan untuk kemakmuran semua orang. Haruskah Anda memilihnya kembali?

Warga negara yang bijaksana harus mengatakan "baik, memang benar bahwa ekonomi berjalan baik, tetapi bisakah kita benar-benar mengaitkannya dengan kebijakan Anda?" Untuk benar-benar menjawab ini, kita harus mempertimbangkan pertanyaan "akankah ekonomi berjalan baik dalam 2 tahun terakhir tanpanya?" Jika jawabannya adalah ya (mis. Ekonomi sedang booming karena beberapa perkembangan teknologi baru yang tidak terkait) maka kami menolak penjelasan politisi tentang data tersebut.

Yaitu, untuk menguji satu hipotesis (kebijakan membantu ekonomi), kita harus membangun model dunia di mana hipotesis itu nol (kebijakan tidak pernah diberlakukan). Kami kemudian membuat prediksi di bawah model itu. Kami menyebut probabilitas mengamati data ini di dunia alternatif itu sebagai nilai-p . Jika p-value terlalu tinggi, maka kami tidak yakin dengan hipotesis - kebijakan tidak membuat perbedaan. Jika p-value rendah maka kami memercayai hipotesis - kebijakan itu penting.


1
Saya tidak setuju dengan p yang didefinisikan sebagai "Kami menyebut probabilitas mengamati data ini di dunia alternatif itu nilai p" dan juga kekuatan kesimpulan yang ditarik (terutama kegagalan untuk menolak nol).
Silverfish

@Silverfish Bisakah Anda menguraikan? Mungkin akan lebih tepat untuk menyebut nilai-p probabilitas untuk membuat pengamatan itu ATAU pengamatan yang lebih ekstrim. Tapi sepertinya Anda memiliki kritik yang lebih dalam.
cgreen

1
Karena pertanyaan awal adalah menanyakan apa nilai-p, saya berpikir bahwa menyampaikan definisi itu dengan jelas adalah penting. Hanya mengatakan "lebih ekstrem" tidak dengan sendirinya sangat membantu tanpa menjelaskan apa arti "lebih ekstrem" - itulah kelemahan sebagian besar jawaban di utas ini. Hanya jawaban whuber dan "tes teh" yang tampaknya benar-benar menjelaskan mengapa "lebih ekstrim" juga penting.
Silverfish

Saya juga merasa kesimpulan Anda diungkapkan terlalu kuat. Jika kami menolak nol, kami memiliki bukti signifikan yang menentangnya, tetapi tidak tahu itu salah. Ketika kita gagal untuk menolak nol, itu tentu saja tidak berarti nol itu benar (meskipun mungkin juga). Sebagai komentar yang lebih umum, saya memiliki perasaan tes yang Anda gambarkan, dalam istilah yang cukup abstrak, tidak mungkin jelas bagi pelajar yang baru belajar bagaimana melakukan tes. Kurangnya uji statistik yang jelas tidak duduk dengan baik dengan pertanyaan awal menanyakan bagaimana menafsirkan t -statistic juga.
Silverfish

Fitur dari jawaban ini yang sangat saya sukai adalah penjelasan yang jelas bahwa nilai-p dihitung dengan menggunakan model nol, bahkan jika kita tidak (secara subyektif) percaya bahwa model nol sebenarnya benar. Saya pikir statistik uji fakta yang dihitung di bawah model adalah poin kunci yang banyak siswa perjuangkan.
Silverfish

-1

Saya belum membuktikan argumen berikut sehingga mungkin mengandung kesalahan, tapi saya benar-benar ingin memasukkan dua sen saya (Mudah-mudahan, saya akan segera memperbaruinya dengan bukti yang kuat). Cara lain untuk melihat nilai- adalahp

p -nilai - Statistik sehingga mana adalah fungsi distribusi bawah .X

0c1,FX|H0(inf{x:FX|H0(x)c})=c
FX|H0XH0

Khususnya, jika memiliki distribusi kontinu dan Anda tidak menggunakan perkiraan, makaX

  1. Setiap nilai adalah statistik dengan distribusi seragam pada , danp[0,1]
  2. Setiap statistik dengan distribusi seragam pada adalah nilai- .[0,1]p

Anda dapat menganggap ini sebagai deskripsi umum dari nilai- .p


Definisi ini masuk akal hanya untuk distribusi diskrit (dan kemudian tidak benar), karena penampilan kedua " " membuatnya jelas mengacu pada probabilitas, bukan kepadatan probabilitas. Selain itu, ada sangat sedikit distribusi (jika ada) yang memiliki properti yang dinyatakan, menunjukkan bahwa harus ada kesalahan ketik dalam pernyataan tersebut. Sejauh klaim Anda selanjutnya, (1) idealnya benar tetapi (2) tidak, kecuali Anda membiarkan hipotesis nol bergantung pada statistik! P
Whuber

@whuber Terima kasih atas masukannya. Saya telah mengedit definisi, dan itu seharusnya lebih masuk akal sekarang!
nalzok

1
Masuk akal, terima kasih: jika saya membacanya dengan benar, itu menyatakan distribusi nol dari adalah seragam padaNamun, itu hanya menangkap sebagian dari properti nilai-p; itu tidak mencirikan nilai-p; dan tidak mengatakan apa-apa tentang apa artinya atau bagaimana menafsirkannya. Pertimbangkan mempelajari beberapa jawaban lain di utas ini untuk informasi tentang apa yang hilang. X[0,1].
whuber

Berikut adalah contoh yang menurut Anda menarik. Keluarga distribusi adalah Uniform untuk hipotesis nol adalah dan alternatifnya adalah komplemennya. Pertimbangkan sampel acakTetapkan statistikJelas ini memiliki distribusi seragam pada bawah tetapi dalam arti apa itu nilai-p? Apa tes hipotesis yang sesuai? Misalkan kita mengambil sampel ukuran dan mengamati nilai apakah Anda mengklaim nilai p ? θ R , θ = 0 , X = ( X 1 , , X n ) . X ( X ) = X 1 . [ 0 , 1 ] H 0 : n = 1 X 1 = - 2 : - 2(θ,θ+1)θR,θ=0,X=(X1,,Xn).X(X)=X1.[0,1]H0:n=1X1=2:2
whuber

-4

Nilai-p tidak seisterius yang diperkirakan sebagian besar analis. Ini adalah cara tidak harus menghitung interval kepercayaan untuk uji-t tetapi hanya menentukan tingkat kepercayaan dengan hipotesis nol yang dapat ditolak.

ILUSTRASI. Anda menjalankan tes. Nilai-p muncul sebagai 0,1866 untuk variabel-Q, 0,0023 untuk variabel-R. (Ini dinyatakan dalam%).

Jika Anda menguji pada tingkat kepercayaan 95% untuk menolak null hypo;

untuk Q: 100-18.66 = 81.34%

untuk R: 100-0,23 = 99,77%.

Pada tingkat kepercayaan 95%, Q memberikan kepercayaan 81,34% untuk ditolak. Ini jatuh di bawah 95% dan tidak dapat diterima. MENERIMA NULL.

R memberikan kepercayaan 99,77% untuk menolak nol. Jelas di atas yang diinginkan 95%. Kami dengan demikian menolak nol.

Saya baru saja mengilustrasikan pembacaan nilai-p melalui 'cara sebaliknya' untuk mengukurnya hingga tingkat kepercayaan di mana kita menolak null hypo.


6
Selamat datang di situs ini. Apa yang Anda maksud dengan -variable dan -variable? Mohon klarifikasi. Juga, penggunaan frasa "accept null" biasanya dianggap sangat tidak diinginkan, bahkan menyesatkan. RQR
kardinal

@ cardinal menunjukkan poin penting. Anda tidak akan menerima nol.
Patrick Coulombe

-8

****** Nilai p dalam pengujian hipotesis mengukur sensitivitas pengujian. Semakin rendah nilai p semakin besar sensitivitasnya. jika tingkat signifikansi ditetapkan pada 0,05 nilai p 0,0001 menunjukkan probabilitas tinggi dari hasil pengujian yang benar ******


6
-1 Ini jelas salah. Anda mungkin ingin membaca jawaban dengan suara lebih tinggi terlebih dahulu.
Momo
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.