Mengapa orang menggunakan nilai-p alih-alih menghitung kemungkinan model dari data yang diberikan?


43

Secara kasar, nilai-p memberikan probabilitas hasil yang diamati dari eksperimen yang diberikan hipotesis (model). Dengan probabilitas ini (nilai-p) kami ingin menilai hipotesis kami (seberapa besar kemungkinannya). Tetapi bukankah lebih alami untuk menghitung probabilitas hipotesis mengingat hasil yang diamati?

Lebih detail. Kami punya koin. Kami membalikkannya 20 kali dan kami mendapatkan 14 kepala (14 dari 20 adalah apa yang saya sebut "hasil percobaan"). Sekarang, hipotesis kami adalah bahwa koin itu adil (probabilitas kepala dan ekor sama satu sama lain). Sekarang kita menghitung nilai p, yaitu sama dengan probabilitas untuk mendapatkan 14 atau lebih kepala dalam 20 flips koin. OK, sekarang kami memiliki probabilitas ini (0,058) dan kami ingin menggunakan probabilitas ini untuk menilai model kami (bagaimana mungkin kami memiliki koin yang adil).

Tetapi jika kita ingin memperkirakan probabilitas model, mengapa kita tidak menghitung probabilitas model yang diberikan eksperimen? Mengapa kita menghitung probabilitas percobaan yang diberikan model (nilai-p)?


Anda masih harus memodelkan eksperimen Anda, entah bagaimana, untuk dapat menghitung fungsi-kemungkinan.
Raskolnikov

11
Pete Dixon menulis sebuah artikel pada tahun 1998 yang disebut "Mengapa para ilmuwan menghargai nilai-p" ( psychonomic.org/backissues/1631/R382.pdf ) yang mungkin merupakan bacaan informatif. Tindak lanjut yang baik adalah makalah Glover & Dixon tahun 2004 tentang rasio kemungkinan sebagai metrik pengganti ( pbr.psychonomic-journals.org/content/11/5/791.full.pdf ).
Mike Lawrence

2
Mike, itu terlihat mencurigakan seperti jawaban yang bagus untukku. Apa yang dilakukannya di komentar?
Matt Parker

John D Cook memposting jawaban yang sangat baik untuk pertanyaan saya, yang saya pikir Anda akan menemukan menarik: stats.stackexchange.com/questions/1164/…
doug

Orang tidak menggunakan nilai-p, statistik lakukan. (Tidak dapat menahan pepatah yang berbelit-belit, itu juga benar. Tentu saja, begitu Anda memulai kualifikasi setiap kata benda dengan benar, kata itu kehilangan kekar.)
Wayne

Jawaban:


31

Menghitung probabilitas bahwa hipotesis itu benar tidak cocok dengan definisi probabilitas (frekuensi jangka panjang), yang diadopsi untuk menghindari subyektivitas yang seharusnya dari definisi Bayesian tentang probabilitas. Kebenaran dari hipotesis tertentu bukan variabel acak, itu bisa benar atau tidak dan tidak memiliki frekuensi jangka panjang. Memang lebih alami untuk tertarik pada probabilitas kebenaran hipotesis, yang merupakan IMHO mengapa nilai-p sering disalahartikan sebagai probabilitas bahwa hipotesis nol itu benar. Bagian dari kesulitannya adalah bahwa dari aturan Bayes, kita tahu bahwa untuk menghitung probabilitas posterior bahwa hipotesis itu benar, Anda harus mulai dengan probabilitas sebelumnya bahwa hipotesis itu benar.

Bayesian akan menghitung probabilitas bahwa hipotesis itu benar, mengingat data (dan keyakinannya sebelumnya).

Pada dasarnya dalam memutuskan antara pendekatan frequentist dan Bayesian adalah pilihan apakah dugaan subjektivitas dari pendekatan Bayesian lebih menjijikkan daripada fakta bahwa pendekatan frequentist umumnya tidak memberikan jawaban langsung untuk pertanyaan yang sebenarnya ingin Anda tanyakan - tetapi ada ruang untuk kedua.

Dalam hal menanyakan apakah koin itu adil, yaitu probabilitas kepala sama dengan probabilitas ekor, kita juga memiliki contoh hipotesis yang kita tahu di dunia nyata hampir pasti salah sejak awal. Kedua sisi koin adalah non-simetris, jadi kita harus mengharapkan sedikit asimetri dalam probabilitas kepala dan ekor, jadi jika koin "lolos" dari ujian, itu berarti kita tidak memiliki cukup pengamatan untuk dapat simpulkan apa yang sudah kita ketahui benar - bahwa koin itu sangat sedikit bias!


4
Sebenarnya, sebagian besar koin sebenarnya sangat dekat dengan adil, dan sulit untuk menemukan cara yang masuk akal secara fisik untuk sangat bias - lihat misalnya stat.columbia.edu/~gelman/research/published/diceRev2.pdf
Ben Bolker

8
Menjadi sangat dekat dengan adil bukanlah hal yang sama dengan bersikap adil, yang merupakan hipotesis nol. Saya menunjukkan salah satu kekhasan pengujian hipotesis, yaitu bahwa kita sering tahu bahwa hipotesis nol itu salah, tetapi tetap menggunakannya. Tes yang lebih praktis akan bertujuan untuk mendeteksi apakah ada bukti bahwa koin itu bias secara signifikan, daripada bukti signifikan bahwa koin itu bias.
Dikran Marsupial

1
Hai, mungkin saya salah tetapi saya berpikir dalam sains, Anda tidak pernah bisa mengatakan bahwa hipotesis alternatif itu benar, Anda hanya bisa mengatakan bahwa hipotesis nol ditolak dan Anda menerima hipotesis alternatif. Bagi saya nilai p mencerminkan kemungkinan Anda akan membuat kesalahan tipe 1, yaitu bahwa Anda akan menolak hipotesis alternatif dan menerima hipotesis nol (katakanlah p = .05 atau 5% dari waktu. Penting untuk membedakan antara tipe 1 kesalahan dan kesalahan tipe 2, dan peran yang dimainkan kekuasaan dalam pemodelan acara Anda
user2238

3
Untuk tes yang sering dilakukan, saya akan menggunakan pernyataan yang bahkan lebih lemah, yaitu Anda "menolak hipotesis nol" atau Anda "gagal menolak hipotesis nol", dan tidak menerima apa pun. Poin kuncinya adalah bahwa (seperti dalam kasus koin bias) kadang-kadang Anda tahu a-apriori bahwa hipotesis nol itu tidak benar, Anda hanya tidak memiliki cukup data untuk menunjukkan bahwa itu tidak benar; dalam hal ini akan aneh untuk "menerimanya". Tes frekuensi memiliki tingkat kesalahan tipe-I dan tipe-II, tetapi itu tidak berarti bahwa mereka dapat berbicara tentang probabilitas hipotesis tertentu menjadi benar, seperti dalam OP.
Dikran Marsupial

2
@ user2238 Nilai-p adalah peluang kesalahan tipe I hanya ketika hipotesis nol "sederhana" (bukan komposit) dan itu terjadi benar. Misalnya, dalam tes satu sisi apakah koin bias terhadap ekor ( ), menggunakan koin berkepala dua menjamin kemungkinan kesalahan tipe-I adalah nol meskipun nilai p dari setiap sampel hingga akan menjadi nol. H0:p<0.5
whuber

18

Tidak seperti menjawab pertanyaan yang sangat lama, tapi begini ....

nilai-p adalah tes hipotesis yang hampir valid. Ini adalah kutipan yang sedikit diadaptasi yang diambil dari buku teori probabilitas 2003 Jaynes (percobaan berulang: probabilitas dan frekuensi). Misalkan kita memiliki hipotesis nol yang ingin kita uji. Kami memiliki data D dan informasi sebelum saya . Misalkan ada beberapa hipotesis H A yang tidak ditentukan yang akan kami uji dengan H 0 . Rasio peluang posterior untuk H A terhadap H 0 kemudian diberikan oleh:H0DIHAH0HAH0

P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)

HAP(D|HAI)=11P(D|H0I)H01P(D|H0I)1P(D|H0I)H0HAt(D)>t0t(D)Dt(D)

D{x1,,xN}xiNormal(μ,σ2)IH0:μ=μ0. Lalu kita miliki, setelah sedikit perhitungan:

P(D|H0I)=(2πσ2)N2exp(N[s2+(x¯μ0)2]2σ2)

x¯=1Ni=1Nxis2=1Ni=1N(xix¯)2P(D|H0I)μ0=x¯

P(D|HAI)=(2πσ2)N2exp(Ns22σ2)

Jadi kami mengambil rasio dari keduanya, dan kami mendapatkan:

P(D|HAI)P(D|H0I)=(2πσ2)N2exp(Ns22σ2)(2πσ2)N2exp(Ns2+N(x¯μ0)22σ2)=exp(z22)

z=Nx¯μ0σ|z|x¯

x¯X¯Normal(μ,σ2N)X¯x¯|X¯μ0||X¯μ0||x¯μ0|

p-value=P(|X¯μ0||x¯μ0||H0)
=1P[N|x¯μ0|σNX¯μ0σN|x¯μ0|σ|H0]
=1P(|z|Z|z||H0)=2[1Φ(|z|)]

|z|

Meskipun keduanya merupakan hal yang mudah dilakukan dalam contoh ini, mereka tidak selalu mudah dalam kasus yang lebih rumit. Dalam beberapa kasus mungkin lebih mudah untuk memilih statistik yang tepat untuk digunakan dan menghitung distribusi sampelnya. Di negara lain mungkin lebih mudah untuk mendefinisikan kelas alternatif, dan memaksimalkan kelas tersebut.

Contoh sederhana ini menjelaskan sejumlah besar pengujian berbasis nilai-p, hanya karena begitu banyak uji hipotesis dari varietas "perkiraan normal". Ini memberikan jawaban perkiraan untuk masalah koin Anda juga (dengan menggunakan perkiraan normal ke binomial). Ini juga menunjukkan bahwa nilai-p dalam kasus ini tidak akan membuat Anda tersesat, setidaknya dalam hal menguji hipotesis tunggal. Dalam hal ini, kita dapat mengatakan bahwa nilai-p adalah ukuran bukti terhadap hipotesis nol.

0.193.870.05196.830.12.330.052.78


4
+1. "... memilih statistik sama dengan mendefinisikan hipotesis alternatif yang sedang Anda pertimbangkan" menurut saya sebagai wawasan yang mendalam.
Whuber

kk

1
@ faheemmitha- Anda benar tentang ledakan kombinatorik, namun ini tidak terjadi untuk pendekatan yang saya jelaskan (sebenarnya Anda dapat menunjukkan bahwa pendekatan bayes secara efektif mendefinisikan residu). Ini karena kita hanya perlu mendefinisikan kelas lalu memaksimalkan. Kami tidak perlu mengevaluasi setiap alternatif, cukup temukan yang terbaik.
probabilityislogic

Mengapa jawaban ini Wiki Komunitas?
Amuba kata Reinstate Monica

10

Sebagai mantan akademisi yang pindah praktik, saya akan mengambil kesempatan. Orang-orang menggunakan nilai-p karena mereka berguna. Anda tidak dapat melihatnya dalam contoh membalik koin. Tentu mereka tidak benar-benar solid secara mendasar, tapi mungkin itu tidak sepenting yang kita suka pikirkan ketika kita berpikir secara akademis. Dalam dunia data, kita dikelilingi oleh sejumlah hal yang mungkin tak terbatas untuk dilihat selanjutnya. Dengan perhitungan p-value semua yang Anda butuhkan sebagai gagasan tentang apa yang tidak menarik dan heuristik numerik untuk jenis data apa yang mungkin menarik (well, ditambah model probabilitas untuk tidak menarik). Kemudian secara individu atau kolektif kita dapat memindai hal-hal yang cukup sederhana, menolak sebagian besar yang tidak menarik. Nilai p memungkinkan kita untuk mengatakan "Jika saya tidak memprioritaskan untuk memikirkan hal ini sebaliknya,


10

Pertanyaan Anda adalah contoh yang bagus dari pemikiran yang sering muncul dan, sebenarnya cukup alami. Saya telah menggunakan contoh ini di kelas saya untuk menunjukkan sifat tes hipotesis. Saya meminta sukarelawan untuk memprediksi hasil flip koin. Apa pun hasilnya, saya mencatat tebakan "benar". Kami melakukan ini berulang kali hingga kelas menjadi mencurigakan.

Sekarang, mereka memiliki model nol di kepala mereka. Mereka menganggap koin itu adil. Mengingat asumsi 50% benar ketika semuanya adil, setiap tebakan yang benar secara berurutan membangkitkan lebih banyak kecurigaan bahwa model koin yang adil tidak benar. Beberapa tebakan yang benar dan mereka menerima peran kebetulan. Setelah 5 atau 10 tebakan yang benar, kelas selalu mulai curiga bahwa peluang koin yang adil rendah. Demikian pula dengan sifat pengujian hipotesis di bawah model frequentist.

Ini adalah representasi yang jelas dan intuitif dari pengambilan sering pada pengujian hipotesis. Ini adalah probabilitas dari data yang diamati mengingat bahwa nol itu benar. Sebenarnya sangat alami seperti yang ditunjukkan oleh percobaan mudah ini. Kami menerima begitu saja bahwa modelnya adalah 50-50 tetapi sebagai bukti meningkat, saya menolak model itu dan mencurigai ada sesuatu yang lain yang berperan.

Jadi, jika probabilitas apa yang saya amati rendah mengingat model yang saya asumsikan (nilai-p) maka saya memiliki kepercayaan diri dalam menolak model yang saya asumsikan. Dengan demikian, nilai-p adalah ukuran bukti yang berguna terhadap model yang saya asumsikan dengan mempertimbangkan peran peluang.

Penafian: Saya mengambil latihan ini dari artikel yang sudah lama terlupakan, yang saya ingat, adalah salah satu jurnal ASA.


Brett, ini menarik dan contoh yang bagus. Model di sini bagi saya tampaknya adalah bahwa orang mengharapkan urutan kepala dan ekor terjadi secara acak. Sebagai contoh, jika saya melihat 5 kepala berturut-turut, saya menyimpulkan bahwa ini adalah contoh dari proses non-acak. Bahkan, dan saya mungkin salah di sini, probabilitas toin coss (dengan asumsi keacakan) adalah 50% kepala dan 50% ekor, dan ini sepenuhnya independen dari hasil sebelumnya. Intinya adalah bahwa jika kita melempar koin 50.000 kali, dan 25.000 pertama adalah kepala, asalkan 25.000 sisanya adalah ekor, ini masih mencerminkan kurangnya bias
pengguna2238

@ user2238: Pernyataan terakhir Anda benar, tetapi itu akan sangat jarang. Bahkan, melihat lari 5 kepala dalam 5 lemparan akan terjadi hanya 3% dari waktu jika koin itu adil. Selalu mungkin bahwa nol itu benar dan kami telah menyaksikan peristiwa langka.
Brett

6

"Secara kasar nilai-p memberikan probabilitas hasil yang diamati dari eksperimen yang diberikan hipotesis (model)."

tapi ternyata tidak. Bahkan tidak kira - ini memalsukan perbedaan penting.

Model ini tidak ditentukan, seperti yang ditunjukkan oleh Raskolnikov, tetapi mari kita asumsikan maksud Anda adalah model binomial (lemparan koin independen, bias koin tidak diketahui tetap). Hipotesis adalah klaim bahwa parameter yang relevan dalam model ini, bias atau probabilitas kepala, adalah 0,5.

"Memiliki probabilitas ini (nilai-p) kami ingin menilai hipotesis kami (seberapa besar kemungkinannya)"

Kita mungkin memang ingin membuat penilaian ini tetapi nilai-p tidak akan (dan tidak dirancang untuk) membantu kita melakukannya.

"Tapi bukankah lebih alami untuk menghitung probabilitas hipotesis mengingat hasil yang diamati?"

Mungkin itu akan terjadi. Lihat semua diskusi Bayes di atas.

"[...] Sekarang kita menghitung nilai-p, yaitu sama dengan probabilitas untuk mendapatkan 14 kepala atau lebih dalam 20 flips koin. OK, sekarang kita memiliki probabilitas ini (0,058) dan kami ingin menggunakan probabilitas ini untuk menilai model kami (bagaimana mungkin kami memiliki koin yang adil). "

'Dari hipotesis kami, dengan asumsi model kami benar', tetapi pada dasarnya: ya. Nilai p yang besar menunjukkan bahwa perilaku koin konsisten dengan hipotesis bahwa itu adil. (Mereka juga biasanya konsisten dengan hipotesis yang salah tetapi begitu dekat dengan kebenaran kita tidak memiliki cukup data untuk diceritakan; lihat 'kekuatan statistik'.)

"Tetapi jika kita ingin memperkirakan probabilitas model, mengapa kita tidak menghitung probabilitas model yang diberikan percobaan? Mengapa kita menghitung probabilitas percobaan yang diberikan model (nilai-p)?"

Kami sebenarnya tidak menghitung probabilitas hasil percobaan yang diberikan hipotesis dalam pengaturan ini. Bagaimanapun, probabilitasnya hanya sekitar 0,176 untuk melihat dengan tepat 10 kepala ketika hipotesisnya benar, dan itulah nilai yang paling mungkin. Ini bukan jumlah yang menarik sama sekali.

Juga relevan bahwa kita biasanya tidak memperkirakan probabilitas model. Baik jawaban frequentist dan Bayesian biasanya menganggap model itu benar dan membuat kesimpulan tentang parameternya. Memang, tidak semua pendukung Bayesian akan bahkan pada prinsipnya tertarik pada probabilitas model, yaitu: probabilitas bahwa seluruh situasi baik dimodelkan dengan distribusi binomial. Mereka mungkin melakukan banyak pengecekan model, tetapi tidak pernah benar-benar bertanya seberapa besar kemungkinan binomial berada dalam ruang model yang mungkin lainnya. Bayesians yang peduli tentang Bayes Factors tertarik, yang lain tidak begitu peduli.


2
Hmm, dua suara turun. Jika jawabannya sangat buruk akan menyenangkan memiliki beberapa komentar.
conjugateprior

Saya menyukai jawaban ini. Kadang-kadang orang memilih jawaban karena tidak mirip dengan buku teks dan mencoba untuk menyingkirkan semua situs diskusi yang mengandung noda akal sehat atau orang awam seperti deskripsi.
Vass

Saya tidak mengundurkan diri tetapi saya pikir masalahnya adalah bahwa poin Anda tidak jelas.
Elvis



2

Tentukan probabilitas . Saya sungguh-sungguh. Sebelum kita maju lebih jauh, kita perlu menentukan persyaratan.

DM

P(M|D)P(M,D)

106/28109

Dalam masalah praktis dunia dengan mengatakan kondisi medis dan cara kerjanya, Anda mungkin tidak dapat menemukan komponen-komponen ini dari distribusi bersama, dan tidak dapat mengkondisikan.

P(M,D)p=0.5P(p=0.5)=0B(0.5,0.5)B(1000,1000)0.528109/(28109+106)

Selain kesulitan dalam berbicara tentang apa sebenarnya model yang tepat, metode Bayesian memiliki cara terbatas dalam berurusan dengan kesalahan spesifikasi model. Jika Anda tidak menyukai kesalahan Gaussian, atau Anda tidak percaya pada kemandirian lemparan koin (tangan Anda lelah setelah 10.000 atau lebih lemparan pertama, jadi Anda tidak melemparkannya setinggi 1.000 atau lebih kali pertama, yang dapat memengaruhi probabilitas), yang dapat Anda lakukan di dunia Bayesian adalah membangun model yang lebih rumit - tetap menggunakan prior untuk campuran normal, splines dalam probabilitas dari waktu ke waktu, apa pun. Tetapi tidak ada analog langsung dengan kesalahan standar sandwich Huber yang secara eksplisit mengakui bahwa model mungkin salah spesifikasi, dan siap untuk menjelaskannya.

<Ω,F,P>ΩFσPAΩAFXt,t[0,1]{Xt>0,t[0,0.5]}{Xt>0,t{t1,t2,,tk}}kσ


1

Tetapi jika kita ingin memperkirakan probabilitas model, mengapa kita tidak menghitung probabilitas model yang diberikan eksperimen?

Karena kita tidak tahu caranya. Ada jumlah tak terbatas dari model yang mungkin, dan ruang probabilitasnya tidak ditentukan.

Ini contoh praktisnya. Katakanlah saya ingin meramalkan PDB AS. Saya mendapatkan seri waktu, dan cocok dengan seorang model. Berapa probabilitas bahwa model ini benar?

Δlnyt=μ+et
μet

masukkan deskripsi gambar di sini

lnyt=ct+et
c

μ

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.