Apakah p-value merupakan estimasi titik?

Karena seseorang dapat menghitung interval kepercayaan untuk nilai-p dan karena kebalikan dari estimasi interval adalah estimasi titik: Apakah nilai-p merupakan estimasi titik?

— 00Sneider
sumber

Saya tidak percaya seseorang dapat menghitung interval kepercayaan untuk nilai-p; ini adalah statistik yang dihitung dari data, bukan parameter yang menggambarkan proses pembuatan data. Tentu saja Anda masih bisa bertanya perkiraan statistik apa.

— Scortchi

@ Scortchi: tetapi jika saya harus menerapkan mis. Bootstrap untuk menghitung distribusi nilai-p dan kemudian membangun interval persentil 95% dari distribusi bootstrap ini, maka jika itu bukan interval kepercayaan untuk nilai-p - apa itu itu ?

— Amoeba berkata Reinstate Monica

@amoeba: interval kepercayaan adalah tentang parameter yang tidak diketahui, sementara interval bootstrap Anda adalah perkiraan dari daerah 95% untuk statistik.

— Xi'an

@Scorthci: Saya telah melihat perangkat lunak yang mencetak CI untuk nilai-p. Dalam hal ini, perkiraan nilai-p dihitung dengan tes permutasi, jadi jika CI terlalu lebar (yaitu nilai-p dan nilai-p ), Anda akan menggunakan lebih banyak permutasi sebelum membuat inferensi.

\in [0, 0.05]

$\in [0, 0.05]$

\in [0.05, 1]

$\in [0.05, 1]$

— Cliff AB

@ Tebing Itu bukan interval kepercayaan untuk properti qua nilai-p dari suatu distribusi: itu adalah interval kepercayaan untuk penaksir stokastik dari nilai-p tes untuk sampel tertentu. Walaupun mereka terdengar mirip, dan keduanya adalah interval, mereka adalah hal yang sama sekali berbeda.

— whuber

Jawaban:

Estimasi titik dan interval kepercayaan untuk parameter yang menggambarkan distribusi, misalnya mean atau standar deviasi.

Tetapi tidak seperti statistik sampel lain seperti mean sampel dan standar deviasi sampel, nilai-p bukan penaksir yang berguna untuk parameter distribusi yang menarik. Lihatlah jawabannya oleh @whuber untuk detail teknis.

Nilai p untuk statistik uji memberikan probabilitas untuk mengamati penyimpangan dari nilai yang diharapkan dari uji-statistik setidaknya sebesar yang diamati dalam sampel, dihitung dengan asumsi bahwa hipotesis nol adalah benar. Jika Anda memiliki seluruh distribusi itu konsisten dengan hipotesis nol, atau tidak. Ini dapat dijelaskan dengan oleh variabel indikator (sekali lagi, lihat jawabannya oleh @whuber).

Tetapi nilai-p tidak dapat digunakan sebagai penaksir yang berguna dari variabel indikator karena tidak konsisten karena nilai-p tidak konvergen ketika ukuran sampel meningkat jika hipotesis nol benar. Ini adalah cara alternatif yang cukup rumit untuk menyatakan bahwa tes statistik dapat menolak atau gagal untuk menolak nol, tetapi tidak pernah mengkonfirmasi.

— Erik
sumber

Sebagian besar akun tes statistik yang lebih baik (Lehman, Kiefer, dll.) Sama sekali tidak mengacu pada "populasi", tetapi malah membingkai situasi dalam hal memperkirakan parameter distribusi. Ini tidak memerlukan keacakan karena semata-mata untuk pengambilan sampel, dan dengan demikian memungkinkan teori lebih luas untuk diterapkan pada situasi di mana keacakan adalah bagian dari model .

— whuber

Tetapi Anda telah secara eksplisit menentang bahwa dengan pernyataan itu, "tidak ada probabilitas yang terkait dengan populasi sama sekali." Harap perhatikan juga bahwa semua penaksir "didefinisikan secara eksplisit pada tingkat sampel." Karena itu sulit untuk menentukan perbedaan apa yang Anda coba buat dalam posting ini.

— whuber

Tentu saja! Tetapi distribusi bukanlah suatu populasi.

— whuber

(-1) Saya setuju dengan jawaban umum-sensasional @ Tim & jawaban recondite whuber, tetapi saya berjuang untuk memahami yang satu ini. (1) "Tetapi nilai-p bukan parameter populasi karena secara eksplisit didefinisikan pada tingkat sampel": ini pasti layak untuk ditunjukkan, tetapi "tetapi" membuatnya tampak seperti Anda mengatakan bahwa nilai-p dapat dapat menjadi perkiraan apa pun karena ini adalah statistik sampel, seolah-olah sampel rata-rata tidak dapat menjadi perkiraan apa pun karena itu adalah statistik sampel. ...

— Scortchi

(2) "Ini karena tidak ada probabilitas yang terkait dengan populasi sama sekali, itu dianggap tetap tetapi tidak diketahui": (a) Nilai p tidak dihitung dari sampel karena "tidak ada probabilitas [.. .] "; (b) seperti yang ditunjukkan @ whuber, pengambilan sampel dari populasi terbatas adalah kasus khusus; (c) dalam hal apa pun itu tidak mengikuti dari apa yang Anda katakan bahwa nilai p tidak memperkirakan apa pun tentang populasi.

— Scortchi

Ya, bisa jadi (dan telah) berpendapat bahwa nilai-p adalah estimasi titik.

Untuk mengidentifikasi properti apa pun dari suatu distribusi yang mungkin diperkirakan oleh nilai-p, kita harus menganggapnya tidak berpihak asimtotik. Tetapi, asimptotik, nilai p rata-rata untuk hipotesis nol adalah (idealnya; untuk beberapa tes mungkin beberapa angka bukan nol lainnya) dan untuk hipotesis lainnya adalah . Dengan demikian, nilai-p dapat dianggap sebagai penduga dari setengah fungsi indikator untuk hipotesis nol. $1/2$ $0$

Memang perlu kreativitas untuk melihat nilai-p dengan cara ini. Kita bisa melakukan sedikit lebih baik dengan melihat estimator yang dipermasalahkan sebagai keputusan yang kita buat dengan menggunakan nilai-p: apakah distribusi yang mendasari anggota dari hipotesis nol atau hipotesis alternatif? Mari kita sebut ini set mungkin keputusan . Jack Kiefer menulis $D$

Kami menduga bahwa ada percobaan yang hasilnya dapat diamati oleh ahli statistik. Hasil ini dijelaskan oleh variabel acak atau vektor acak .... Hukum probabilitas tidak diketahui oleh ahli statistik, tetapi diketahui bahwa fungsi distribusi dari adalah anggota kelas fungsi distribusi yang ditentukan . ... $X$ $X$ $F$ $X$ $\Omega$

Masalah statistik dikatakan sebagai masalah estimasi titik jika adalah kumpulan nilai yang mungkin dari beberapa properti nyata atau bernilai vektor dari yang bergantung pada dengan cara yang cukup lancar. $D$ $F$ $F$

Dalam hal ini, karena adalah diskrit, "cukup halus" bukanlah batasan sama sekali. Terminologi Kiefer mencerminkan hal ini dengan merujuk pada prosedur statistik dengan ruang keputusan yang terpisah sebagai "tes" dan bukan "penduga titik." $D$

Meskipun menarik untuk mengeksplorasi batasan (dan batasan) dari definisi tersebut, seperti yang diminta oleh pertanyaan ini untuk kita lakukan, mungkin kita tidak boleh bersikeras terlalu kuat bahwa nilai-p adalah penduga titik, karena perbedaan antara penduga dan pengujian ini sama-sama berguna dan konvensional.

Dalam komentar untuk pertanyaan ini, Christian Robert membawa perhatian pada makalah 1992 di mana ia dan rekan penulis mengambil sudut pandang yang tepat ini dan menganalisis penerimaan nilai p sebagai penaksir fungsi indikator . Lihat tautan dalam referensi di bawah ini. Makalah dimulai,

Pendekatan untuk pengujian hipotesis biasanya memperlakukan masalah pengujian sebagai salah satu pengambilan keputusan dan bukan estimasi. Lebih tepatnya, tes hipotesis formal akan menghasilkan kesimpulan apakah hipotesis itu benar, dan tidak memberikan ukuran bukti untuk dikaitkan dengan kesimpulan itu. Dalam tulisan ini kami menganggap pengujian hipotesis sebagai masalah estimasi dalam kerangka kerja decision-theoretic ....

[Penekanan ditambahkan.]

Referensi

Jiunn Tzon Hwang, George Casella, Christian Robert, Martin T. Wells, dan Roger H. Farrell, Estimasi Akurasi dalam Pengujian . Ann. Statist. Volume 20, Nomor 1 (1992), 490-509. Akses terbuka .

Jack Carl Kiefer, Pengantar Inferensi Statistik . Springer-Verlag, 1987.

— whuber
sumber

Hmm. Saya tidak yakin apakah pandangan ini bermanfaat. Untuk satu dalam hal ini nilai-p bukan penaksir yang baik, karena tidak konsisten jika hipotesis nol benar. Dan dalam beberapa kasus (Anda menyebutkan itu) memiliki bias tergantung ukuran sampel juga. Ini mungkin benar secara teknis, tetapi bilangan acak apa pun bisa menjadi penaksir (buruk) untuk parameter apa pun.

— Erik

Pertanyaannya tidak menanyakan apakah nilai-p adalah penduga yang baik , @Erik. Sebagai estimator, ia memiliki kekurangan yang jelas. Sebagai contoh, varians asimptotiknya untuk hipotesis nol adalah nol. Harap perhatikan bahwa bias hampir setiap penaksir tidak bias tergantung pada ukuran sampel. Meskipun Anda benar bahwa angka acak independen dapat dilihat sebagai penaksir, itu akan menjadi penaksir sesuatu yang berbeda: itu akan memperkirakan rata-rata sendiri (menurut definisi). Dengan demikian, keberatan Anda tampaknya tidak memiliki relevansi dengan pertanyaan yang ada.

— whuber

Saya tidak berpikir kita berbeda pada poin-poin itu, @Erik, kecuali mungkin bagian "tidak membantu". Seperti yang ditunjukkan Nick Cox dalam komentar di tempat lain di utas ini, tetap menarik untuk merenungkan pengertian di mana nilai-p dapat dianggap sebagai penaksir dan apa, tepatnya, yang mungkin dapat diestimasi. Itu dapat membantu kita memahami sedikit lebih baik apa nilai-p (dan tidak). Banyak yang akan melihatnya sebagai latihan yang bermanfaat .

— whuber

Dalam makalah 1992 , kami mempelajari nilai sebagai penaksir fungsi indikator dan menunjukkan bahwa itu bisa menjadi penaksir yang dapat diterima untuk hipotesis satu sisi dan tidak dapat diterima untuk hipotesis dua sisi.

p

$p$

I_{Θ_{0}} (θ)

$\mathbb{I}_{\Theta_0}(\theta)$

— Xi'an

@ Xi'an, saya melihat kami hanya 23 tahun di belakang Anda ... Terima kasih untuk referensi!

— whuber

$p$ -values tidak digunakan untuk mengestimasi parameter bunga, tetapi untuk pengujian hipotesis. Misalnya, Anda mungkin tertarik untuk memperkirakan populasi berdasarkan sampel yang Anda miliki, atau Anda mungkin tertarik pada estimasi intervalnya, tetapi dalam skenario pengujian hipotesis Anda lebih suka membandingkan mean sampel dengan mean populasi untuk melihat apakah mereka berbeda. Bahkan dalam skenario pengujian hipotesis Anda tidak tertarik pada nilai-nilai khusus mereka, melainkan jika mereka berada di bawah ambang batas (misalnya ). Dengan $\mu$ $\overline x$ $\mu$ $p < 0.05$ $p$ -nilai Anda tidak terlalu tertarik pada nilai poin mereka, tetapi Anda ingin tahu apakah data Anda memberikan cukup bukti terhadap hipotesis nol. Dalam skenario pengujian hipotesis, Anda tidak akan membandingkan nilai- berbeda satu sama lain, melainkan menggunakan masing-masing untuk membuat keputusan terpisah tentang hipotesis Anda. Anda tidak benar-benar ingin tahu apa-apa tentang hipotesis lambung, sejauh yang Anda tahu apakah Anda dapat menolaknya atau tidak. Ini membuat nilai-nilai mereka tidak dapat dipisahkan dari konteks keputusan dan karena itu mereka berbeda dari estimasi titik, karena dengan estimasi titik kami tertarik pada nilai-nilai mereka sendiri. $p$

— Tim
sumber

Pernyataan awal Anda dengan benar menggemakan bagaimana hal-hal itu sering dijelaskan, tetapi bagaimanapun itu tidak cukup mendalam. Fakta dasar di sini adalah variasi sampling, variabilitas dari sampel ke sampel. Ambil sampel yang berbeda, dan nilai-P Anda akan berbeda. Dibutuhkan sedikit kecerdikan untuk melihat dengan tepat apa yang diperkirakan, dan tidak (sejauh yang saya tahu) konvensional untuk menjelaskannya sebagai memperkirakan parameter, tetapi sudut pandang itu masuk akal. Lihat jawaban menarik @ whuber. (Seluruh wilayah dipenuhi dengan parafrase berlumpur berdasarkan pada kebutuhan untuk menyederhanakan mengajar.)

— Nick Cox

Bagaimana istilah digunakan itu menarik dan penting (dan omong-omong, keasyikan pribadi). Pertanyaannya tetap apa nilai-P itu . Ini juga ditunjukkan [permainan tidak dapat dihindari di sini] di tempat lain di utas ini. Ini adalah konvensi yang bermanfaat untuk menganggap parameter sebagai yang tidak dikenal yang muncul dalam spesifikasi model, tetapi ada juga yang tidak diketahui.

— Nick Cox

@Tim, saya pikir klaim ini (dari komentar terakhir Anda) hampir selalu tidak benar, setidaknya dalam biologi. Orang-orang sangat tertarik pada nilai nilai-p, menandai , , dengan satu, dua, atau tiga bintang pada gambar, menulis tentang sesuatu yang "sangat signifikan", dll. rekomendasi juga untuk melaporkan nilai-p yang tepat, misalnya , dan bukan . Hanya sangat jarang orang mematuhi kerangka Neyman-Pearson yang ketat, pilih terlebih dahulu dan laporkan semua nilai- sebagai .

p < 0.05

$p<0.05$

p < 0.01

$p<0.01$

p < 0.001

$p<0.001$

p = 0.003

$p=0.003$

p < 0.05

$p<0.05$

α

$\alpha$

p < α

$p<\alpha$

— Amoeba berkata Reinstate Monica

Pertanyaan ini bersinggungan dengan banyak orang lain, yang sebagian besar sangat kontroversial. Salah satunya adalah idealisasi bahwa tujuan tes adalah untuk membuat keputusan ya atau tidak, yang tidak cocok dengan semua masalah sama sekali. Fakta kunci lainnya adalah bahwa penggunaan level ambang batas adalah selama beberapa dekade masalah yang orang menggunakan tabel yang diterbitkan dari tabel tercetak dan nilai-P yang tepat berada di luar jangkauan sementara orang tidak menggunakan komputer.

— Nick Cox

@ 00schneider: Jika Anda pernah melihat interval yang diberikan untuk nilai-p, itu sangat tidak mungkin menjadi interval kepercayaan untuk parameter populasi yang ditentukan oleh whuber. Poin Tim adalah bahwa tidak perlu menganggap mereka sama sekali mengestimasi apa pun, menarik meskipun mungkin untuk melakukannya.

— Scortchi