Mengapa pernyataan ini tidak mengikuti secara logis dari 95% CI untuk mean?


26

Saya telah membaca makalah Hoekstra et al 2014 tentang "Kesalahan interpretasi interval kepercayaan", yang saya unduh dari situs web Wagenmakers .

Pada halaman kedua dari belakang gambar berikut muncul.

Ulangan

Menurut penulis, False adalah jawaban yang benar untuk semua pernyataan ini. Saya tidak begitu yakin mengapa pernyataan itu salah, dan sejauh yang saya bisa mengatakan bahwa makalah ini tidak berusaha menjelaskan hal ini.

Saya percaya bahwa 1-2 dan 4 tidak benar karena mereka menyatakan sesuatu tentang nilai kemungkinan dari mean yang sebenarnya, ketika mean yang sebenarnya memiliki nilai pasti yang tidak diketahui. Apakah ini perbedaan yang meyakinkan?

Mengenai 3, saya mengerti bahwa seseorang tidak dimaksudkan untuk membuat pernyataan tentang kemungkinan hipotesis nol salah, meskipun saya tidak begitu yakin alasannya.

Demikian pula 6 tidak mungkin benar karena itu menyiratkan bahwa mean sebenarnya berubah dari percobaan ke percobaan.

Yang saya benar-benar tidak mengerti sama sekali adalah 5. Mengapa itu salah? Jika saya memiliki proses yang 95% dari waktu menghasilkan CI yang mengandung rata-rata yang sebenarnya, mengapa saya tidak mengatakan saya memiliki kepercayaan 95% nilai populasi antara 0,1 dan 0,4? Apakah karena kita mungkin memiliki beberapa informasi khusus tentang sampel yang baru saja kita ambil yang akan membuat kita berpikir itu kemungkinan menjadi salah satu dari 5% yang tidak mengandung mean sebenarnya? Misalnya, 0,13 termasuk dalam interval kepercayaan dan untuk beberapa alasan 0,13 tidak dianggap sebagai nilai yang masuk akal dalam beberapa konteks penelitian tertentu, misalnya karena nilai itu akan bertentangan dengan teori sebelumnya.

Apa arti kepercayaan dalam konteks ini?


Jawaban:


11

Arti pertanyaan (5) sangat tergantung pada beberapa interpretasi "kepercayaan diri" yang dirahasiakan. Saya mencari kertas dengan hati-hati dan tidak menemukan upaya untuk mendefinisikan "kepercayaan" atau apa artinya dalam konteks ini. Penjelasan makalah tentang jawaban atas pertanyaan (5) adalah

"... [itu] menyebutkan batas-batas CI sedangkan ... CI dapat digunakan untuk mengevaluasi hanya prosedur dan bukan interval tertentu."

Ini baik tipuan dan menyesatkan. Pertama, jika Anda tidak dapat mengevaluasi hasil prosedur, lalu apa gunanya prosedur ini? Kedua, pernyataan dalam pertanyaan itu bukan tentang prosedur, tetapi tentang "kepercayaan" pembaca akan hasilnya.

Para penulis membela diri:

"Sebelum melanjutkan, penting untuk mengingat definisi CI yang benar. CI adalah interval numerik yang dibangun di sekitar perkiraan parameter. Namun, interval tersebut tidak secara langsung menunjukkan properti parameter; sebaliknya, ini menunjukkan properti prosedur, seperti tipikal untuk teknik frequentist. "

Bias mereka muncul dalam frasa terakhir: "teknik frequentist" (ditulis, mungkin, dengan ejekan implisit). Meskipun karakterisasi ini benar, namun secara kritis tidak lengkap. Gagal memperhatikan bahwa interval kepercayaan juga merupakan properti dari metode eksperimental (bagaimana sampel diperoleh dan diukur) dan, yang lebih penting, dari alam itu sendiri. Itulah satu-satunya alasan mengapa ada orang yang tertarik pada nilainya.

Baru-baru ini saya senang membaca Statistik Edaran Edward Batschelet dalam Biologi (Academic Press, 1981). Batschelet menulis dengan jelas dan to the point, dengan gaya yang diarahkan pada ilmuwan yang bekerja. Inilah yang dia katakan tentang interval kepercayaan:

" Perkiraan parameter tanpa indikasi penyimpangan yang disebabkan oleh fluktuasi kebetulan memiliki sedikit nilai ilmiah. ...

"Sedangkan parameter yang akan diperkirakan adalah angka tetap, batas kepercayaan ditentukan oleh sampel. Mereka adalah statistik dan, oleh karena itu, tergantung pada fluktuasi peluang. Sampel yang berbeda yang diambil dari populasi yang sama menyebabkan interval kepercayaan yang berbeda."

[Penekanannya adalah dalam yang asli, di hlm. 84-85.]

Perhatikan perbedaan dalam penekanan: sedangkan makalah yang dimaksud berfokus pada prosedur, Batschelet berfokus pada sampel dan secara khusus pada apa yang dapat diungkapkan tentang parameter dan seberapa besar informasi tersebut dapat dipengaruhi oleh "fluktuasi kebetulan." Saya menemukan pendekatan praktis, ilmiah tanpa malu-malu ini jauh lebih konstruktif, mencerahkan, dan - pada akhirnya - berguna.

Karenanya, karakterisasi interval kepercayaan yang lebih lengkap daripada yang ditawarkan oleh makalah ini harus melanjutkan sesuatu seperti ini:

CI adalah interval numerik yang dibangun di sekitar estimasi parameter. Siapa pun yang setuju dengan asumsi yang mendasari konstruksi CI dibenarkan dengan mengatakan bahwa mereka yakin bahwa parameter berada dalam interval: ini adalah arti dari "percaya diri." Makna ini secara luas sesuai dengan makna kepercayaan non-teknis konvensional karena di bawah banyak replikasi percobaan (apakah mereka benar-benar terjadi) CI, meskipun akan bervariasi, diharapkan mengandung parameter sebagian besar waktu.

Dalam rasa "percaya diri" yang lebih penuh, lebih konvensional, dan lebih konstruktif ini, jawaban atas pertanyaan (5) adalah benar.


2
Patut dicatat bahwa pendekatan Batschelet tampaknya mengesampingkan jenis interval kepercayaan tertentu yang membuat pembaca berpikir jeda, seperti CI yang bisa kosong. CI semacam itu hampir tidak akan menangkap gagasan "indikasi penyimpangan yang disebabkan oleh fluktuasi kebetulan." Ini mengisyaratkan bahwa mungkin definisi standar interval kepercayaan tidak cukup memenuhi apa yang dimaksudkan. Bagaimanapun juga, tanpa adanya indikasi yang jelas tentang apa yang dimaksud dengan "kepercayaan" dalam pertanyaan (5), kita harus mengabaikan kesimpulan yang dibuat oleh penulis berdasarkan jawaban yang mereka dapatkan untuk pertanyaan itu.
whuber

Saya tidak akan setuju tentang 5 benar di bawah definisi interval kepercayaan diri Anda. CI harus didasarkan pada statistik yang cukup - jika tidak, Anda dapat membuat CI yang memiliki subkelas kasus "buruk" dan "baik", dapat dikenali dari sampel yang Anda miliki, sehingga cakupan di kelas-kelas tersebut terlalu rendah atau terlalu tinggi. Contoh paling dasar adalah sampel iid ukuran 2 dari . Rata-rata sampel tidak cukup untuk sehingga cakupan CI Anda bervariasi tergantung pada sampel tertentu yang Anda dapatkan. μyicauchy(μ,1)μ
probabilityislogic

... lanjutkan ... jadi meskipun cakupan rata-rata jangka panjang tercapai, cakupan dalam kelas sampel tertentu tidak akan.
probabilityislogic

10

Pertanyaan 1-2, 4: dalam analisis frequentist, mean sebenarnya bukan variabel acak, sehingga probabilitasnya tidak ditentukan, sedangkan dalam analisis Bayes, probabilitas akan bergantung pada yang sebelumnya.

Pertanyaan 3: Misalnya, pertimbangkan suatu kasus di mana kita tahu pasti. Masih mungkin untuk mendapatkan hasil ini, tetapi agak tidak masuk akal untuk mengatakan bahwa hipotesis nol 'tidak mungkin' benar. Kami memperoleh data yang tidak mungkin terjadi jika hipotesis nol benar, tetapi ini tidak berarti bahwa hipotesis nol tidak mungkin benar.

Pertanyaan 5: Ini agak dipertanyakan karena ini tergantung pada definisi "kita bisa percaya diri." Jika kita mendefinisikan pernyataan yang berarti hal yang disimpulkan dari interval kepercayaan p%, pernyataan itu secara definisi benar. Argumen pro-Bayesian khas menyatakan bahwa orang cenderung menafsirkan pernyataan ini secara intuitif berarti "probabilitas adalah p%", yang akan menjadi salah (bandingkan jawaban dengan 1-2,4).

Pertanyaan 6: Penjelasan Anda "itu menyiratkan bahwa mean sebenarnya berubah dari eksperimen ke eksperimen" adalah benar.

Artikel tersebut baru-baru ini dibahas di blog Andrew Gelman ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ). Misalnya, masalah tentang interpretasi pernyataan dalam pertanyaan 5 dibahas dalam komentar.


1
Jadi, jika seseorang kembali dan mengganti setiap instance dari "mean sebenarnya" dengan "estimasi terbaik untuk mean sebenarnya" maka apakah pernyataannya menjadi benar?
Hebat

@Superbest No. Jika kami menganggap "estimasi terbaik yang diberikan data ini," itu adalah konstanta yang diketahui (asalkan terbaik didefinisikan dengan baik). Jika kami mempertimbangkan "perkiraan terbaik untuk sampel masa depan", kami tidak tahu bagaimana ini bervariasi karena kami tidak tahu rata-rata yang sebenarnya.
Juho Kokkala

Ini bukan bantahan terhadap komentar di atas, tetapi saya harus menunjukkan bahwa memang "perkiraan terbaik" menyiratkan angka aktual, bukan distribusi. Dengan CI, orang mungkin bisa berbicara tentang "distribusi di mana rata-rata sebenarnya terletak mengingat data ini".
Superbest

1
@ Super Itulah persisnya kesalahpahaman CI yang dibahas di koran. Secara khusus, mean sebenarnya adalah angka ; tidak memiliki distribusi. Lihat dua klik pertama dalam pencarian situs untuk interval kepercayaan untuk diskusi lebih lanjut.
whuber

1
@ super, "interval kredibel" akan datang dekat.
whuber

8

Tanpa definisi formal tentang apa artinya menjadi "95% percaya diri", pembenaran apa yang ada untuk memberi label nomor 5 benar atau salah? Seorang awam pasti akan salah menafsirkannya sebagai sinonim dengan kemungkinan 95% dari rata-rata berada di interval itu: tetapi beberapa orang menggunakannya dalam arti telah menggunakan metode penghasil interval yang intervalnya mengandung rata-rata sebenarnya 95% dari waktu, tepatnya untuk menghindari berbicara tentang distribusi probabilitas dari parameter yang tidak diketahui; yang tampaknya merupakan perpanjangan terminologi yang cukup alami.

Struktur serupa dari pernyataan sebelumnya (# 4) mungkin telah mendorong responden untuk mencoba menggambar perbedaan antara "kita bisa 95% percaya diri" & "ada kemungkinan 95%" bahkan jika mereka tidak pernah menghibur ide sebelumnya. Saya mengharapkan tipuan ini mengarah ke # 5 memiliki proporsi tertinggi dalam persetujuan — melihat kertas, saya menemukan bahwa saya salah, tetapi memperhatikan bahwa setidaknya 80% membaca kuesioner dalam versi Belanda, yang mungkin harus mengajukan pertanyaan tentang ketepatan terjemahan bahasa Inggris.


4

Berikut adalah definisi interval kepercayaan, dari Kamus Statistik BS Everitt :

"Rentang nilai, dihitung dari pengamatan sampel, yang diyakini, dengan probabilitas tertentu, mengandung nilai parameter sebenarnya. CI 95%, misalnya, menyiratkan bahwa proses estimasi diulangi lagi dan lagi, kemudian 95% dari interval yang dihitung akan diharapkan mengandung nilai parameter yang sebenarnya. Perhatikan bahwa tingkat probabilitas yang dinyatakan mengacu pada properti interval dan bukan ke parameter itu sendiri, yang tidak dianggap sebagai variabel acak "

Kesalahpahaman yang sangat umum adalah untuk membingungkan makna interval kepercayaan dengan interval kredibel , AKA "interval kepercayaan Bayesian", yang membuat pernyataan serupa dengan yang ada di pertanyaan.

Saya telah mendengar bahwa interval kepercayaan seringkali mirip dengan interval yang kredibel yang berasal dari informasi sebelumnya yang tidak informatif, tetapi hal itu diberitahukan kepada saya secara anekdot (walaupun oleh seorang pria yang saya sangat hormati), dan saya tidak memiliki detail atau kutipan.


Interval kepercayaan kertas Jaynes 1976 vs interval bayesian. Itu setidaknya satu sumber yang dapat dipercaya. Ada juga prior referensi Berger dan Bernardo. Serius, Anda belum pernah mendengar ini?
probabilityislogic

2

Mengenai intuisi untuk kepalsuan Pertanyaan 5, saya mendapatkan diskusi berikut tentang topik ini dari sini

Memang benar untuk mengatakan bahwa ada 95% kemungkinan bahwa interval kepercayaan yang Anda hitung mengandung rata-rata populasi sebenarnya. Tidaklah benar untuk mengatakan bahwa ada kemungkinan 95% bahwa rata-rata populasi berada dalam interval.

Apa bedanya? Rata-rata populasi memiliki satu nilai. Anda tidak tahu apa itu (kecuali jika Anda melakukan simulasi) tetapi memiliki satu nilai. Jika Anda mengulangi percobaan, nilai itu tidak akan berubah (dan Anda masih tidak tahu apa itu). Oleh karena itu tidak sepenuhnya benar untuk bertanya tentang probabilitas bahwa rata-rata populasi berada dalam kisaran tertentu. Sebaliknya, interval kepercayaan yang Anda hitung tergantung pada data yang Anda kumpulkan. Jika Anda mengulangi percobaan, interval kepercayaan diri Anda hampir pasti akan berbeda. Jadi tidak apa-apa untuk bertanya tentang probabilitas bahwa interval berisi rata-rata populasi.

Sekarang untuk pertanyaan spesifik Anda tentang 5. Mengapa salah ...

  1. Apakah karena kita mungkin memiliki beberapa informasi khusus tentang sampel yang baru saja kita ambil yang akan membuat kita berpikir itu kemungkinan menjadi salah satu dari 5% yang tidak mengandung mean sebenarnya? Tidak, lebih tepatnya, saya pikir itu karena mean sebenarnya bukan variabel acak, tetapi interval kepercayaan adalah fungsi dari data.
  2. 100(1α)100(1α)

Sebagai catatan samping (disebutkan dalam jawaban lain untuk pertanyaan ini), interval yang kredibel , konsep dari statistik Bayesian, memprediksi bahwa nilai sebenarnya dari parameter memiliki probabilitas tertentu berada dalam interval kepercayaan mengingat data yang sebenarnya diperoleh. Mungkin Anda bisa mendapatkan latar belakang lebih banyak tentang ini dari blog Gelman.


5
"Interval berisi nilai sebenarnya" dan "nilai sebenarnya terletak di dalam interval" berarti hal yang persis sama. Lebih bermanfaat untuk berpikir tentang yang pertama tetapi tidak masuk akal untuk mengatakan bahwa yang satu benar dan yang lain salah.
David Richerby
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.