Bagaimana cara menghitung interval kepercayaan untuk rasio?

12

Pertimbangkan percobaan yang menghasilkan rasio antara 0 dan 1. Bagaimana rasio ini diperoleh seharusnya tidak relevan dalam konteks ini. Itu diuraikan dalam versi sebelumnya dari pertanyaan ini , tetapi dihapus untuk kejelasan setelah diskusi tentang meta . $X_i$

Eksperimen ini diulangi kali, sedangkan kecil (sekitar 3-10). The diasumsikan independen dan terdistribusi secara identik. Dari ini kami memperkirakan rata-rata dengan menghitung rata-rata , tetapi bagaimana cara menghitung interval kepercayaan yang sesuai ? $n$ $n$ $X_i$ $\overline X$ $[U,V]$

Saat menggunakan pendekatan standar untuk menghitung interval kepercayaan, terkadang lebih besar dari 1. Namun, intuisi saya adalah bahwa interval kepercayaan yang benar ... $V$

... harus berada dalam kisaran 0 dan 1
... harus menjadi lebih kecil dengan meningkatnya $n$
... kira-kira sesuai dengan yang dihitung menggunakan pendekatan standar
... dihitung dengan metode suara yang matematis

Ini bukan persyaratan mutlak, tetapi setidaknya saya ingin mengerti mengapa intuisi saya salah.

Perhitungan berdasarkan jawaban yang ada

Berikut ini, interval kepercayaan yang dihasilkan dari jawaban yang ada dibandingkan untuk . $\{X_i\} = \{0.985,0.986,0.935,0.890,0.999\}$

Pendekatan Standar (alias "Matematika Sekolah")

$\overline X = 0.959$ , , dengan demikian interval kepercayaan 99% adalah . Ini bertentangan dengan intuisi 1. $\sigma^2 = 0.0204$ $[0.865,1.053]$

Memotong (disarankan oleh @soakley di komentar)

Hanya dengan menggunakan pendekatan standar maka memberikan hasilnya mudah dilakukan. Tetapi apakah kita diizinkan untuk melakukan itu? Saya belum yakin bahwa batas bawah tetap konstan (-> 4.) $[0.865,1.000]$

Model Regresi Logistik (disarankan oleh @Rose Hartman)

Data yang : Menghasilkan , mengubahnya kembali menghasilkan . Jelas, 6.90 adalah outlier untuk data yang ditransformasikan sementara 0.99 bukan untuk data yang tidak diubah, menghasilkan interval kepercayaan yang sangat besar. (-> 3.) $\{4.18,4.25,2.09,2.66,6.90\}$ $[0.173,7.87]$ $[0.543,0.999]$

Interval kepercayaan proporsi binomial (disarankan oleh @Tim)

Pendekatannya terlihat cukup bagus, tetapi sayangnya tidak sesuai dengan percobaan. Hanya menggabungkan hasil dan menafsirkannya sebagai satu percobaan Bernoulli yang diulang besar seperti yang disarankan oleh @ZahavaKor menghasilkan hal-hal berikut:

$985+986+890+935+999 = 4795$ dari total . Memberi makan ini ke Adj. Kalkulator Wald memberi . Ini tampaknya tidak realistis, karena tidak ada tunggal di dalam interval itu! (-> 3.) $5*1000$ $[0.9511,0.9657]$ $X_i$

Bootstrapping (disarankan oleh @soakley)

Dengan kami memiliki 3125 kemungkinan permutasi. Mengambil sarana tengah permutasi, kita mendapatkan . Terlihat tidak terlalu buruk, meskipun saya akan mengharapkan interval yang lebih besar (-> 3.). Namun, per konstruksi tidak pernah lebih besar dari . Jadi untuk sampel kecil itu akan lebih baik daripada menyusut untuk meningkatkan (-> 2.). Setidaknya inilah yang terjadi dengan sampel yang diberikan di atas. $n=5$ $\frac{3093}{3125} = 0.99$ $[0.91,0.99]$ $[min(X_i),max(X_i)]$ $n$

confidence-interval

— koalo
sumber

Anda benar dalam pendekatan kedua Anda. Saya tidak yakin tentang yang pertama - tidak dinyatakan dengan jelas dalam istilah statistik. Sejauh yang saya tahu, reproduksibilitas berarti bahwa percobaan yang sama dilakukan oleh peneliti yang berbeda dan mereka mendapatkan hasil yang sama. Anda perlu menentukan tujuan Anda lebih jelas, lebih disukai dalam hal hipotesis statistik mengenai parameter yang Anda coba perkirakan. Hanya menggunakan istilah "reproduktifitas" terlalu samar menurut saya.

— Zahava Kor

Anda benar, pengulangan adalah istilah yang benar dan tidak dapat diproduksi kembali. Saya akan mencoba untuk membangun definisi dalam hal statistik.

— koalo

@ZahavaKor Saya menghapus contoh yang kurang spesifik tentang pengulangan dan menentukan aplikasi saya yang sebenarnya dengan harapan dapat menjelaskan masalah saya dan tidak membingungkan.

— koalo

Jika Anda benar-benar mengambil sampel berukuran 1000, maka Anda belum menerapkan pendekatan resampling dengan benar. Tetapi dengan data sebanyak itu, Anda tidak perlu melakukan uji ulang dan harus mendapatkan hasil yang baik (yaitu interval kepercayaan yang sempit) dengan pendekatan binomial standar, seperti yang Anda temukan di atas. Hanya karena titik data individual Anda tidak dalam interval yang dihasilkan, tidak berarti intervalnya tidak benar.

— soakley

1

Nah, pikirkan tentang ini. Anda mencicipi 10 item dan mendapatkan 9 kesuksesan. Saya mencicipi 1000 dan mendapatkan 900 keberhasilan. Siapa yang akan memiliki perkiraan rata-rata yang lebih akurat? Coba gunakan rumus yang dirujuk oleh Tim jika intuisi belum ada. Jadi, dalam contoh terakhir dalam pertanyaan Anda, ukuran sampel bukan 5, melainkan 5.000!

— soakley

6

Pertama, untuk memperjelas, apa yang Anda hadapi bukanlah distribusi binomial, seperti yang disarankan oleh pertanyaan Anda (Anda menyebutnya sebagai eksperimen Bernoulli). Distribusi binomial bersifat diskrit --- hasilnya adalah keberhasilan atau kegagalan. Hasil Anda adalah rasio setiap kali Anda menjalankan percobaan , bukan kumpulan keberhasilan dan kegagalan yang kemudian Anda hitung dengan satu rasio ringkasan. Karena itu, metode untuk menghitung interval kepercayaan proporsi binomial akan membuang banyak informasi Anda. Namun Anda benar bahwa itu bermasalah untuk memperlakukan ini seolah-olah itu terdistribusi secara normal karena Anda bisa mendapatkan CI yang melampaui rentang yang mungkin dari variabel Anda.

Saya merekomendasikan untuk memikirkan hal ini dalam hal regresi logistik. Jalankan model regresi logistik dengan variabel rasio Anda sebagai hasil dan tanpa prediktor. Intersep dan CI-nya akan memberikan apa yang Anda butuhkan dalam log, dan kemudian Anda dapat mengubahnya kembali menjadi proporsi. Anda juga dapat melakukan sendiri konversi logistik, menghitung CI dan kemudian mengonversi kembali ke skala asli. Python saya sangat buruk, tapi begini caranya Anda bisa melakukannya di R:

set.seed(24601)
data <- rbeta(100, 10, 3)
hist(data)

data_logits <- log(data/(1-data)) 
hist(data_logits)

# calculate CI for the transformed data
mean_logits <- mean(data_logits)
sd <- sd(data_logits)
n <- length(data_logits)
crit_t99 <- qt(.995, df = n-1) # for a CI99
ci_lo_logits <- mean_logits - crit_t * sd/sqrt(n)
ci_hi_logits <- mean_logits + crit_t * sd/sqrt(n)

# convert back to ratio
mean <- exp(mean_logits)/(1 + exp(mean_logits))
ci_lo <- exp(ci_lo_logits)/(1 + exp(ci_lo_logits))
ci_hi <- exp(ci_hi_logits)/(1 + exp(ci_hi_logits))

Berikut adalah batas bawah dan atas pada CI 99% untuk data ini:

> ci_lo
[1] 0.7738327
> ci_hi
[1] 0.8207924

— Rose Hartman
sumber

Kedengarannya seperti pendekatan yang baik, namun hasilnya tidak seperti yang saya harapkan secara intuitif: Data_logits untuk 0,99,0,94,0,94 adalah 4,59,2.75,2,75, memberikan interval kepercayaan [-2,73,9,47]. Mengubah ini menghasilkan [0,061,0.999] - jauh lebih besar dari yang saya harapkan.

— koalo

1

Untuk hanya tiga pengamatan, Anda harus mengharapkan interval kepercayaan yang sangat besar. Dari histogram Anda, sepertinya Anda memiliki lebih dari tiga pengamatan --- Saya mengasumsikan contoh Anda dengan 0,99,0,94,0,94 hanya untuk menggambarkan. Jika ukuran sampel Anda yang sebenarnya adalah tiga, saya tidak merekomendasikan menghitung interval kepercayaan sama sekali (atau artinya, dalam hal ini).

— Rose Hartman

Histogram di atas berasal dari skrip python untuk menggambarkan masalah saya. Saya tidak bisa mendapatkan banyak pengukuran dari percobaan di dunia nyata. Setidaknya tidak untuk setiap kombinasi parameter. Saya setuju bahwa 3 mungkin terlalu kecil dan mungkin sekitar 10 akan mungkin dalam evaluasi akhir, tetapi tentu saja tidak lebih. Jadi apa yang harus saya lakukan untuk menunjukkan bahwa saya tidak hanya beruntung mendapatkan pengukuran tunggal, tetapi mengulangi percobaan tidak memberikan hasil yang sama sekali berbeda?

— koalo

@RoseHartman Itu deskripsi yang bagus tapi juga menyenangkan melihat metode Anda diterapkan pada sampel data (n = 5) dalam pertanyaan.

— PM.

@scitamehtam Saya menulis jawaban saya sebelum koalo memberikan contoh data dan mengklarifikasi bahwa ukuran sampel akan 10 atau lebih sedikit pengamatan. koalo sejak itu memperbarui pertanyaan asli untuk memasukkan contoh yang dikerjakan dari setiap metode jawaban dengan n = 5 data, sangat membantu.

— Rose Hartman

3

Anda mungkin ingin mencoba resampling / bootstrap. Mari kita lihat kasus sederhana yang Anda sebutkan.

Dengan 3 titik data dari 0,99, 0,94, dan 0,94, Anda bahkan tidak akan melakukan resampling karena Anda hanya bisa mencantumkan semua 27 permutasi yang mungkin, temukan mean dalam setiap kasus, dan kemudian mengurutkan mean.

$25/27=$ $26/27=$

$n$

Pertanyaannya di sini: Bagaimana kita membuat interval kepercayaan untuk parameter dari tes permutasi? memberikan lebih banyak detail, termasuk beberapa kode R.

— soakley
sumber

Seperti yang ditulis dalam komentar lain, n tidak akan "jauh lebih besar dari 3", tetapi mungkin n = 10 adalah mungkin jika diperlukan. Sementara pendekatan ini menjamin bahwa interval kepercayaan saya tidak akan melampaui 1.0, tampaknya sangat meremehkan interval kepercayaan yang diberikan oleh metode lain. Bahkan, itu tidak akan pernah lebih besar dari interval [min, max].

— koalo

Menurut Anda seberapa sering rata-rata berada di luar [min, maks]?

— soakley

Mungkin jarang, tetapi apakah itu juga berarti bahwa jika interval [min, max] cukup kecil untuk membuktikan mendukung klaim saya, saya bisa melupakan interval kepercayaan dan hanya memberikan [min, max]? Dalam pengalaman saya, untuk ukuran sampel kecil, interval kepercayaan agak besar dibandingkan dengan [min, maks].

— koalo

2

Interval kepercayaan binomial telah lama menjadi bahan perdebatan para ahli statistik. Masalah Anda mempertimbangkan rasio kurang dari 100%, tetapi menjadi lebih bermasalah jika kami menggunakan 100%. Salah satu cara berwawasan untuk mengajukan pertanyaan adalah:

Mengingat matahari telah naik tanpa gagal setiap hari selama 2.000 tahun terakhir, berapakah probabilitas bahwa matahari akan terbit besok?

$p=1$

Ada sejumlah metode untuk menghitung ekor ini. Saya akan merekomendasikan memeriksa Wikipedia untuk matematika, atau jika Anda hanya ingin jawabannya, cari kalkulator interval binomial seperti ini (yang kebetulan juga memiliki beberapa penjelasan lebih lanjut tentang matematika di baliknya).

— Tim
sumber

Itu sangat dekat dengan apa yang saya cari, tetapi rumusnya hanya menghitung interval kepercayaan untuk hasil dari satu kali percobaan saya dan bukan interval kepercayaan untuk rata-rata beberapa percobaan.

— koalo

Tidak masalah jika Anda memiliki satu kali proses atau beberapa kali proses, selama penyebutnya (100 paket dalam contoh Anda) tetap sama di semua proses. Menjalankan 3 percobaan dari 100 masing-masing secara matematis sama dengan menjalankan satu percobaan dengan 300 paket, dan Anda dapat menggunakan rumus binomial, tetapi dengan n = 300 dan bukan n = 100. Jika penyebutnya tidak sama, Anda perlu menemukan rata-rata tertimbang (dibobot oleh n's) dan n baru akan menjadi jumlah dari n's.

— Zahava Kor

@ZahavaKor Karena terlalu panjang untuk berkomentar, saya menambahkan suntingan ke pertanyaan saya. Saya tidak mengatakan itu salah, tetapi tidak sesuai dengan pemahaman saya saat ini.

— koalo

2

Pendekatan Bayesian:

$B$ $B$

— Neil G
sumber

p = n / m

$p=n/m$

p

$p$