Studi simulasi: bagaimana memilih jumlah iterasi?

Saya ingin menghasilkan data dengan "Model 1" dan cocok dengan "Model 2". Gagasan yang mendasarinya adalah untuk menyelidiki sifat ketahanan dari "Model 2". Saya sangat tertarik pada tingkat cakupan interval kepercayaan 95% (berdasarkan perkiraan normal).

Bagaimana cara mengatur jumlah iterasi berjalan?
Benarkah replikasi yang lebih besar dari yang diperlukan dapat menyebabkan bias palsu? Jika demikian, bagaimana itu?

simulation monte-carlo

— pengguna7064
sumber

Apa yang Anda maksud dengan "tingkat cakupan interval kepercayaan 95%"? Jika interval kepercayaan tepat atau interval perkiraan yang baik itu mencakup nilai sebenarnya dari parameter sekitar 95% dari waktu.

— Michael R. Chernick

Jika Anda membuat interval kepercayaan berdasarkan Model 2 untuk data yang dihasilkan dalam Model 1, ini menunjukkan bahwa kedua model terkait dan berisi beberapa parameter yang sama. Bisakah Anda jelaskan lebih banyak? Juga, ketika Anda mengatakan "palsu" di poin kedua Anda maksud Anda salah atau tidak penting? Jumlah simulasi yang lebih besar seharusnya tidak menghasilkan bias tetapi bisa mengungkapkan bias yang memiliki sedikit kepentingan praktis yang tidak akan Anda lihat dengan jumlah yang lebih kecil, mirip dengan bagaimana Anda dapat mendeteksi (yaitu mendapatkan signifikansi statistik untuk) efek yang sangat kecil ketika Anda memiliki ukuran sampel yang sangat besar.

— Makro

@Michael Chernick: Under-coverage, misalnya, dapat dicapai jika kesalahan standar terlalu kecil. Saya telah mengedit pertanyaan saya untuk menentukan daripada menggunakan interval kepercayaan berdasarkan perkiraan normal.

— user7064

@ Macro: "Model 1" menghasilkan data normal dengan istilah kesalahan heteroskedastik dan "Model 2" adalah model linier standar.

— user7064

Jawaban:

Berdasarkan komentar tindak lanjut Anda, sepertinya Anda mencoba memperkirakan probabilitas cakupan interval kepercayaan ketika Anda mengasumsikan varians kesalahan konstan ketika varians kesalahan sebenarnya tidak konstan.

Cara saya berpikir tentang ini adalah bahwa, untuk setiap putaran, interval kepercayaan mencakup nilai sebenarnya atau tidak. Tentukan variabel indikator:

Y_{i} = {\begin{cases} 1 & i f t h e i n t e r v a l c o v e r s \\ 0 & i f i t d o e s n o t \end{cases}

$Y_i = \begin{cases} 1 & {\rm if \ the \ interval \ covers} \\ 0 & {\rm if \ it \ does \ not } \end{cases}$

Maka probabilitas cakupan yang Anda minati adalah yang dapat Anda perkirakan berdasarkan proporsi sampel yang menurut saya adalah yang Anda usulkan. $E(Y_i) = p$

Bagaimana cara mengatur jumlah iterasi berjalan?

$p(1-p)$ $p$ $p(1-p)/n$ $n$ $n$

p (1 - p) / n \leq 1 / 4 n

$p(1-p)/n \leq 1/4n$

$\delta$ $n \geq 1/4\delta$

Dalam pengaturan yang lebih umum, jika Anda mencoba untuk menyelidiki sifat-sifat distribusi sampling dari estimator dengan simulasi (misalnya, mean dan varians) maka Anda dapat memilih jumlah simulasi berdasarkan pada seberapa banyak presisi yang ingin Anda capai dalam analog. fashion untuk yang dijelaskan di sini.

$n$ $np$ $n(1-p)$ $20$

Benarkah replikasi yang lebih besar dari yang diperlukan dapat menyebabkan bias palsu? Jika demikian, bagaimana itu?

$94.9999\%$

— Makro
sumber

Saya sering menggunakan lebar interval kepercayaan sebagai cara cepat dan kotor untuk menentukan jumlah iterasi yang diperlukan.

$p$ $X$ $n$ $X\sim {\rm Bin}(n,p)$

$\hat{p}=X/n$ $p$ $\sqrt{p(1-p)/n}$ $n$ $\hat{p}$ $\hat{p}\pm 1.96\sqrt{\hat{p}(1-\hat{p})/n}$ $p$ $p\approx 0.95$ $2\cdot 1.96\sqrt{0.95\cdot 0.05/n}$

$0.1$ $n$

0.1 = 2 \cdot 1.96 \sqrt{0.95 \cdot 0.05 / n} .

$0.1=2\cdot 1.96\sqrt{0.95\cdot 0.05/n}.$

$n$

— MånsT
sumber

(+1) sepertinya kami mengirimkan jawaban yang sangat mirip pada waktu yang hampir bersamaan, tetapi saya rasa bahasa yang berbeda mungkin bermanfaat bagi sebagian orang.

— Makro

Ya, memang, saya masih belum tahu jawaban mana yang harus diterima! Pokoknya, +1 untuk keduanya!

— user7064

@ Macro: +1 juga untuk Anda. Varians dan lebar interval tentu saja kurang lebih sama di sini. Pikiran besar berpikiran sama - dan begitu pula pikiran kita. ;)

— MånsT

n = (2 \cdot 1.65 \sqrt{0.95 \cdot 0.05} / 0.01)^{2}

$n=(2\cdot 1.65 \sqrt{0.95\cdot 0.05}/0.01)^2$

$\dfrac{\text{Population Standard Deviation}}{\sqrt{n}}$ $d$ $95\%$ $d= 1.96 \times \dfrac{\text{Pop.Std.Dev}}{\sqrt{n}}$ $n=\dfrac{ (1.96 \times\text{Pop.Std.Dev})^2}{d^2}$

Melakukan lebih banyak simulasi (dengan asumsi semua sampel dihasilkan oleh proses acak) tidak melakukan apa pun untuk menyakiti estimasi dalam hal akurasi atau bias.

$95\%$ $n$ $\dfrac{p(1-p)}{n}$

— Michael R. Chernick
sumber

Hai @Michael. Saya pikir jawaban ini tidak tepat. OP sedang mencoba menyelidiki bagaimana properti cakupan interval kepercayaan diubah ketika Anda mengasumsikan varians konstan tetapi varians sebenarnya tidak konstan.

— Makro

@ Macro: Anda benar. Saya sengaja mengajukan pertanyaan dalam konteks yang lebih luas untuk menghindari jawaban yang spesifik untuk masalah asumsi varian konstan.

— user7064

@ Macro Itu bukan bagian dari pertanyaan yang saya jawab. Ternyata itu diklarifikasi nanti. Tampaknya juga yang menarik adalah keakuratan interval kepercayaan yang menggunakan perkiraan normal. Ini sepertinya tidak dibahas dalam salah satu jawaban.

— Michael R. Chernick

@Michael, ya saya tahu - poin saya lebih dari yang Anda (dan saya) minta klarifikasi tetapi Anda tidak menunggu klarifikasi sebelum memposting jawaban Anda. Re: komentar kedua Anda, Anda dapat menyelidiki properti cakupan interval apa pun dengan cara ini, terlepas dari apakah itu didasarkan pada perkiraan normal atau tidak. Jika menurut Anda ada sesuatu yang berbeda untuk ditambahkan yang terlewatkan oleh jawaban yang ada maka silakan edit jawaban Anda sehingga kami semua bisa belajar.

— Makro

@ Macro Tentu saja saya setuju dengan Anda. Saya mengedit jawaban saya untuk kepentingan OP. Saya menduga bahwa tidak ada konten yang belum Anda ketahui.

— Michael R. Chernick