Menemukan ketepatan estimasi simulasi Monte Carlo

Latar Belakang

Saya merancang simulasi Monte Carlo yang menggabungkan output dari serangkaian model, dan saya ingin memastikan bahwa simulasi akan memungkinkan saya untuk membuat klaim yang masuk akal tentang probabilitas hasil simulasi dan ketepatan estimasi probabilitas itu.

Simulasi akan menemukan kemungkinan bahwa juri yang diambil dari komunitas tertentu akan menghukum terdakwa tertentu. Ini adalah langkah-langkah simulasi:

Dengan menggunakan data yang ada, hasilkan model probabilitas logistik ( M ) dengan merundingkan "pemilihan suara juri pertama" pada prediktor demografis.
Gunakan metode Monte Carlo untuk mensimulasikan 1.000 versi M (yaitu, 1.000 versi koefisien untuk parameter model).
Pilih salah satu dari 1.000 versi model ( M _i ).
Empanel 1.000 juri dengan secara acak memilih 1.000 set 12 "juri" dari "komunitas" ( C ) individu dengan distribusi karakteristik demografis tertentu.
Secara deterministik menghitung probabilitas pemungutan suara bersalah pertama untuk setiap anggota juri menggunakan M _i .
Berikan setiap suara "juri" kemungkinan menjadi suara yang menentukan (berdasarkan apakah itu lebih besar atau kurang dari nilai yang dipilih secara acak antara 0-1).
Tentukan masing-masing "suara akhir" juri dengan menggunakan model (yang berasal dari data empiris) dari probabilitas yang akan dijatuhkan oleh juri, tergantung pada proporsi juri yang memberikan suara untuk penghukuman pada pemungutan suara pertama.
Simpan proporsi vonis bersalah untuk 1000 juri ( PG _i ).
Ulangi langkah 3-8 untuk masing-masing 1.000 versi M yang disimulasikan .
Hitung nilai rata-rata dari PG dan laporan bahwa sebagai estimasi titik probabilitas keyakinan di C .
Identifikasi nilai persentil 2,5 & 97,5 untuk PG dan laporkan sebagai interval kepercayaan 0,95.

Saat ini saya menggunakan 1.000 juri dan 1.000 juri pada teori bahwa 1.000 acak diambil dari distribusi probabilitas — karakteristik demografis C atau versi M akan mengisi distribusi itu.

Pertanyaan

Apakah ini memungkinkan saya untuk secara akurat menentukan ketepatan estimasi saya? Jika demikian, berapa banyak juri yang harus saya empanel untuk setiap PG _i perhitungan untuk penutup C 's distribusi probabilitas (jadi saya seleksi menghindari bias); bolehkah saya menggunakan kurang dari 1.000?

Terima kasih banyak atas bantuannya!

— Maggie
sumber

Karena penasaran: apakah ada sesuatu dalam model ini yang bergantung pada apakah terdakwa benar-benar bersalah ?

— whuber

Model ini didasarkan pada respons survei terhadap pola fakta tunggal, sehingga rasa bersalah yang sebenarnya tidak bervariasi. Saya memprediksi bagaimana juri yang berbeda akan keluar dalam satu kasus yang diperebutkan.

— Maggie

OK, bercanda, Anda melaporkan tiga perkiraan: rata-rata dan 2,5 dan 97,5 persen PG. Untuk yang manakah Anda membutuhkan tekad "akurat" dan seberapa akurat itu?

— Whuber

Juga, langkah (6) misterius. Bisakah Anda menjelaskan apa yang seharusnya dilakukan? Apakah ada "nilai yang dipilih secara acak" yang berbeda untuk setiap juri (5), setiap juri (4), masing-masing model (3), atau kombinasi keduanya?

— Whuber

(Lihat komentar di atas) Saya pikir saya bisa mengurangi (a), jumlah juri. Kesalahan pengambilan sampel adalah fungsi dari jumlah sampel. Dengan 1.000 juri per model, saya memiliki total sejuta sampel. Kesalahan pengambilan sampel yang terkait dengan 10 ^ 6 sampel adalah ~ 0,1%. Jika saya hanya menggunakan 35 juri per model, saya akan memiliki 3,5 * 10 ^ 4 sampel, dan ~ 0,5% kesalahan pengambilan sampel. Kesalahan pengambilan sampel ini jauh lebih kecil dari kesalahan pengukuran saya ~ 5,0%. Oleh karena itu, saya harus dapat menggunakan 35 juri per model dan hanya menggunakan kesalahan pengukuran untuk memperkirakan interval kepercayaan saya.

— Maggie

Jawaban:

Ada satu kriteria umum dan "di alam semesta" untuk kebaikan Monte Carlo - konvergensi.

Tetap berpegang pada satu M dan periksa bagaimana PG berlaku dengan jumlah juri - itu harus menyatu, jadi akan menunjukkan kepada Anda sejumlah pengulangan yang Anda akan memiliki jumlah yang signifikan (untuk aplikasi Anda) jumlah digit yang signifikan. Ulangi patokan ini untuk beberapa Ms lainnya untuk memastikan Anda tidak beruntung dengan pilihan M, kemudian lanjutkan ke seluruh simulasi.

tidak yakin ada orang yang sepenuhnya responsif terhadap pertanyaan. Ini memiliki dua bagian: (1) Apakah strategi pemodelan yang dijelaskan menyediakan solusi yang dapat dipertahankan untuk masalah yang ingin dia pecahkan — yaitu, apa kemungkinan juri yang diambil secara acak dari suatu komunitas, C , dengan karakteristik demografis tertentu akan memilih untuk menemukan seorang terdakwa bersalah? Dan (2) Jika strategi pemodelan masuk akal, berapa banyak "juri" yang harus dia pilih, dan berapa banyak "vonis" yang harus dia tiru untuk masing-masing, untuk melaporkan perkiraan yang dapat dipertahankan tentang kemungkinan hukuman & 0,95 CI? Dia ingin berhemat dalam komputasi. Lihat komentar terakhirnya

— dmk38

Tampak bagi saya bahwa masalah di sini adalah apakah model terlalu rumit untuk dilihat tanpa menggunakan simulasi Monte Carlo.

Jika semua model relatif sederhana maka harus dimungkinkan untuk melihatnya melalui statistik conventioanl dan mendapatkan solusi untuk pertanyaan yang diajukan, tanpa menjalankan kembali model beberapa kali. Ini agak terlalu sederhana, tetapi jika semua model Anda lakukan adalah menghasilkan poin berdasarkan distribusi normal, maka Anda dapat dengan mudah memperoleh jenis jawaban yang Anda cari. Tentu saja, jika modelnya sesederhana ini maka Anda tidak mungkin perlu melakukan simulasi Monte Carlo untuk menemukan jawaban Anda.

Jika masalahnya rumit dan tidak mungkin untuk memecahnya menjadi lebih mendasar, Monte-Carlo adalah jenis model yang tepat untuk digunakan, tetapi saya tidak berpikir ada cara untuk mendefinisikan batas kepercayaan tanpa menjalankan model. Pada akhirnya untuk mendapatkan tipe batas kepercayaan yang dijelaskan model harus dijalankan beberapa kali, distribusi probabilitas harus sesuai dengan output dan dari sana batas kepercayaan dapat ditentukan. Salah satu tantangan dengan simulasi Monte-Carlo adalah bahwa model memberikan jawaban yang baik dan teratur untuk distribusi di kisaran menengah tetapi ekor sering memberikan hasil variabel lebih banyak, yang pada akhirnya berarti lebih banyak berjalan untuk menentukan bentuk output pada 2,5% dan 97,5% persentil.

— Ian Turner
sumber