Apakah pengambilan sampel Latin hypercube efektif dalam berbagai dimensi?


8

Saat ini saya menggunakan Latin Hypercube Sampling (LHS) untuk menghasilkan angka acak seragam spasi baik untuk prosedur Monte Carlo. Walaupun reduksi varians yang saya dapatkan dari LHS sangat bagus untuk 1 dimensi, sepertinya tidak efektif dalam 2 dimensi atau lebih. Melihat bagaimana LHS adalah teknik pengurangan varians yang terkenal, saya bertanya-tanya apakah saya mungkin salah menafsirkan algoritma atau menyalahgunakannya dalam beberapa cara.

Secara khusus, algoritma LHS yang saya gunakan untuk menghasilkan spasi variabel acak seragam dalam dimensi adalah:ND

  • Untuk setiap dimensi , buat satu set angka acak yang terdistribusi secara seragam sedemikian sehingga , ...DN{uD1,uD2...uDN}uD1[0,1N+1]uD2[1N+1,2N+1]uDN[NN+1,1]

  • Untuk setiap dimensi , susun ulang elemen secara acak dari setiap set. pertama diproduksi oleh LHS adalah vektor dimensi mengandung elemen pertama dari setiap himpunan yang disusun ulang, sedangkan kedua diproduksi oleh LHS adalah vektor dimensi berisi vektor kedua elemen dari setiap set yang disusun ulang, dan seterusnya ...D2U(0,1)DDU(0,1)DD

Saya telah memasukkan beberapa plot di bawah ini untuk mengilustrasikan pengurangan varians yang saya dapatkan di dan untuk prosedur Monte Carlo. Dalam kasus ini, masalahnya melibatkan memperkirakan nilai yang diharapkan dari fungsi biaya mana , dan adalah variabel acak dimensi yang didistribusikan antara . Secara khusus, plot menunjukkan rata-rata dan standar deviasi dari 100 rata-rata perkiraan sampel untuk ukuran sampel 1000 hingga 10.000.D=1D=2E[c(x)]c(x)=ϕ(x)xD[5,5]E[c(x)]

LHS untuk $ D = 1 $

LHS untuk $ D = 2 $

Saya mendapatkan jenis hasil pengurangan varians yang sama terlepas dari apakah saya menggunakan implementasi saya sendiri atau lhsdesignfungsi di MATLAB. Juga, pengurangan varians tidak berubah jika saya mengubah urutan semua set angka acak alih-alih hanya yang terkait dengan .D2

Hasilnya masuk akal karena stratified sampling dalam berarti bahwa kita harus mengambil sampel dari kotak daripada kotak yang dijamin akan menyebar dengan baik.D=2N2N

Jawaban:


3

Saya telah membagi masalah yang dijelaskan dalam pos Anda menjadi tiga pertanyaan di bawah ini. Referensi yang baik untuk hasil pada Latin Hypercube Sampling dan teknik pengurangan varians lainnya adalah bab buku ini . Juga, bab buku ini memberikan informasi tentang beberapa 'dasar' pengurangan ragam.

Q0. Apa itu reduksi varian? Sebelum masuk ke perincian, akan sangat membantu untuk mengingat apa arti 'pengurangan varians' sebenarnya. Seperti dijelaskan dalam bab buku 'dasar-dasar', varians kesalahan yang terkait dengan prosedur Monte Carlo biasanya dalam bentuk bawah pengambilan sampel IID. Untuk mengurangi varians kesalahan, kita dapat menambah ukuran sampel atau menemukan cara untuk mengurangi . Pengurangan varians berkaitan dengan cara mengurangi , sehingga metode tersebut mungkin tidak memiliki efek pada cara di mana varians kesalahan berubah sebagai bervariasi.σ2/nnσσn

Q1. Apakah Latin Hypercube Sampling telah diterapkan dengan benar? Deskripsi tertulis Anda tampaknya benar bagi saya dan konsisten dengan deskripsi di bab buku. Satu-satunya komentar saya adalah bahwa rentang variabel tampaknya tidak mengisi seluruh interval unit; tampaknya Anda benar-benar memerlukan , tetapi mudah-mudahan kesalahan ini tidak merambah ke implementasi Anda. Bagaimanapun, fakta bahwa kedua implementasi memberikan hasil yang serupa akan menunjukkan bahwa implementasi Anda cenderung benar.uDiuDi[i1N,iN]

Q2. Apakah hasil Anda konsisten dengan apa yang Anda harapkan dari LHS? Proposisi 10.4 dalam bab buku menyatakan bahwa varians LHS tidak pernah bisa (jauh) lebih buruk daripada varians yang diperoleh dari IID sampling. Seringkali, varian LHS jauh lebih sedikit daripada varian IID. Lebih tepatnya, Proposisi 10.1 menyatakan bahwa, untuk estimasi LHS , kita memiliki mana adalah 'residual from additivity' dari fungsi yaitu minus perkiraan aditif terbaiknya (lihat hal.10 dari bab buku untuk detailnya, adalah aditif jika kita dapat menulisμ^LHS=1ni=1nf(Xi)

Var(μ^LHS)=n1e(x)2dx+o(n1)
e(x)ffff(x)=μ+j=1Dfj(xj) ).

Untuk , setiap fungsi adalah aditif sehingga dan dari Proposisi 10.1. Bahkan, untuk LHS setara dengan stratifikasi berbasis grid (Bagian 10.1 dalam bab buku) sehingga varians sebenarnya (persamaan 10.2 dalam bab buku; mengasumsikan secara terus menerus dapat dibedakan). Ini tampaknya tidak konsisten dengan grafik pertama Anda. Poin utamanya adalah bahwa adalah kasus yang sangat spesial!D=1e=0Var(μ^LHS)=o(n1)D=1O(n3)fD=1

Untuk , kemungkinannya adalah sehingga Anda mungkin mengharapkan varian urutan . Sekali lagi, ini tidak konsisten dengan grafik kedua Anda. Pengurangan varians aktual yang dicapai (dibandingkan dengan pengambilan sampel IID) akan tergantung pada seberapa dekat fungsi yang Anda pilih sebagai aditif.D=2e0O(n1)

Singkatnya, LHS dapat efektif dalam dimensi rendah hingga sedang dan terutama untuk fungsi yang didekati dengan baik oleh fungsi aditif.


2

http://statweb.stanford.edu/~owen/mc/Ch-var-adv.pdf

Makalah ini membahas pengurangan varians dari Latin Hypercube Sampling dalam berbagai dimensi. LHS tidak memaksakan keseragaman ketika pengambilan sampel dalam beberapa dimensi karena hanya sampel di setiap dimensi secara mandiri dan kemudian menggabungkan dimensi secara acak. Pengambilan sampel berstrata N 2 sampah seperti yang Anda sebutkan juga disebut sebagai Pengambilan Sampel Orthogonal sebagaimana dibahas di halaman Wikipedia: https://en.wikipedia.org/wiki/Latin_hypercube_sampling dan lebih banyak lagi memaksakan keseragaman multi-dimensi dengan mengambil sampel dari tempat sampah dari semua dimensi digabungkan sebagai gantinya.

Dengan beberapa penyesuaian gaya sampling ini, varian kesalahan dapat ditunjukkan sebagai O (N -1-2 / d ) (dalam ref di atas). Meskipun ini memberikan keuntungan besar untuk dimensi kecil, dalam dimensi yang lebih besar itu mulai menurunkan kembali ke kinerja Monte Carlo biasa.


1

Saya ingin mengomentari "aditivitas". LHS membuat misalnya memastikan bahwa X1 dan X2 didistribusikan dengan baik (biasanya dalam (0,1)), jadi jika desain hanya bergantung pada satu variabel Anda akan mendapatkan histogram "sempurna" dan pengurangan varian yang kuat. Untuk integrasi f = 100 * X1 + X2 Anda akan mendapatkan hasil yang baik juga, tetapi tidak untuk X1-X2! Perbedaan ini memiliki distribusi acak hampir iid, tidak ada karakteristik LHS. Dalam elektronik, desain sering mengeksploitasi bahwa pengaruh 2 parameter kebanyakan akan membatalkan satu sama lain (pasangan diferensial, cermin saat ini, sirkuit replika, dll.), Tetapi efek ketidakcocokan X1-X2 masih ada dan sering dominan. Dengan demikian analisis MC LHS berperilaku tidak lebih baik daripada MC dalam banyak desain listrik.


Tidak yakin apa artinya ini f=X1X2untuk memiliki "distribusi acak hampir iid, tidak ada karakteristik LHS". Pada kasus inif masih aditif sehingga Anda dapat mengharapkan pengurangan varian yang baik dengan menggunakan LHS, seperti halnya dengan fungsi aditif f=100X1+X2. Anda dapat memverifikasi ini dengan simulasi.
S. Catterall Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.