Ini harus dengan mudah diselesaikan menggunakan inferensi bayesian. Anda tahu properti pengukuran poin individu sehubungan dengan nilai sebenarnya dan ingin menyimpulkan mean populasi dan SD yang menghasilkan nilai sebenarnya. Ini adalah model hierarkis.
Mengulangi masalah (Dasar-dasar Bayes)
Perhatikan bahwa sementara statistik ortodoks memberi Anda rata-rata tunggal, dalam kerangka bayesian Anda mendapatkan distribusi nilai yang kredibel dari rata-rata. Misalnya pengamatan (1, 2, 3) dengan SD (2, 2, 3) bisa dihasilkan oleh Estimasi Kemungkinan Maksimum 2 tetapi juga dengan rata-rata 2,1 atau 1,8, meskipun sedikit lebih kecil kemungkinannya (mengingat data) daripada MLE. Jadi selain SD, kami juga menyimpulkan rerata .
Perbedaan konseptual lain adalah bahwa Anda harus mendefinisikan keadaan pengetahuan Anda sebelum melakukan pengamatan. Kami menyebutnya prior . Anda mungkin tahu sebelumnya bahwa area tertentu dipindai dan dalam kisaran ketinggian tertentu. Ketiadaan sama sekali pengetahuan akan memiliki derajat seragam (-90, 90) seperti pada X dan Y sebelumnya dan mungkin seragam (0, 10.000) meter pada ketinggian (di atas laut, di bawah titik tertinggi di bumi). Anda harus menentukan distribusi prior untuk semua parameter yang ingin Anda perkirakan, yaitu mendapatkan distribusi posterior untuk. Ini berlaku untuk deviasi standar juga.
Jadi, ulangi masalah Anda, saya berasumsi bahwa Anda ingin menyimpulkan nilai yang dapat dipercaya untuk tiga cara (X.mean, Y.mean, X.mean) dan tiga standar deviasi (X.sd, Y.sd, X.sd) yang dapat memiliki menghasilkan data Anda.
Model
Menggunakan sintaks BUGS standar (menggunakan WinBUGS, OpenBUGS, JAGS, stan atau paket lain untuk menjalankan ini), model Anda akan terlihat seperti ini:
model {
# Set priors on population parameters
X.mean ~ dunif(-90, 90)
Y.mean ~ dunif(-90, 90)
Z.mean ~ dunif(0, 10000)
X.sd ~ dunif(0, 10) # use something with better properties, i.e. Jeffreys prior.
Y.sd ~ dunif(0, 10)
Z.sd ~ dunif(0, 100)
# Loop through data (or: set up plates)
# assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
for(i in 1:n.obs) {
# The true value was generated from population parameters
X[i] ~ dnorm(X.mean, X.sd^-2) #^-2 converts from SD to precision
Y[i] ~ dnorm(Y.mean, Y.sd^-2)
Z[i] ~ dnorm(Z.mean, Z.sd^-2)
# The observation was generated from the true value and a known measurement error
d[i, 1] ~ dnorm(X[i], d[i, 2]^-2) #^-2 converts from SD to precision
d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
}
}
Secara alami, Anda memonitor parameter .mean dan .sd dan menggunakan posisinya untuk inferensi.
Simulasi
Saya mensimulasikan beberapa data seperti ini:
# Simulate 500 data points
x = rnorm(500, -10, 5) # mean -10, sd 5
y = rnorm(500, 20, 5) # mean 20, sd 4
z = rnorm(500, 2000, 10) # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3) # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]
Kemudian jalankan model menggunakan JAGS untuk 2000 iterasi setelah membakar 500 iterasi. Inilah hasil untuk X.sd.
Kisaran biru menunjukkan 95% Kepadatan Posterior Tertinggi atau interval Kredibel (di mana Anda yakin parameternya setelah mengamati data. Perhatikan bahwa interval kepercayaan ortodoks tidak memberi Anda ini).
Garis vertikal merah adalah perkiraan MLE dari data mentah. Biasanya, parameter yang paling mungkin dalam estimasi Bayesian juga merupakan parameter (kemungkinan maksimum) yang paling mungkin dalam statistik ortodoks. Tetapi Anda tidak perlu terlalu peduli dengan bagian atas posterior. Nilai tengah atau median lebih baik jika Anda ingin merebusnya menjadi satu nomor.
Perhatikan bahwa MLE / top bukan pada 5 karena data dihasilkan secara acak, bukan karena statistik yang salah.
Batasan
Ini adalah model sederhana yang memiliki beberapa kekurangan saat ini.
- Itu tidak menangani identitas -90 dan 90 derajat. Ini dapat dilakukan, bagaimanapun, dengan membuat beberapa variabel perantara yang menggeser nilai ekstrim dari estimasi parameter ke dalam rentang (-90, 90).
- X, Y dan Z saat ini dimodelkan sebagai independen meskipun mereka mungkin berkorelasi dan ini harus diperhitungkan untuk mendapatkan hasil maksimal dari data. Itu tergantung pada apakah perangkat pengukuran bergerak (korelasi serial dan distribusi gabungan X, Y dan Z akan memberi Anda banyak informasi) atau berdiri diam (independensi baik-baik saja). Saya dapat memperluas jawaban untuk mendekati ini, jika diminta.
Saya harus menyebutkan bahwa ada banyak literatur tentang model spasial Bayesian yang saya tidak ketahui.