Saya ingin menggabungkan data dari berbagai sumber.
Katakanlah saya ingin memperkirakan properti kimia (misalnya koefisien partisi ):
Saya memiliki beberapa data empiris, bervariasi karena kesalahan pengukuran di sekitar rata-rata.
Dan, kedua, saya memiliki model yang memperkirakan perkiraan dari informasi lain (model juga memiliki beberapa ketidakpastian).
Bagaimana saya bisa menggabungkan kedua set data itu? [Estimasi gabungan akan digunakan dalam model lain sebagai prediktor].
Meta-analisis dan metode bayesian tampaknya cocok. Namun, belum menemukan banyak referensi dan ide bagaimana mengimplementasikannya (saya menggunakan R, tetapi juga akrab dengan python dan C ++).
Terima kasih.
Memperbarui
Oke, ini contoh yang lebih nyata:
Untuk memperkirakan toksisitas bahan kimia (biasanya dinyatakan sebagai = konsentrasi ketika 50% hewan mati) percobaan laboratorium dilakukan. Untungnya hasil percobaan dikumpulkan dalam database (EPA) .
Berikut adalah beberapa nilai untuk insektisida Lindane :
### Toxicity of Lindane in ug/L
epa <- c(850 ,6300 ,6500 ,8000, 1990 ,516, 6442 ,1870, 1870, 2000 ,250 ,62000,
2600,1000,485,1190,1790,390,1790,750000,1000,800
)
hist(log10(epa))
# or in mol / L
# molecular weight of Lindane
mw = 290.83 # [g/mol]
hist(log10(epa/ (mw * 1000000)))
Namun, ada juga beberapa model yang tersedia untuk memprediksi toksisitas dari sifat kimia ( QSAR ). Salah satu model ini memprediksi toksisitas dari koefisien partisi oktanol / air ():
Koefisien partisi Lindane adalah dan toksisitas yang diprediksi adalah .
lkow = 3.8
mod1 <- -0.94 * lkow - 1.33
mod1
Apakah ada cara yang baik untuk menggabungkan dua informasi yang berbeda ini (percobaan laboratorium dan prediksi model)?
hist(log10(epa/ (mw * 1000000)))
abline(v = mod1, col = 'steelblue')
Gabungan akan digunakan nanti dalam model sebagai prediktor. Oleh karena itu, nilai tunggal (gabungan) akan menjadi solusi sederhana.
Namun, distribusi mungkin juga berguna - jika ini dimungkinkan dalam pemodelan (bagaimana?).