Saya menggunakan proses Gaussian (GP) untuk regresi.
Dalam masalah saya, cukup umum untuk dua atau lebih titik data saling berdekatan, relatif dengan panjangnya skala masalah. Juga, pengamatan bisa sangat bising. Untuk mempercepat perhitungan dan meningkatkan presisi pengukuran , tampaknya wajar untuk menggabungkan / mengintegrasikan kelompok titik yang dekat satu sama lain, selama saya peduli dengan prediksi pada skala panjang yang lebih besar.
Saya bertanya-tanya apa cara cepat tetapi semi-berprinsip dalam melakukan ini.
Jika dua titik data tumpang tindih dengan sempurna, , dan noise pengamatan (yaitu, kemungkinan) adalah Gaussian, mungkin heteroskedastik tetapi diketahui , cara alami proses tampaknya menggabungkan mereka dalam satu titik data tunggal dengan:
, untuk .
Nilai yang diamati yang merupakan rata-rata dari nilai yang diamati dibobot dengan presisi relatifnya: .
Kebisingan yang terkait dengan pengamatan sama dengan: .
Namun, bagaimana saya harus menggabungkan dua poin yang dekat tetapi tidak tumpang tindih?
Saya pikir masih harus menjadi rata-rata tertimbang dari dua posisi, sekali lagi menggunakan reliabilitas relatif. Alasannya adalah argumen pusat-massa (yaitu, pikirkan pengamatan yang sangat tepat sebagai setumpuk pengamatan yang kurang tepat).
Untuk rumus yang sama seperti di atas.
Untuk kebisingan yang terkait dengan pengamatan, saya bertanya-tanya apakah selain rumus di atas saya harus menambahkan istilah koreksi ke kebisingan karena saya memindahkan titik data di sekitar. Pada dasarnya, saya akan mendapatkan peningkatan dalam ketidakpastian yang terkait dengan dan (masing-masing, varian sinyal dan skala panjang fungsi kovarians). Saya tidak yakin dengan bentuk istilah ini, tetapi saya memiliki beberapa ide tentatif tentang bagaimana menghitungnya mengingat fungsi kovarians.
Sebelum melanjutkan, saya bertanya-tanya apakah sudah ada sesuatu di luar sana; dan jika ini tampaknya cara yang masuk akal untuk melanjutkan, atau ada metode cepat yang lebih baik .
Hal terdekat yang bisa saya temukan dalam literatur adalah makalah ini: E. Snelson dan Z. Ghahramani, Sparse Gaussian Processes menggunakan Pseudo-input , NIPS '05; tetapi metode mereka (relatif) terlibat, membutuhkan optimasi untuk menemukan pseudo-input.