Proses Gaussian dengan area pengambilan sampel terbatas

Saya minta maaf sebelumnya jika pertanyaan ini diajukan dengan buruk: Saya seorang astronom, bukan ahli statistik. Pertanyaan saya secara khusus bertujuan untuk membantu saya mencari tahu apakah proses Gaussian adalah teknik yang tepat untuk masalah saya.

Menggunakan teleskop dan spektrograf pengumpanan serat, proyek saya telah mengambil spektrum optik galaksi di banyak lokasi. Pola pengambilan sampel untuk satu titik menunjuk pada gambar pertama, dan diulang total tiga kali, dengan offset spasial yang berbeda, untuk mengisi kekosongan (gambar kedua). Idealnya, saya ingin membuat perkiraan jumlah tertentu di atas kisi yang menutupi galaksi.

Metode naif saya adalah menganalisis setiap spektrum serat secara terpisah, sehingga saya memiliki titik-perkiraan jumlah bunga, dan kemudian membangun proses Gaussian untuk memperkirakan jumlah tersebut di mana-mana. Demikian pula, saya bisa membuat proses Gaussian untuk spektra itu sendiri, kemudian menganalisis GP pada grid pilihan saya untuk menemukan jumlah yang saya minati. Namun, saya tidak yakin ini bahkan merupakan pendekatan yang valid, karena pengamatan saya adalah bukan diskrit, melainkan bertepatan. $3 N_{fibers}$

Tidak seperti, misalnya, ilmuwan tanah, yang mungkin mengambil sampel tanah dari lokasi yang sangat berbeda, dan kemudian bergerak 50 meter & mengulangi, pengamatan saya tumpang tindih secara spasial, jadi saya mengintegrasikan semua cahaya yang diberikan oleh galaksi. Tidak jelas bagi saya bahwa saya akan diizinkan untuk mengabaikan variasi spasial yang mungkin ada dalam pengukuran tertentu. Dengan kata lain, apakah proses Gaussian bahkan valid ketika lokasi pengambilan sampel individu tidak kecil? Dapatkah saya membangun istilah spasial tambahan untuk menjelaskan "pencampuran" cahaya dalam satu serat?

Tambahan: Secara tradisional, spektra hanya diinterpolasi, diamplas pada grid, dan kemudian dianalisis, yang juga menurut saya sangat salah - tetapi jika saya akan menghujani parade kolega, setidaknya saya ingin menyajikan metode alternatif.

gaussian-process

— DathosPachy
sumber

Jawaban:

Saya pikir dua pertanyaan Anda mengatasi masalah ini. Sepertinya Anda dapat menggunakan dokter untuk beberapa bagian dari masalah tetapi Anda mungkin perlu berbuat lebih banyak. Untuk menjelaskan masalah yang saya lihat, pertama-tama saya akan menerjemahkan pemahaman saya tentang masalah Anda ke dalam bahasa yang lebih matematis:

Masalah

Anda tertarik pada kuantitas fisik ("spektra"?) Di mana adalah titik di beberapa domain pesawat (foto Anda). adalah skalar yaitu angka tunggal untuk setiap titik pesawat. Anda tidak dapat mengamati secara langsung, Anda hanya dapat mengamati beberapa rata-rata spasial dari itu pada beberapa titik dari kotak. Yaitu Anda amatiThe adalah berbagai disk tumpang tindih dalam foto Anda. Anda tidak menyebutkannya tetapi mungkin juga ada beberapa noise pengukuran dalam pengamatan Anda, maka Anda perlu menambahkan istilah noise pada RHS. $f(x)$ $x$ $f$ $f$ $F$ $s_k$

F (s_{k}) = \int_{D_{k}} f (x) d x .

$F(s_k) = \int_{D_k} f(x)dx.$

D_{k}

$D_k$

ϵ

$\epsilon$

Bagaimana dengan dokter?

Ini benar-benar OK untuk menyesuaikan GP untuk pengamatan Anda dan Anda akan mendapatkan pendekatan GP valid atau interpolasi dari . GP benar-benar tidak peduli bahwa Anda dibuat dari disk yang tumpang tindih, itu akan mencatat dan mencerminkan jumlah korelasi yang tepat untuk nilai-nilai yang cukup dekat satu sama lain. Masalahnya tentu saja ini akan menghasilkan GP untuk bukan satu untuk . Dan tidak akan menjadi pendekatan (baik / masuk akal) dari kecuali lebih atau kurang konstan pada . $F$ $F$ $F$ $f$ $F$ $f$ $f$ $D_k$

Bagaimana memulihkan ? $f$

Ada berbagai cara untuk memulihkan dari . Apa yang bisa dilakukan atau bahkan "terbaik" tergantung pada kebutuhan spesifik Anda dan perincian masalahnya. Karena Anda tahu fungsi rata-rata dari secara eksplisit, Anda dapat mencoba beberapa bentuk dekonvolusi numerik. $f$ $F$ $m_F$ $F$

Cara yang berjiwa lebih GP adalah membuat asumsi bahwa adalah GP dengan fungsi rata-rata dan fungsi kovarians . Teori matematika memberi tahu Anda bahwa adalah GP juga dengan fungsi rata-rata dan kovarian . $f$ $m$ $K$ $F$

m_{F} (s) = \int_{D_{s}} m (x) d x

$m_F(s) = \int_{D_s}m(x)dx$

K_{F} (s_{1}, s_{2}) = \int_{D_{s_{1}}} \int_{D_{s_{2}}} K (x_{1}, x_{2}) d x_{1} d x_{2}

$K_F(s_1,s_2) = \int_{D_{s_1}}\int_{D_{s_2}} K(x_1,x_2)dx_1dx_2$

Teorema representer untuk rata-rata GP memberitahu Anda kemudian bahwa dan Anda dapat menyimpulkan dengan membandingkan koefisien yang $m_F(s) = \sum_k \alpha_k K_F(s_k,s)$

m (s) = \sum_{k} α_{k} \int_{D_{k}} K (x, s) d x .

$m(s) = \sum_k \alpha_k \int_{D_k} K(x,s) dx.$

Anda juga dapat memperoleh distribusi prediksi pada titik dengan mencatat bahwa dan pengamatan memiliki distribusi normal bersama dan Anda dapat mengkondisikan pada pengamatan . Rumus menjadi rumit meskipun tetapi mereka langsung (lihat makalah ini Persamaan (8) dan (9)) $s^*$ $f(s^*)$ $F$ $F$

Masalahnya adalah pada sisi praktisnya: Anda juga perlu menemukan kernel dari pilihan Anda yang mungkin sulit atau Anda mulai dengan sehingga (i) Anda dapat menghitung DAN (ii) bekerja cukup baik untuk pengamatan Anda DAN (iii) masuk akal sebagai model untuk data astronomi Anda. $K$ $K_F$ $K$ $K_F$ $K_F$ $K$

— gg
sumber

Diskusi yang bagus. Bisakah kita bayangkan sebagai prosedur seperti: 1) Perluas F pada fungsi-fungsi dasar yang dipilih, 2) Perkirakan vektor parameter dan konstruk , 3) Ambil turunan dari untuk memulihkan ?

\hat{F}

$\hat{F}$

\hat{F}

$\hat{F}$

\hat{f}

$\hat{f}$

— dv_bn

Ya tetapi langkah 3 hanya berfungsi dalam satu dimensi, bukan dalam dua seperti halnya di sini.

— gg

Bahkan jika Anda mengambil turunan terarah?

— dv_bn

Terima kasih atas diskusi yang sangat menyeluruh ini. Itu telah memberi saya banyak hal untuk dipikirkan!

— DathosPachy

Ada topik dalam geostatistik yang disebut Exact Downscaling. Tujuan utama di sini adalah untuk memperkirakan properti pada skala yang lebih kecil dari pengamatan. Juga pengamatan ini mungkin tumpang tindih atau tidak (tidak terlalu penting). Silakan lihat makalah ini: http://www.ccgalberta.com/ccgresources/report07/2005-101-exact_reproduction.pdf

Dalam tulisan ini, mereka menunjukkan metode untuk menurunkan skala pengamatan menggunakan teknik geostatistik. Mereka menunjukkan bahwa dengan menghitung kovariansi lintas dengan benar antara skala data yang berbeda (titik vs blok) estimasi kriging masih valid; sedemikian rupa sehingga rata-rata nilai estimasi pada skala yang lebih kecil sama dengan data input yang lebih besar. Pada dasarnya, untuk menghitung nilai estimasi dalam skala apa pun, Anda hanya perlu menghitung fungsi kovarians antara data input, skala target, dan korelasi silang dengan benar. Pada Proses Gaussian, asumsinya adalah bahwa estimasi sedang dilakukan pada skala yang sama dengan pengamatan input.

Jadi ini adalah langkah-langkahnya: 1- Hitung variogram eksperimental dari data Anda.

2- Pasangkan model variogram dengan variogam pengalaman Anda. Anda mungkin perlu menjelaskan anisotropi terarah di sini. Ini adalah fungsi kovarians yang dalam GP dihitung dengan metode kemungkinan maksimum.

3- Hitung semua kovariansi dan kovariansi silang antara data input dan skala target. Ada tanda terima numerik untuk langkah ini. Idenya adalah bahwa dengan mendiskritisasi blok menjadi poin yang terbatas, Anda dapat menghitung kovarians rata-rata. Data yang tumpang tindih harus diperhitungkan di sini.

4- melakukan Kriging dan menghitung nilai estimasi.

GP adalah topik yang sangat terkait dengan geostatistik. Namun, geostatistik tidak terbatas pada proses Gaussian. Ada banyak metode lain untuk memperkirakan atau mensimulasikan proses acak.

— Behrang
sumber

Selamat datang di situs ini. Kami mencoba membangun repositori permanen untuk informasi statistik berkualitas tinggi dalam bentuk pertanyaan & jawaban. Karenanya, kami waspada terhadap jawaban tautan saja, karena tautannya. Bisakah Anda memposting kutipan lengkap & ringkasan informasi di tautan, kalau-kalau mati?

— gung - Reinstate Monica