Cross memposting pertanyaan saya dari mathoverflow untuk menemukan beberapa bantuan khusus statistik.
Saya sedang mempelajari proses fisik menghasilkan data yang diproyeksikan dengan baik ke dalam dua dimensi dengan nilai-nilai non-negatif. Setiap proses memiliki trek (diproyeksikan) titik - y - lihat gambar di bawah ini.
Jejak sampel berwarna biru, jenis trek yang bermasalah digambar tangan dengan warna hijau, dan wilayah yang menjadi perhatian digambar dengan warna merah:
Setiap lagu adalah hasil dari percobaan independen. Dua puluh juta percobaan telah dilakukan selama beberapa tahun, tetapi dari hanya dua ribu yang menunjukkan fitur yang kami plot sebagai trek. Kami hanya peduli dengan eksperimen yang menghasilkan trek, sehingga kumpulan data kami adalah (kurang lebih) dua ribu trek.
Bagaimana kita bisa menghitung kemungkinan trek sewenang-wenang memasuki wilayah yang menjadi perhatian?
Tidak mungkin melakukan eksperimen dengan cukup cepat untuk melihat seberapa sering trek dihasilkan yang memasuki wilayah yang menjadi perhatian, jadi kita perlu memperkirakan dari data yang tersedia.
Kami telah memasang jarak minimum dari setiap trek ke wilayah yang menjadi perhatian, tetapi kami tidak yakin ini menghasilkan hasil yang dapat dibenarkan.
1) Apakah ada cara yang diketahui untuk menyesuaikan distribusi dengan tipe data ini untuk ekstrapolasi?
-atau-
2) Apakah ada cara yang jelas untuk menggunakan data ini untuk membuat model untuk menghasilkan trek? Misalnya, gunakan analisis komponen utama pada trek sebagai titik dalam ruang yang besar, lalu paskan distribusi (Pearson?) Ke trek yang diproyeksikan ke komponen tersebut.