Saya menggunakan Bayes untuk memecahkan masalah pengelompokan. Setelah melakukan beberapa perhitungan saya berakhir dengan kebutuhan untuk mendapatkan rasio dua probabilitas:
untuk dapat memperoleh . Probabilitas ini diperoleh dengan mengintegrasikan dua KDE multivarian 2D berbeda seperti yang dijelaskan dalam jawaban ini :
di mana dan adalah KDE dan integrasi dilakukan untuk semua titik di bawah ambang batas dan . Kedua KDE menggunakan kernel Gaussian . Gambar representatif dari KDE yang mirip dengan yang saya kerjakan dapat dilihat di sini: Mengintegrasikan penduga kepadatan kernel dalam 2D .
Saya menghitung KDE dengan menggunakan python
fungsi stats.gaussian_kde , jadi saya menganggap bentuk umum sebagai berikut:
di mana n
panjang array poin saya dan h
bandwidth yang digunakan.
Integral di atas dihitung menggunakan proses Monte Carlo yang secara komputasi cukup mahal. Saya telah membaca di suatu tempat (lupa di mana, maaf) bahwa dalam kasus seperti ini dimungkinkan untuk mengganti rasio probabilitas dengan rasio PDF (KDE) yang dievaluasi pada titik ambang untuk mendapatkan hasil yang sama-sama valid. Saya tertarik dengan ini karena menghitung rasio KDEs adalah urutan besarnya lebih cepat daripada menghitung rasio integral dengan MC.
Jadi pertanyaannya direduksi menjadi validitas ungkapan ini:
Dalam keadaan apa, jika ada, dapatkah saya mengatakan bahwa hubungan ini benar?
[kesalahan ketik tetap (EDIT)]
Tambahkan :
Ini pada dasarnya pertanyaan yang sama tetapi dibuat dalam bentuk yang lebih matematis .
P(X)
yang saya coba hindari menghitung. Bisakah Anda memperluas sedikit pada relevansi parameter itu?