Di luar kernel Fisher

Untuk sementara, sepertinya Fisher Kernels mungkin menjadi populer, karena mereka tampaknya menjadi cara untuk membangun kernel dari model probabilistik. Namun, saya jarang melihat mereka digunakan dalam praktik, dan saya memiliki otoritas yang baik sehingga mereka cenderung tidak bekerja dengan baik. Mereka mengandalkan perhitungan Informasi Fisher - mengutip Wikipedia:

informasi Fisher adalah negatif dari ekspektasi turunan kedua sehubungan dengan θ dari logaritma natural f. Informasi dapat dilihat sebagai ukuran dari "kelengkungan" dari kurva dukungan dekat perkiraan kemungkinan maksimum (MLE) dari θ.

Sejauh yang saya tahu ini berarti bahwa fungsi kernel antara dua titik adalah kemudian jarak di sepanjang permukaan melengkung ini - apakah saya benar?

Namun ini bisa menjadi masalah untuk digunakan dalam metode kernel, seperti

MLE mungkin merupakan perkiraan yang sangat buruk untuk model yang diberikan
Lengkungan kurva dukungan di sekitar MLE mungkin tidak ada gunanya untuk membedakan antara instance, misalnya jika permukaan Likelihood sangat memuncak
Ini sepertinya membuang banyak informasi tentang model

Jika ini masalahnya, apakah ada cara yang lebih modern untuk membangun kernel dari metode probabilistik? Misalnya, dapatkah kita menggunakan set penahan untuk menggunakan perkiraan MAP dengan cara yang sama? Apa pengertian lain tentang jarak atau kesamaan dari metode probabilistik yang dapat bekerja untuk membangun fungsi kernel (valid)?

— tdc
sumber

Anda benar tentang tiga masalah yang Anda angkat, dan interpretasi Anda benar.

Orang-orang telah melihat ke arah lain untuk membangun kernel dari model probabilistik:

Moreno et al. mengusulkan Kullback-Leibler meskipun ketika ini memuaskan kondisi Mercer tidak dipahami dengan baik ketika saya melihat masalah ini kembali ketika saya membacanya.
Jebara et al. usulkan produk dalam di ruang distribusi. Makalah ini sangat mirip dengan apa yang Anda cari: Anda dapat mengunduhnya di sini .

Saya membacanya beberapa waktu lalu (2008), tidak yakin bagaimana daerah itu telah berevolusi beberapa tahun terakhir.

Ada juga cara non-probabilistik untuk melakukannya; orang-orang di Bioinformatika telah melihat jenis pemrograman dinamis hal-hal dalam ruang string dan sebagainya. Hal-hal ini tidak selalu PSD dan memiliki masalah sendiri.

— carlosdc
sumber

jmlr.org/papers/volume10/martins09a/martins09a.pdf mengembangkan beberapa teori kernel terkait dengan perbedaan KL yang ada dan yang tidak pasti positif.

— Dougal