Mengapa kita harus membahas perilaku konvergensi dari penduga yang berbeda dalam topologi yang berbeda?


14

Dalam bab pertama buku Algebraic Geometry dan Statistical Learning Theory yang berbicara tentang konvergensi estimasi dalam ruang fungsional yang berbeda, disebutkan bahwa estimasi Bayesian sesuai dengan topologi distribusi Schwartz, sedangkan estimasi kemungkinan maksimum sesuai dengan topologi sup-norm. (di halaman 7):

Misalnya, sup-norm, Lp -norm, topologi lemah ruang Hilbert L2 , topologi distribusi Schwartz, dan sebagainya. Ini sangat tergantung pada topologi ruang fungsi apakah konvergensi Kn(w)K(w) bertahan atau tidak. Estimasi Bayes sesuai dengan topologi distribusi Schwartz, sedangkan kemungkinan maksimum atau metode posteriori sesuai dengan sup-norm. Perbedaan ini sangat mempengaruhi hasil belajar dalam model tunggal.

di mana dan K ( w ) masing-masing adalah KL-divergensi empiris (penjumlahan dari pengamatan) dan KL-divergensi yang sebenarnya (integral wrt distribusi data) antara model yang benar dan model parametrik (dengan parameter w ).Kn(w)K(w)w

Adakah yang bisa memberikan penjelasan, atau memberi tahu saya tempat mana di buku yang memiliki justifikasi? Terima kasih.

Pembaruan : konten hak cipta dihapus.


apa itu dan K n ? KKn
Taylor

@Aylor saya menambahkan beberapa informasi yang diperlukan.
ziyuang

Saya akan menjawab pertanyaan Anda nanti, saya tahu buku watanabe relatif baik. Namun saya sangat tidak suka cara Anda mengutip buku. Ini dapat menyebabkan masalah hak cipta potensial jika Anda menempatkan bagian langsung di sini. Menggunakan nomor halaman dan mengetik kutipan dengan bib yang sesuai akan menjadi pilihan yang lebih baik.
Henry.L

@ Henry.L Terima kasih, dan konten hak cipta dihapus.
ziyuang

@ Henry: Walaupun saya percaya ada nilai untuk berhati-hati dan teliti dalam mereproduksi bagian dari karya berhak cipta, saya pikir, dalam hal ini, ziyuang sama sekali tidak perlu dikhawatirkan. Penggunaan kutipan kecil OP untuk kritik ilmiah jatuh sangat tepat dalam doktrin "penggunaan wajar" (AS). Memang, memiliki reproduksi yang tepat kadang-kadang bisa sangat berharga karena menghilangkan ambiguitas yang dapat diperkenalkan oleh penyajian ulang konten. (Semua yang dikatakan, IANAL.)
kardinal

Jawaban:


2

Untuk memahami diskusi Watanabe, penting untuk menyadari apa yang ia maksudkan dengan "singularitas". Singularitas (ketat) bertepatan dengan gagasan geometrik metrik singular dalam teorinya.

hal.10 [Watanabe]: "Model statistik dikatakan teratur jika dapat diidentifikasi dan memiliki metrik pasti positif. Jika model statistik tidak teratur, maka itu disebut singular singular."p(xw)

Dalam praktiknya, singularitas biasanya muncul ketika metrik informasi Fisher diinduksi oleh model di degenerasi pada manifold yang ditentukan oleh model, seperti kasus berpangkat rendah atau jarang dalam karya "pembelajaran mesin".

Apa yang dikatakan Watanabe tentang konvergensi divergensi KL empiris dengan nilai teoretisnya dapat dipahami sebagai berikut. Salah satu asal usul divergensi berasal dari statistik yang kuat. M-estimator, yang termasuk MLE sebagai kasus khusus dengan fungsi kontras , biasanya dibahas menggunakan topologi yang lemah. Adalah masuk akal untuk membahas perilaku konvergensi menggunakan topologi yang lemah atas ruang M ( X ) (manifold dari semua langkah yang mungkin didefinisikan pada ruang Polandia Xρ(θ,δ(X))=logp(Xθ)M(X)X) karena kami ingin mempelajari perilaku ketahanan MLE. Teorema klasik dalam [Huber] menyatakan bahwa dengan fungsi divergensi terpisah dengan baik ( θ 0 , θ ) = E θ 0 ρ ( θ , δ ) . inf | θ - θ 0 | ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0D(θ0,θ)=Eθ0ρ(θ,δ)

inf|θθ0|ϵ(|D(θ0,θ)D(θ0,θ0)|)>0
dan pendekatan empiris yang baik dari fungsi kontras untuk divergensi, bersama dengan keteraturan, kita dapat menghasilkan konsistensi dalam arti ^ θ n :=arg
supθ|1niρ(θ,δ(Xi))D(θ0,θ)|0,n
akan menyatu dengan θ 0 dalam probabilitas P θ 0 . Hasil ini membutuhkan kondisi yang jauh lebih tepat jika kita dibandingkan dengan hasil Doob [Doob] dalam konsistensi yang lemah dari estimator Bayesian.
θn^:=argminθρ(θ,δ(Xn))
θ0Pθ0

Jadi di sini penaksir Bayesian dan MLE menyimpang. Jika kita masih menggunakan topologi yang lemah untuk membahas konsistensi penaksir Bayesian, itu tidak ada artinya karena penaksir Bayesian akan selalu (dengan probabilitas satu) konsisten dengan Doob. Oleh karena itu topologi yang lebih tepat adalah topologi distribusi Schwarz yang memungkinkan derivatif yang lemah dan teori von Mises ikut bermain. Barron memiliki laporan teknis yang sangat bagus tentang topik ini bagaimana kita dapat menggunakan teorema Schwartz untuk mendapatkan konsistensi.

D

"Hasil belajar singular" dipengaruhi karena, seperti yang kita lihat, teorema konsistensi Doob memastikan bahwa estimator Bayesian menjadi lemah secara konsisten (bahkan dalam model tunggal) dalam topologi yang lemah sementara MLE harus memenuhi persyaratan tertentu dalam topologi yang sama.

Hanya satu kata, [Watanabe] bukan untuk pemula. Ini memiliki beberapa implikasi mendalam pada set analitik nyata yang membutuhkan kematangan matematis lebih dari yang dimiliki kebanyakan ahli statistik, jadi mungkin bukan ide yang baik untuk membacanya tanpa bimbingan yang tepat.

Referensi

[Watanabe] Watanabe, Sumio. Geometri aljabar dan teori pembelajaran statistik. Vol. 25. Cambridge University Press, 2009.

[Huber] Huber, Peter J. "Perilaku perkiraan kemungkinan maksimum dalam kondisi tidak standar." Prosiding simposium Berkeley kelima pada statistik matematika dan probabilitas. Vol. 1. No. 1. 1967.

[Doob] Doob, Joseph L. "Penerapan teori martingales." Mendapat perhitungan dengan aplikasi (1949): 23-27.


Saya mencoba memberikan intuisi untuk beberapa bagian dari jawaban jadi koreksi saya jika saya salah. Estimator bayes konsisten jika kita melihatnya sebagai estimator titik (MAP, bukan distribusi probabilistik). Dibutuhkan lebih sedikit kondisi untuk konsistensi daripada MLE secara intuitif karena tindakan sebelumnya sebagai regularisasi. Di sisi lain, topologi distribusi Schwartz lebih cocok ketika kita melihat Bayes estimator sebagai distribusi, itu juga membantu membangun hubungan yang lebih dekat antara konsistensi MLE dan estimator Bayes, sehingga kasus di mana satu divergen dan konvergen lainnya tidak akan terjadi .
ziyuang

Maaf tapi saya pikir penjelasan Anda tidak benar. Sebelumnya bertindak sebagai regularisasi tetapi itu tidak serta merta mengendalikan tingkat konvergensi. Sebenarnya flat rata sebenarnya memperlambat konvergensi. Mereka hanyalah dua topologi yang berbeda.
Henry.L
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.