Misalkan Anda memiliki kumpulan data dari distribusi kontinu dengan kepadatan didukung pada yang tidak dikenal, tetapi cukup besar sehingga kepadatan kernel (misalnya) estimasi, , cukup akurat. Untuk aplikasi tertentu saya perlu mengubah data yang diamati ke sejumlah kategori terbatas untuk menghasilkan set data baru dengan fungsi massa tersirat .
Contoh sederhana adalah ketika dan ketika . Dalam hal ini fungsi massa yang diinduksi adalah
Dua "parameter penyetelan" di sini adalah jumlah grup, , dan vektor panjang dari ambang batas . Nyatakan fungsi massa terinduksi oleh .
Saya ingin prosedur yang menjawab, misalnya, "Apa pilihan terbaik dari sehingga meningkatkan jumlah grup menjadi (dan memilih optimal di sana) akan menghasilkan peningkatan yang dapat diabaikan?" . Saya merasa seperti mungkin statistik uji dapat dibuat (mungkin dengan perbedaan divergensi KL atau yang serupa) yang distribusinya dapat diturunkan. Adakah ide atau literatur yang relevan?
Sunting: Saya telah meratakan secara temporal pengukuran variabel kontinu dan saya menggunakan rantai Markov tidak homogen untuk memodelkan ketergantungan temporal. Terus terang, rantai markov negara diskrit jauh lebih mudah untuk ditangani dan itu adalah motivasi saya. Data yang diamati adalah persentase. Saat ini saya menggunakan diskritisasi ad hoc yang terlihat sangat bagus bagi saya tetapi saya pikir ini adalah masalah yang menarik di mana solusi formal (dan umum) dimungkinkan.
Sunting 2: Sebenarnya meminimalkan divergensi KL akan sama dengan tidak mendiskreditkan data sama sekali, sehingga gagasan itu benar-benar keluar. Saya telah mengedit tubuhnya sesuai dengan itu.