Menentukan diskritisasi data yang optimal dari distribusi kontinu

Misalkan Anda memiliki kumpulan data dari distribusi kontinu dengan kepadatan didukung pada yang tidak dikenal, tetapi cukup besar sehingga kepadatan kernel (misalnya) estimasi, , cukup akurat. Untuk aplikasi tertentu saya perlu mengubah data yang diamati ke sejumlah kategori terbatas untuk menghasilkan set data baru dengan fungsi massa tersirat . $Y_{1}, ..., Y_{n}$ $p(y)$ $[0,1]$ $n$ $\hat{p}(y)$ $Z_{1}, ..., Z_{n}$ $g(z)$

Contoh sederhana adalah ketika dan ketika . Dalam hal ini fungsi massa yang diinduksi adalah $Z_{i} = 0$ $Y_{i} \leq 1/2$ $Z_{i} = 1$ $Y_{i} > 1/2$

\hat{g} (0) = \int_{0}^{1 / 2} \hat{p} (y) d y, \hat{g} (1) = \int_{1 / 2}^{1} \hat{p} (y) d y

$\hat{g}(0) = \int_{0}^{1/2} \hat{p}(y) dy, \ \ \ \hat{g}(1) = \int_{1/2}^{1} \hat{p}(y)dy$

Dua "parameter penyetelan" di sini adalah jumlah grup, , dan vektor panjang dari ambang batas . Nyatakan fungsi massa terinduksi oleh . $m$ $(m-1)$ $\lambda$ $\hat{g}_{m,\lambda}(y)$

Saya ingin prosedur yang menjawab, misalnya, "Apa pilihan terbaik dari sehingga meningkatkan jumlah grup menjadi (dan memilih optimal di sana) akan menghasilkan peningkatan yang dapat diabaikan?" . Saya merasa seperti mungkin statistik uji dapat dibuat (mungkin dengan perbedaan divergensi KL atau yang serupa) yang distribusinya dapat diturunkan. Adakah ide atau literatur yang relevan? $m, \lambda$ $m+1$ $\lambda$

Sunting: Saya telah meratakan secara temporal pengukuran variabel kontinu dan saya menggunakan rantai Markov tidak homogen untuk memodelkan ketergantungan temporal. Terus terang, rantai markov negara diskrit jauh lebih mudah untuk ditangani dan itu adalah motivasi saya. Data yang diamati adalah persentase. Saat ini saya menggunakan diskritisasi ad hoc yang terlihat sangat bagus bagi saya tetapi saya pikir ini adalah masalah yang menarik di mana solusi formal (dan umum) dimungkinkan.

Sunting 2: Sebenarnya meminimalkan divergensi KL akan sama dengan tidak mendiskreditkan data sama sekali, sehingga gagasan itu benar-benar keluar. Saya telah mengedit tubuhnya sesuai dengan itu.

continuous-data discrete-data

— Makro
sumber

Dalam kebanyakan kasus, kebutuhan aplikasi lanjutan akan menentukan kebaikan solusi apa pun. Mungkin, untuk memberi kami petunjuk, Anda bisa mengatakan lebih banyak tentang itu.

— whuber

Pertama, tentukan apa yang Anda maksud dengan diabaikan . Begitu saja, ini tampaknya terkait dengan masalah tingkat-distorsi . The Penutup & Thomas teks memberikan pengenalan dibaca bagus untuk topik tersebut.

— kardinal

Saya memikirkan diskritisasi dengan level seperti model dengan parameter (untuk ambang batas). Dalam pengaturan ini ketika saya katakan diabaikan saya maksudkan "tidak layak menambahkan parameter tambahan" dalam arti statistik.

k

$k$

k - 1

$k-1$

— Makro

Saya tidak yakin apakah diskritisasi sebenarnya adalah langkah yang baik. Anda tidak akan bisa menggeneralisasi batas yang dibuat oleh nilai-nilai terpisah pada ruang asli pengamatan Anda.

— bayerj

Saya akan membagikan solusi yang saya temukan untuk masalah ini beberapa waktu lalu - ini bukan tes statistik formal tetapi mungkin memberikan heuristik yang berguna.

Pertimbangkan kasus umum di mana Anda memiliki pengamatan terus menerus ; tanpa kehilangan sifat umum misalkan ruang sampel dari setiap pengamatan adalah interval . Skema kategorisasi akan tergantung pada sejumlah kategori, , dan ambang batas lokasi yang membagi kategori, . $Y_{1}, Y_{2}, ..., Y_{n}$ $[0,1]$ $m$ $0 < \lambda_{1} < \lambda_{2} < \cdots < \lambda_{m-1} < 1$

versi yang dikategorikan dari oleh , di mana . Memikirkan diskritisasi data sebagai partisi dari data asli ke dalam kelas, varian dapat dianggap sebagai kombinasi variasi di dalam dan di antara grup, untuk nilai tetap : $Y_{i}$ $Z_{i}(m, {\boldsymbol \lambda})$ ${\boldsymbol \lambda} = \{ \lambda_{1}, \lambda_{2}, \cdots, \lambda_{m-1} \}$ $Y_{i}$ $m, {\boldsymbol \lambda}$

v a r (Y_{i}) = v a r (E (Y_{i} | Z_{i} (m, λ))) + E (v a r (Y_{i} | Z_{i} (m, λ))) .

$\begin{equation} {\rm var}(Y_{i}) = {\rm var} \Big( E(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big) + E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big). \end{equation}$

Kategorisasi yang diberikan berhasil menghasilkan kelompok-kelompok homogen jika ada relatif sedikit di dalam varians kelompok, dikuantifikasi oleh . , kami mencari pengelompokan pelit yang menganugerahkan sebagian besar variasi dalam ke . khususnya, kami ingin memilih sehingga dengan menambahkan level tambahan, kami tidak menambahkan secara signifikan ke dalam homogenitas grup. Dengan pemikiran ini, kami mendefinisikan optimal untuk nilai tetap dari menjadi $E( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}) )$ $Y_{i}$ ${\rm var}( E(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}) )$ $m$ ${\boldsymbol \lambda}$ $m$

λ_{m}^{⋆} = {a r g m i n}_{λ} E (v a r (Y_{i} | Z_{i} (m, λ)))

$\begin{equation} {\boldsymbol \lambda}^{\star}_{m} = {\rm argmin}_{\boldsymbol \lambda} E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big) \end{equation}$

Diagnosis kasar untuk menentukan pilihan mana yang memadai adalah dengan melihat dropoff di sebagai fungsi - lintasan ini monoton tidak meningkat dan setelah menurun tajam, maka Anda dapat melihat bahwa Anda mendapatkan presisi yang relatif kurang dengan memasukkan lebih banyak kategori. Heuristik ini mirip dalam semangat, bagaimana " Scree Plot " kadang-kadang digunakan untuk melihat berapa banyak komponen utama yang menjelaskan "cukup" variasi. $m$ $E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}^{\star}_{m} )) \Big)$ $m$

— Makro
sumber