Saran saya umumnya adalah bahwa itu bahkan lebih penting daripada dalam 1-D untuk memuluskan jika memungkinkan yaitu melakukan sesuatu seperti estimasi kepadatan kernel (atau beberapa metode lain, seperti estimasi log-spline), yang cenderung jauh lebih efisien daripada menggunakan histogram. Seperti yang ditunjukkan oleh whuber, sangat mungkin untuk dibodohi oleh penampilan histogram, terutama dengan beberapa nampan dan ukuran sampel kecil hingga sedang.
Jika Anda mencoba untuk mengoptimalkan mean squared error kuadrat (MISE), katakanlah, ada aturan yang berlaku di dimensi yang lebih tinggi (jumlah tempat sampah tergantung pada jumlah pengamatan, varians, dimensi, dan "bentuk"), untuk estimasi kepadatan kernel dan histogram.
[Memang banyak masalah untuk satu juga masalah untuk yang lain, sehingga beberapa informasi dalam hal ini artikel wikipedia akan relevan.]
Ketergantungan pada bentuk ini tampaknya menyiratkan bahwa untuk memilih secara optimal, Anda sudah perlu tahu apa yang Anda rencanakan. Namun, jika Anda siap untuk membuat beberapa asumsi yang masuk akal, Anda dapat menggunakannya (jadi misalnya, beberapa orang mungkin mengatakan "kira-kira Gaussian"), atau sebagai alternatif, Anda dapat menggunakan beberapa bentuk penduga "plug-in" yang sesuai. fungsional.
Wand, 1997 mencakup kasus 1-D. Jika Anda bisa mendapatkan artikel itu, lihat apa yang ada juga relevan dengan situasi di dimensi yang lebih tinggi (sejauh jenis analisis yang dilakukan). (Itu ada dalam bentuk kertas kerja di internet jika Anda tidak memiliki akses ke jurnal.)[ 1 ]
Analisis dalam dimensi yang lebih tinggi agak lebih rumit (dalam cara yang hampir sama ia melanjutkan dari 1-D ke r-dimensi untuk estimasi kepadatan kernel), tetapi ada istilah dalam dimensi yang datang ke dalam kekuatan n.
Sec 3.4 Eqn 3.61 (p83) dari Scott, 1992 memberikan binwidth optimal asimptotik:[ 2 ]
h∗= R (fk)- 1 / 2( 6∏di = 1R (fsaya)1 / 2)1 / ( 2 + d)n- 1 / ( 2 + d)
di mana adalah istilah kekasaran (bukan satu-satunya yang mungkin), dan saya percaya adalah turunan dari sehubungan dengan istilah dalam .R(f)=∫Rdf(x)2dxfifithx
Jadi untuk 2D yang menyarankan binwidth yang menyusut sebagai .n−1/4
Dalam kasus variabel normal independen, aturan perkiraannya adalah , di mana adalah binwidth dalam dimensi , tanda menunjukkan nilai optimal asimptotik, dan adalah simpangan baku populasi dalam dimensi .h∗k≈3.5σkn−1/(2+d)hkk∗σkk
Untuk bivariat normal dengan korelasi , binwidth adalahρ
h∗i=3.504σi(1−ρ2)3/8n−1/4
Ketika distribusinya miring, atau berekor berat, atau multimodal, umumnya hasil binwidth yang jauh lebih kecil; akibatnya hasil yang normal akan sering berada di batas atas pada bindwith.
Tentu saja, sangat mungkin Anda tidak tertarik pada rata-rata kesalahan kuadrat terintegrasi, tetapi dalam beberapa kriteria lainnya.
[1]: Wand, MP (1997),
"Pilihan data berdasarkan lebar histogram bin",
American Statistician 51 , 59-64
[2]: Scott, DW (1992),
Estimasi Kepadatan Multivariat: Teori, Praktik, dan Visualisasi ,
John Wiley & Sons, Inc., Hoboken, NJ, USA.