Kapan histogram uniform-bin lebih baik daripada bin non-uniform?
Ini membutuhkan semacam identifikasi dari apa yang kami upayakan untuk optimalkan; banyak orang mencoba untuk mengoptimalkan rata-rata kesalahan kuadrat rata-rata terintegrasi, tetapi dalam banyak kasus saya pikir itu agak melenceng dari melakukan histogram; sering (di mataku) 'oversmooths'; untuk alat eksplorasi seperti histogram, saya bisa mentolerir lebih banyak kekasaran, karena kekasaran itu sendiri memberi saya rasa sejauh mana saya harus "menghaluskan" dengan mata; Saya cenderung setidaknya menggandakan jumlah sampah yang biasa dari aturan seperti itu, terkadang jauh lebih banyak. Saya cenderung setuju dengan Andrew Gelman tentang ini; memang jika minat saya benar-benar mendapatkan AIMSE yang baik, saya mungkin tidak seharusnya mempertimbangkan histogram.
Jadi kita perlu kriteria.
Mari saya mulai dengan membahas beberapa opsi histogram area yang tidak sama:
Ada beberapa pendekatan yang melakukan lebih banyak penghalusan (lebih sedikit, tempat sampah yang lebih luas) di daerah dengan kepadatan lebih rendah dan memiliki tempat sampah yang lebih sempit di mana kerapatan lebih tinggi - seperti histogram "sama luas" atau "jumlah sama". Pertanyaan Anda yang diedit tampaknya mempertimbangkan kemungkinan jumlah yang sama.
The histogram
fungsi dalam R lattice
paket dapat menghasilkan kira-kira sama-area bar:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
Celupkan ke kanan bin paling kiri bahkan lebih jelas jika Anda mengambil akar keempat; dengan tempat sampah dengan lebar yang sama Anda tidak dapat melihatnya kecuali jika Anda menggunakan 15 hingga 20 kali lebih banyak tempat sampah, dan kemudian ekor kanan terlihat mengerikan.
Ada histogram dengan jumlah yang sama di sini , dengan kode-R, yang menggunakan sampel-kuantil untuk menemukan jeda.
Misalnya, pada data yang sama seperti di atas, inilah 6 nampan dengan (semoga) masing-masing 8 pengamatan:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
Pertanyaan CV ini menunjuk pada sebuah makalah oleh Denby dan Mallows versi yang dapat diunduh dari sini yang menggambarkan kompromi antara tempat sampah dengan lebar yang sama dan tempat yang sama luasnya.
Ini juga membahas pertanyaan-pertanyaan yang Anda miliki sampai batas tertentu.
Anda mungkin dapat mempertimbangkan masalah tersebut sebagai salah satu dari mengidentifikasi jeda dalam proses Poisson yang konstan-satu. Itu akan menyebabkan pekerjaan seperti ini . Ada juga kemungkinan terkait melihat algoritma tipe clustering / klasifikasi pada (katakanlah) jumlah Poisson, beberapa algoritma yang akan menghasilkan sejumlah sampah. Clustering telah digunakan pada histogram 2D ( gambar , efeknya) untuk mengidentifikasi daerah yang relatif homogen.
-
Jika kami memiliki histogram jumlah yang sama, dan beberapa kriteria untuk dioptimalkan, kami kemudian dapat mencoba rentang jumlah per bin dan mengevaluasi kriteria dengan beberapa cara. Makalah Wand yang disebutkan di sini [ kertas , atau kertas kerja pdf ] dan beberapa rujukannya (misalnya untuk kertas Sheather dkk misalnya) menguraikan perkiraan "colokkan" lebar bin berdasarkan ide perataan kernel untuk mengoptimalkan AIMSE; secara garis besar pendekatan semacam itu harus dapat beradaptasi dengan situasi ini, meskipun saya tidak ingat melihatnya dilakukan.