Wikipedia melaporkan bahwa di bawah aturan Freedman dan Diaconis, jumlah optimal tempat sampah dalam histogram, harus tumbuh sebagai
di mana adalah ukuran sampel.
Namun, Jika Anda melihat nclass.FD
fungsi dalam R, yang mengimplementasikan aturan ini, setidaknya dengan data Gaussian dan ketika , jumlah tampaknya tumbuh pada tingkat yang lebih cepat daripada , lebih dekat ke (sebenarnya, yang paling cocok menyarankan ). Apa alasan untuk perbedaan ini?
Edit: info lebih lanjut:
Garis adalah OLS satu, dengan mencegat 0.429 dan kemiringan 0.4. Dalam setiap kasus, data ( x
) dihasilkan dari gaussian standar dan dimasukkan ke dalam nclass.FD
. Plot menggambarkan ukuran (panjang) vektor vs jumlah kelas optimal yang dikembalikan oleh nclass.FD
fungsi.
Mengutip dari wikipedia:
Alasan yang bagus mengapa jumlah sampah harus proporsional adalah sebagai berikut: anggaplah bahwa data diperoleh sebagai realisasi n independen dari distribusi probabilitas terbatas dengan kepadatan halus. Maka histogram tetap sama "kasar" karena n cenderung tak hingga. Jika adalah »lebar« dari distribusi (mis., standar deviasi atau kisaran antar kuartil), maka jumlah unit dalam nampan (frekuensi) sesuai urutan dan kesalahan standar relatif adalah urutan . Dibandingkan dengan tempat sampah berikutnya, perubahan relatif dari frekuensi adalah urutandengan ketentuan bahwa turunan dari kerapatan adalah bukan nol. Keduanya memiliki urutan yang sama jika teratur , maka teratur .
Aturan Freedman – Diaconis adalah: