Ada kasus yang baik untuk memiliki sejumlah besar tempat sampah, misalnya tempat sampah untuk setiap nilai yang memungkinkan, kapan pun diduga bahwa detail histogram tidak akan berisik, tetapi struktur halus yang menarik atau penting.
Ini tidak terhubung langsung dengan motivasi yang tepat untuk pertanyaan ini, menginginkan aturan otomatis untuk beberapa tempat sampah yang optimal, tetapi ini relevan dengan pertanyaan secara keseluruhan.
Mari kita segera beralih ke contoh. Dalam demografi, pembulatan usia yang dilaporkan adalah umum, terutama tetapi tidak hanya di negara-negara dengan melek huruf yang terbatas. Apa yang bisa terjadi adalah bahwa banyak orang tidak tahu tanggal lahir mereka yang sebenarnya, atau ada alasan sosial atau pribadi baik untuk mengecilkan atau untuk melebih-lebihkan usia mereka. Sejarah militer penuh dengan contoh orang-orang yang berbohong tentang usia mereka baik untuk menghindari atau mencari layanan di angkatan bersenjata. Memang banyak pembaca akan mengenal seseorang yang sangat malu-malu atau tidak jujur tentang usia mereka, bahkan jika mereka tidak berbohong tentang hal itu pada sensus. Hasil bersih bervariasi tetapi seperti yang sudah tersirat biasanya pembulatan, misalnya usia yang berakhir pada 0 dan 5 jauh lebih umum daripada usia satu tahun kurang atau lebih.
∘⋯
Kebetulan, melihat digit terakhir dari data yang dilaporkan adalah metode sederhana dan bagus untuk memeriksa data palsu, metode yang jauh lebih mudah dipahami dan tidak terlalu bermasalah daripada pengamatan modern atas digit pertama dengan banding ke Hukum Benford.
Hasilnya untuk histogram sekarang harus jelas. Presentasi seperti spike dapat berfungsi untuk menunjukkan, atau lebih umum untuk memeriksa, struktur halus semacam ini. Tentu saja, jika tidak ada yang menarik yang dapat dilihat, grafiknya mungkin tidak banyak berguna.
Salah satu contoh menunjukkan penumpukan usia dari sensus Ghana untuk tahun 1960. Lihat http://www.stata.com/manuals13/rspikeplot.pdf
Ada ulasan yang bagus tentang distribusi angka akhir di Indonesia
Preece, DA 1981. Distribusi angka akhir dalam data. Statistician 30: 31-60.
Catatan tentang terminologi: beberapa orang menulis tentang nilai-nilai unik dari suatu variabel ketika mereka akan lebih baik berbicara tentang nilai-nilai yang berbeda dari suatu variabel. Kamus dan panduan penggunaan masih menyarankan bahwa "unik" berarti hanya terjadi satu kali. Dengan demikian usia yang dilaporkan berbeda dari suatu populasi dapat berupa, dalam tahun, 0, 1, 2, dll. Tetapi sebagian besar usia tersebut tidak akan unik untuk satu orang.