Apakah ada batas atas jumlah interval dalam histogram?


10

Saya sudah membaca beberapa artikel dan kutipan dari buku-buku yang menjelaskan bagaimana untuk memilih yang baik jumlah interval (sampah) untuk histogram dari satu set data, tapi aku bertanya-tanya apakah ada hard maksimum jumlah interval berdasarkan jumlah poin di kumpulan data, atau kriteria lain.

Latar Belakang: Alasan saya bertanya adalah saya mencoba menulis perangkat lunak berdasarkan prosedur dari makalah penelitian. Salah satu langkah dalam prosedur ini adalah membuat beberapa histogram dari kumpulan data, kemudian memilih resolusi optimal berdasarkan fungsi karakteristik (didefinisikan oleh penulis makalah ini). Masalah saya adalah bahwa penulis tidak menyebutkan batas atas untuk jumlah interval yang akan diuji. (Saya memiliki ratusan set data untuk dianalisis, dan masing-masing dapat memiliki jumlah "optimal" sampah yang berbeda. Juga, penting bahwa jumlah optimal sampah dipilih, jadi secara manual melihat hasilnya dan memilih yang baik tidak akan kerja.)

Apakah hanya menetapkan jumlah interval maksimum menjadi jumlah poin dalam kumpulan data menjadi pedoman yang baik, atau adakah kriteria lain yang biasanya digunakan dalam statistik?


Apakah yang Anda maksud adalah nampan berukuran sama (yaitu nampan, yang memiliki interval yang sama)?
Adam Ryczkowski

Saya percaya bahwa jawabannya akan tergantung pada algoritma yang Anda coba terapkan. Saya pikir pertanyaannya tidak lengkap jika Anda tidak memberikan tautan ke makalah penelitian itu.
Adam Ryczkowski

Jumlah poin tentu saja maksimum secara teoretis, tetapi itu hampir tidak akan menjadi histogram, itu akan menjadi strip plot yang diformat aneh atau plot karpet.
Peter Flom

1
Sebenarnya, jumlah poin BUKAN benar-benar maksimal, maaf, saya tidak punya cukup kopi! Beberapa nampan akan bernilai 0. misalkan (untuk contoh sederhana yang sangat sederhana) bahwa Anda memiliki 3 poin: 1.02 2.21 dan 5.92. Jika Anda benar-benar menginginkan jumlah sampah maksimum, itu jelas lebih dari 3. Mungkin 6: 1-2, 2-3, 3-4, 4-5 dan 5-6 (dengan interval terbuka dan tertutup yang sesuai untuk menghindari binning ganda)
Peter Flom

1
2JJ

Jawaban:


6

Sebenarnya tidak ada batas atas yang sulit, tetapi di sisi lain, dalam kebanyakan situasi, setelah Anda mendapatkan semua pengamatan unik di tempat sampah mereka sendiri, tempat sampah yang lebih baik hanya berfungsi untuk menentukan posisi mereka lebih tepat tanpa menyampaikan lebih banyak. misalnya bandingkan ini:

histogram dengan 30 nampan
histogram dengan 100 nampan

Kecuali dalam beberapa keadaan yang sangat khusus, kemungkinan tidak ada manfaat praktis dalam plot kedua, dan tidak sebanyak itu di plot pertama. Jika data Anda kontinu, ini mungkin jauh melebihi jumlah sampah yang berguna.

Jadi dalam sebagian besar situasi, yang tampaknya seperti batas atas praktis - setiap pengamatan unik di tongnya sendiri.

(Jika ada yang manfaat dalam lebih sampah dari satu per pengamatan yang unik, Anda mungkin harus melakukan rugplot atau kertas pencatat bergoyang untuk mendapatkan jenis informasi) - sesuatu seperti apa yang dilakukan di pinggir histogram ini:

rugplot histogram dengan jitter
histogram dengan stripchart

(Histogram itu diambil dari jawaban ini , mendekati akhir)


5

Ada kasus yang baik untuk memiliki sejumlah besar tempat sampah, misalnya tempat sampah untuk setiap nilai yang memungkinkan, kapan pun diduga bahwa detail histogram tidak akan berisik, tetapi struktur halus yang menarik atau penting.

Ini tidak terhubung langsung dengan motivasi yang tepat untuk pertanyaan ini, menginginkan aturan otomatis untuk beberapa tempat sampah yang optimal, tetapi ini relevan dengan pertanyaan secara keseluruhan.

Mari kita segera beralih ke contoh. Dalam demografi, pembulatan usia yang dilaporkan adalah umum, terutama tetapi tidak hanya di negara-negara dengan melek huruf yang terbatas. Apa yang bisa terjadi adalah bahwa banyak orang tidak tahu tanggal lahir mereka yang sebenarnya, atau ada alasan sosial atau pribadi baik untuk mengecilkan atau untuk melebih-lebihkan usia mereka. Sejarah militer penuh dengan contoh orang-orang yang berbohong tentang usia mereka baik untuk menghindari atau mencari layanan di angkatan bersenjata. Memang banyak pembaca akan mengenal seseorang yang sangat malu-malu atau tidak jujur ​​tentang usia mereka, bahkan jika mereka tidak berbohong tentang hal itu pada sensus. Hasil bersih bervariasi tetapi seperti yang sudah tersirat biasanya pembulatan, misalnya usia yang berakhir pada 0 dan 5 jauh lebih umum daripada usia satu tahun kurang atau lebih.

Kebetulan, melihat digit terakhir dari data yang dilaporkan adalah metode sederhana dan bagus untuk memeriksa data palsu, metode yang jauh lebih mudah dipahami dan tidak terlalu bermasalah daripada pengamatan modern atas digit pertama dengan banding ke Hukum Benford.

Hasilnya untuk histogram sekarang harus jelas. Presentasi seperti spike dapat berfungsi untuk menunjukkan, atau lebih umum untuk memeriksa, struktur halus semacam ini. Tentu saja, jika tidak ada yang menarik yang dapat dilihat, grafiknya mungkin tidak banyak berguna.

Salah satu contoh menunjukkan penumpukan usia dari sensus Ghana untuk tahun 1960. Lihat http://www.stata.com/manuals13/rspikeplot.pdf

Ada ulasan yang bagus tentang distribusi angka akhir di Indonesia

Preece, DA 1981. Distribusi angka akhir dalam data. Statistician 30: 31-60.

Catatan tentang terminologi: beberapa orang menulis tentang nilai-nilai unik dari suatu variabel ketika mereka akan lebih baik berbicara tentang nilai-nilai yang berbeda dari suatu variabel. Kamus dan panduan penggunaan masih menyarankan bahwa "unik" berarti hanya terjadi satu kali. Dengan demikian usia yang dilaporkan berbeda dari suatu populasi dapat berupa, dalam tahun, 0, 1, 2, dll. Tetapi sebagian besar usia tersebut tidak akan unik untuk satu orang.


4

Tidak ada hard maksimal untuk jumlah bin dalam histogram. Jika variabel yang diplot kontinu, maka argumen dapat dibuat untuk jumlah kategori yang tidak terbatas (dan histogram pada dasarnya menjadi plot karpet).

Jumlah titik dalam kumpulan data bukan batas atas yang sesuai. Pertimbangkan kumpulan data yang berisi dua nilai: 1 dan 1000. Memiliki dua tempat sampah tidak akan sesuai.

Dua metode praktis untuk menentukan batas atas adalah: a) Menentukan pembulatan data yang mendasarinya. Sebagai contoh, jika data bilangan bulat maka masuk akal untuk memiliki nampan yang lebarnya bilangan bulat. b) Melihat resolusi maksimum yang terlihat (mis., jumlah piksel dalam dimensi horizontal yang dapat digunakan untuk merencanakan).

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.