Ketika memikirkan histogram sebagai perkiraan fungsi kerapatan, apakah masuk akal untuk menganggap ukuran nampan sebagai parameter yang membatasi struktur lokal fungsi tersebut?
Juga, adakah cara yang lebih baik untuk mengartikulasikan alasan ini?
Ketika memikirkan histogram sebagai perkiraan fungsi kerapatan, apakah masuk akal untuk menganggap ukuran nampan sebagai parameter yang membatasi struktur lokal fungsi tersebut?
Juga, adakah cara yang lebih baik untuk mengartikulasikan alasan ini?
Jawaban:
Ya, ini adalah cara yang masuk akal untuk memikirkannya (dengan asumsi histogram dinormalisasi untuk mendapatkan pdf yang tepat). Lebar nampan membatasi kelancaran estimasi kepadatan (berbicara secara longgar, karena histogram adalah fungsi yang terputus-putus). Ini mengontrol sejauh mana struktur yang lebih halus dapat dimodelkan, dan juga sejauh mana fluktuasi acak dalam data mempengaruhi estimasi. Ini memainkan peran yang sama dengan lebar kernel dalam estimasi kepadatan kernel, dan hyperparameter yang mengontrol ukuran daun di pohon keputusan.
Untuk menjadi sedikit lebih spesifik, lebar bin adalah hiperparameter yang mengontrol tradeoff varians bias. Mengurangi lebar bin mengurangi bias karena memungkinkan representasi yang lebih baik - histogram dengan nampan yang lebih sempit membentuk kelas fungsi yang lebih kaya yang dapat lebih mendekati perkiraan distribusi sebenarnya / yang mendasarinya. Tetapi, ini meningkatkan varians karena lebih sedikit titik data yang tersedia untuk memperkirakan tinggi setiap bin - histogram dengan nampan yang lebih sempit lebih sensitif terhadap fluktuasi acak dalam data, dan akan lebih bervariasi dibandingkan set data yang diambil dari distribusi dasar yang sama. Lebar nampan yang baik menyeimbangkan efek yang berlawanan ini untuk memberikan perkiraan kepadatan yang lebih baik sesuai dengan distribusi yang mendasarinya.
Untuk lebih jelasnya lihat:
Scott (1979) . Pada histogram yang optimal dan berbasis data.
Shalizi (2009) . Memperkirakan Distribusi dan Kepadatan [catatan kursus]
Penduga kerapatan kernel seringkali dirasionalisasi sebagai versi histogram yang "berkelanjutan". Banyak buku tentang estimasi kernel nonparametrik juga membahas histogram. Lihat, misalnya, bab 2 dalam Racine, Jeffrey S. " Nononametric econometrics: A primer ." Yayasan dan Tren® di Econometrics 3.1 (2008): 1-88.
Ini masuk akal, karena apa yang Anda lakukan dengan memasukkan sampel ke dalam nampan mendekati data. Dalam pengalaman saya tergantung pada tujuan dan data yang tersedia, tempat sampah tersebut dapat bervariasi secara drastis dan berdampak besar pada bagaimana data tersebut ditangani lebih lanjut. Untuk beberapa kasus, Anda mungkin tidak memerlukan banyak sampah atau mungkin Anda kekurangan data, sehingga Anda masih dapat melihat kurva umum. Di sisi lain jika perkiraannya terlalu kuat Anda dapat melewatkan beberapa detail, seperti menit dan maks lokal atau struktur. Misalnya Anda dapat mengambil fungsi berikut:
Dan bandingkan hist untuk 100 dan 8 nampan
Ada perbedaan yang jelas antara kompleksitas struktur. Jika kita berbicara tentang fungsi kerapatan, tentu saja Anda harus memilih opsi kedua untuk kurva yang lebih halus tanpa nilai ekstrim seperti pada gambar pertama.
Biasanya saya lebih suka menggunakan aturan Freedman-Diaconis sebagai aturan praktis untuk memilih default jumlah nampan dan kemudian tune mempertimbangkan tugas.