Ini adalah topik yang luas, dan Anda akan menemukan berbagai alasan mengapa data seharusnya, atau sudah, di-bucket. Tidak semuanya terkait dengan akurasi prediksi.
Pertama, inilah contoh di mana pemodel mungkin ingin melakukan bucket. Misalkan saya sedang membangun model penilaian kredit: Saya ingin tahu kecenderungan orang untuk gagal bayar pinjaman. Dalam data saya, saya memiliki kolom yang menunjukkan status laporan kredit. Yaitu, saya memesan laporan dari agensi pemeringkat, dan agensi mengembalikan, katakanlah, skor kepemilikan mereka, bersama dengan variabel kategori yang menunjukkan keandalan skor ini. Indikator ini mungkin jauh lebih berbutir daripada yang saya butuhkan untuk keperluan saya. Misalnya, "tidak ada informasi yang cukup untuk skor yang dapat diandalkan" dapat dibagi ke dalam banyak kelas seperti "kurang dari 20 tahun", "baru-baru ini pindah ke negara", "tidak ada riwayat kredit sebelumnya", dll. Banyak dari kelas-kelas ini mungkin jarang penduduknya, dan karenanya agak tidak berguna dalam regresi atau model lainnya. Untuk mengatasinya, saya mungkin ingin menyatukan kelas-kelas seperti untuk menggabungkan kekuatan statistik menjadi kelas "representatif". Sebagai contoh, mungkin hanya masuk akal bagi saya untuk menggunakan indikator biner "informasi bagus dikembalikan" vs. "tidak ada informasi dikembalikan". Dalam pengalaman saya, banyak aplikasi bucketisasi termasuk dalam jenderal iniruntuh dari jenis kategori jarang penduduk .
Beberapa algoritma menggunakan bucketisasi secara internal. Misalnya, pohon yang cocok dengan algoritma peningkatan sering menghabiskan sebagian besar waktu mereka dalam langkah peringkasan, di mana data kontinu di setiap node diskritisasi dan nilai rata-rata dari respons di setiap ember dihitung. Ini sangat mengurangi kompleksitas komputasi untuk menemukan pemisahan yang tepat, tanpa banyak pengorbanan dalam akurasi karena peningkatan.
Anda juga dapat dengan mudah menerima data pra-bucket. Data diskrit lebih mudah untuk dikompresi dan disimpan - array panjang angka floating point hampir tidak dapat dimampatkan, tetapi ketika didiskritisasi menjadi "tinggi", "sedang" dan "rendah", Anda dapat menghemat banyak ruang dalam basis data Anda. Data Anda juga dapat dari sumber yang ditargetkan pada aplikasi non-pemodelan. Ini cenderung sering terjadi ketika saya menerima data dari organisasi yang melakukan pekerjaan analitis lebih sedikit. Data mereka sering digunakan untuk pelaporan, dan dirangkum ke tingkat tinggi untuk membantu interpretabilitas laporan kepada orang awam. Data ini masih bisa bermanfaat, tetapi seringkali beberapa daya hilang.
Apa yang saya lihat nilai kurang, meskipun mungkin saya dapat diperbaiki, adalah pra-emberisasi pengukuran kontinu untuk keperluan pemodelan. Ada banyak metode yang sangat kuat untuk menyesuaikan efek non-linier dengan prediktor berkelanjutan, dan penghapusan menghilangkan kemampuan Anda untuk menggunakannya. Saya cenderung melihat ini sebagai praktik yang buruk.