Jadi saya sudah membaca beberapa posting tentang mengapa binning harus selalu dihindari. Referensi populer untuk klaim itu adalah tautan ini .
Liburan utama adalah bahwa titik-titik binning (atau titik potong) agak sewenang-wenang serta hilangnya informasi yang dihasilkan, dan bahwa splines harus lebih disukai.
Namun, saya saat ini bekerja dengan Spotify API, yang memiliki banyak langkah kepercayaan berkelanjutan untuk beberapa fitur mereka.
Melihat satu fitur, "instrumentalness", status referensi:
Memprediksi apakah suatu lagu tidak mengandung vokal. Suara “Ooh” dan “aah” diperlakukan sebagai instrumen dalam konteks ini. Rap atau trek kata yang diucapkan jelas "vokal". Semakin dekat nilai instrumentalness ke 1.0, semakin besar kemungkinan trek tidak mengandung konten vokal. Nilai di atas 0,5 dimaksudkan untuk mewakili trek instrumental , tetapi kepercayaan diri lebih tinggi ketika nilai mendekati 1.0.
Mengingat distribusi data saya sangat miring (sekitar 90% sampel hampir di atas 0, saya merasa masuk akal untuk mengubah fitur ini menjadi dua fitur kategori: "instrumental" (semua sampel dengan nilai di atas 0,5) dan "non_instrumental "(untuk semua sampel dengan nilai di bawah 0,5).
Apakah ini salah? Dan apa yang akan menjadi alternatif, ketika hampir semua data saya (terus-menerus) berputar di sekitar nilai tunggal? Dari apa yang saya mengerti tentang splines, mereka tidak akan bekerja dengan masalah klasifikasi (apa yang saya lakukan).