Saya sudah berkali-kali menganalisis dataset yang saya tidak bisa melakukan klasifikasi apa pun. Untuk melihat apakah saya bisa mendapatkan classifier, saya biasanya menggunakan langkah-langkah berikut:
- Buat plot kotak label terhadap nilai numerik.
- Kurangi dimensionalitas menjadi 2 atau 3 untuk melihat apakah kelas dapat dipisahkan, kadang-kadang juga mencoba LDA.
- Dengan paksa mencoba menyesuaikan SVM dan Hutan Acak dan melihat fitur-penting untuk melihat apakah fitur masuk akal atau tidak.
- Cobalah untuk mengubah keseimbangan kelas dan teknik seperti under-sampling dan over-sampling untuk memeriksa apakah ketidakseimbangan kelas mungkin menjadi masalah.
Ada banyak pendekatan lain yang bisa saya pikirkan, tetapi belum mencoba. Terkadang saya tahu bahwa fitur-fitur ini tidak baik dan sama sekali tidak terkait dengan label yang kami coba prediksi. Saya kemudian menggunakan intuisi bisnis untuk mengakhiri latihan, menyimpulkan bahwa kita membutuhkan fitur yang lebih baik atau label yang sama sekali berbeda.
Pertanyaan saya adalah bagaimana laporan Data Scientist bahwa klasifikasi tidak dapat dilakukan dengan fitur-fitur ini. Apakah ada cara statistik untuk melaporkan ini atau menyesuaikan data dalam algoritma yang berbeda terlebih dahulu dan melihat metrik validasi adalah pilihan terbaik?