Jadi, saya seorang pemula di bidang ML dan saya mencoba untuk melakukan klasifikasi. Tujuan saya adalah untuk memprediksi hasil acara olahraga. Saya telah mengumpulkan beberapa data historis dan sekarang mencoba untuk melatih classifier. Saya mendapatkan sekitar 1.200 sampel, 0,2 di antaranya saya pisahkan untuk keperluan pengujian, yang lain saya masukkan ke pencarian kotak (termasuk validasi silang) dengan berbagai pengklasifikasi. Saya sudah mencoba SVM dengan kernel linear, rbf dan polinominal dan Random Forests saat ini. Sayangnya, saya tidak bisa mendapatkan akurasi secara signifikan lebih besar dari 0,5 (sama dengan pilihan kelas acak). Apakah itu berarti saya tidak dapat memprediksi hasil dari peristiwa yang begitu rumit? Atau saya bisa mendapatkan setidaknya akurasi 0,7-0,8? Jika layak, lalu apa yang harus saya perhatikan selanjutnya?
- Dapatkan lebih banyak data? (Saya dapat memperbesar dataset hingga 5 kali)
- Coba pengklasifikasi yang berbeda? (Regresi logistik, kNN, dll)
- Mengevaluasi ulang set fitur saya? Apakah ada alat ML untuk dianalisis, fitur mana yang masuk akal dan mana yang tidak? Mungkin, saya harus mengurangi set fitur saya (saat ini saya punya 12 fitur)?