Mengenai pendekatan, SVM dengan kernel RBF melakukan pekerjaan dengan baik, tetapi SVM dapat diperlambat oleh ukuran objek besar, kecuali jika Anda menggunakan CV dengan misalnya sepersepuluh dari data yang secara acak ditugaskan untuk setiap lipatan. Namun, apakah Anda bertanya pada diri sendiri mengapa Anda menggunakan SVM sejak awal?
Sudahkah Anda mencoba regresi linier multivariat, , di mana setiap catatan dikodekan jika objek ke- ada di class , dan sebaliknya? Jika akurasi klasifikasi cukup tinggi menggunakan regresi linier, maka data Anda terpisah secara linear, dan metode yang lebih kompleks seperti SVM dan JST tidak diperlukan. Langkah 2 akan menunjukkan bahwa tetangga terdekat k, naif Bayes, analisis diskriminan linear (Fisher), regresi logistik politomous, dll., Rusak dan gagal.Y = X βYysaya j= + 1sayajysaya j= - 1
Untuk terminologi, Anda mungkin membahas masalah memiliki lebih banyak bobot kelas dalam konteks "proporsi objek yang lebih rendah di kelas tertentu," atau "ukuran kelas hampir nol." Cenderung cenderung digunakan untuk menggambarkan distribusi nilai-nilai fitur, seperti pada kemiringan, ekor gemuk, dll.
Berapa banyak fitur yang Anda miliki? Apakah Anda mencoba pengelompokan tanpa pengawasan (penemuan kelas) pada 100.000 objek sebelum mencoba klasifikasi yang diawasi (prediksi kelas) dengan SVM? Mungkin 100.000 objek dapat dikelompokkan ke dalam kurang dari 50 kelas, yang keanggotaan kelas baru dapat digunakan sebagai kelas target selama analisis klasifikasi. Ini dapat meringankan masalah memiliki ukuran kelas yang hampir nol.