Saya akan mencoba menjawab pertanyaan ini dengan kombinasi bukti yang dipublikasikan, pengalaman pribadi, dan spekulasi.
A) Bukti yang dipublikasikan.
Satu-satunya makalah yang saya tahu yang membantu menjawab pertanyaan adalah Delgado et al 2014 - Apakah kita Membutuhkan Ratusan Penggolong untuk Memecahkan Masalah Klasifikasi Dunia Nyata? - JMLR yang menjalankan ratusan algoritma dan implementasi yang berbeda pada 121 dataset untuk UCI. Mereka menemukan bahwa walaupun RBF SVM bukan algoritma "terbaik" (ini adalah hutan acak jika saya ingat dengan benar), itu termasuk 3 teratas (atau 5).
Jika Anda menganggap bahwa pemilihan kumpulan data mereka adalah "sampel yang baik" dari masalah dunia nyata, maka SVM secara definitif merupakan algoritma yang harus dicoba pada masalah baru tetapi orang harus mencoba hutan acak terlebih dahulu!
Batasan untuk menggeneralisasi hasil itu adalah bahwa dataset hampir semuanya tinggi dan kurus (n >> p), tidak terlalu jarang - yang saya berspekulasi harus lebih menjadi masalah untuk RF, dan tidak terlalu besar (baik n dan p).
Akhirnya, masih dengan bukti yang dipublikasikan, saya merekomendasikan dua situs yang membandingkan berbagai implementasi hutan acak:
B) Pengalaman pribadi.
Saya percaya bahwa makalah seperti Delgado et semua sangat penting bagi komunitas pembelajaran mesin, jadi saya mencoba mereplikasi hasil mereka dalam beberapa kondisi yang berbeda. Saya menjalankan sekitar 15 algoritma berbeda pada 100+ kumpulan data biner (dari kumpulan dataset Delgado). Saya juga berpikir saya lebih berhati-hati dalam pemilihan hyperparameter saat itu.
Hasil saya adalah bahwa SVM adalah "algoritma terbaik" (rangking 4,9). Menurut saya SVM lulus RF karena dataset asli berisi banyak masalah multiclass - yang akan saya bahas di bagian spekulasi - harus menjadi masalah bagi SVM.
EDIT (16 Juni):
Tapi RF jauh lebih cepat, dan itu adalah algoritma terbaik ke-2 (rangking 5.6) diikuti oleh gbm (5.8), nnets (7.2), dan sebagainya). Saya tidak mencoba regresi logistik standar dalam masalah ini, tetapi saya mencoba jaring elastis (L1 dan L2 yang diatur LR) tetapi tidak berkinerja baik (rerata peringkat 8.3) ~
Saya belum selesai menganalisis hasil atau menulis makalah sehingga saya bahkan tidak bisa menunjuk ke laporan teknis dengan hasilnya. Mudah-mudahan, dalam beberapa minggu saya dapat mengedit kembali jawaban ini dan menunjukkan laporan teknis dengan hasilnya.
Makalah ini tersedia di http://arxiv.org/abs/1606.00930 Ternyata setelah analisis penuh RF dan SVM hampir setara dalam hal tingkat kesalahan yang diharapkan dan SVM lebih cepat (mengejutkan saya !!). Saya tidak lagi tegas dalam merekomendasikan RF (dengan alasan kecepatan).
Jadi pengalaman pribadi saya adalah bahwa meskipun SVM mungkin memberi Anda sedikit akurasi ekstra, hampir selalu merupakan pilihan yang lebih baik untuk menggunakan RF.
Juga untuk masalah yang lebih besar, mungkin tidak mungkin untuk menggunakan pemecah SVM batch (saya belum pernah menggunakan pemecah SVM online seperti LASVM atau yang lainnya).
Akhirnya saya hanya menggunakan regresi logistik dalam satu situasi. Saya sedang melakukan beberapa rekayasa fitur "intens" pada masalah klasifikasi gambar (seperti - menggabungkan atau tidak dua deskripsi gambar yang berbeda, dan dimensi deskripsi). Dan saya menggunakan regresi logistik untuk memilih di antara banyak alternatif (karena tidak ada pencarian hyperparameter di LR). Setelah kami puas dengan fitur terbaik (menurut LR) kami menggunakan RF (memilih untuk hyperparameter terbaik) untuk mendapatkan classifier akhir.
C) Spekulasi
Saya tidak pernah serius menangani masalah multikelas, tetapi perasaan saya adalah bahwa SVM tidak begitu baik pada mereka. Masalahnya bukan masalah antara solusi satu-vs-satu atau satu-vs-semua, tetapi semua implementasi yang saya tahu, akan menggunakan hyperparameters yang sama untuk semua pengklasifikasi (OVO atau OVA). Memilih hiperparameter yang benar untuk SVM sangat mahal sehingga tidak ada implementasi yang saya tahu akan melakukan pencarian untuk setiap pengklasifikasi. Saya berspekulasi bahwa ini adalah masalah untuk SVM (tapi bukan masalah untuk RF !!).
Kemudian lagi, untuk masalah multikelas saya akan langsung ke RF.