Apa klasifikasi 2-out-of-the-box terbaik untuk aplikasi Anda? [Tutup]


Jawaban:


14

Hutan acak

  • dengan mudah menangkap struktur rumit / hubungan nonlinear
  • invarian dengan skala variabel
  • tidak perlu membuat variabel dummy untuk prediktor kategori
  • pemilihan variabel tidak banyak dibutuhkan
  • relatif sulit untuk dipakai

Pemilihan motif aktif Aptamer, prakiraan kelembaban tanah hutan, digit OCR, analisis citra satelit multispektral, pengambilan informasi musik, chemometry ...

13

Regresi Logistik :

  • cepat dan berkinerja baik di sebagian besar dataset
  • hampir tidak ada parameter untuk disetel
  • menangani kedua fitur diskrit / kontinu
  • Model mudah ditafsirkan
  • (tidak benar-benar terbatas pada klasifikasi biner)

Mungkin tidak ada parameter untuk dicari, tetapi kita harus benar-benar bekerja dengan variabel kontinu (transformasi, splines, dll) untuk menginduksi non linearitas.
B_Miner

12

Mesin dukungan vektor


Tidak ada sesuatu yang benar - benar istimewa tentang SVM, selain itu memaksa pengguna untuk berpikir tentang regularisasi. Untuk sebagian besar masalah praktis [kernel] regresi ridge juga berfungsi dengan baik.
Dikran Marsupial

2
@dikran saya pikir SVM adalah penggolong hebat karena jarang dan kuat untuk pencilan - ini tidak benar untuk Regresi Logistik! dan itulah sebabnya SVM adalah penggolong canggih. Satu-satunya masalah yang mungkin menjadi masalah adalah - kompleksitas waktu - tetapi saya rasa tidak masalah.
suncoolsu

@ suncoolsu Jika Anda ingin sparsity, Anda mendapatkan lebih banyak sparsity dari regresi logistik yang diatur dengan LASSO daripada yang Anda lakukan dengan SVM. Sparsity dari SVM adalah produk sampingan dari fungsi loss, jadi Anda tidak mendapatkan sebanyak yang Anda lakukan dengan algoritma di mana sparsity adalah tujuan desain. Juga sering dengan nilai optimal dari hiper-parameter (misalnya dipilih melalui validasi silang) sebagian besar sparsity dari SVM menghilang. SVM tidak lebih kuat untuk pencilan daripada regresi logistik yang diatur - sebagian besar adalah regularisasi yang penting, bukan kerugian engsel.
Dikran Marsupial

@Dikran - maksud saya persis - semacam hukuman itu penting. Anda bisa mendapatkannya dengan menggunakan Priors, menambahkan Penalti, dll.
suncoolsu

1
@suncoolsu Dalam hal ini, SVM bukanlah penggolong yang hebat, itu hanya satu di antara banyak pengklasifikasi yang teregulasi, seperti regresi ridge, regresi logistik yang diregulasi, Proses Gaussian. Manfaat utama SVM adalah daya tariknya dari teori pembelajaran komputasi. Dalam praktiknya, pertimbangan lain lebih penting, seperti apakah Anda memerlukan pengukur probabilitas, di mana fungsi kerugian lainnya cenderung lebih unggul. IMHO, ada terlalu banyak perhatian yang diberikan pada SVM, daripada keluarga yang lebih luas dari metode kernel.
Dikran Marsupial

7

Diskriminan yang diregulasi untuk masalah yang diawasi dengan data berisik

  1. Efisien secara komputasi
  2. Kuat terhadap noise dan outlier dalam data
  3. Pengklasifikasi linear diskriminan (LD) dan kuadrat diskriminan (QD) dapat diperoleh dari pengaturan yang sama dengan pengaturan parameter regularisasi '[lambda, r]' ke '[1 0]' untuk pengklasifikasi LD dan '[0 0]' untuk QD classifier - sangat berguna untuk tujuan referensi.
  4. Model mudah diinterpretasikan dan diekspor
  5. Bekerja dengan baik untuk set data yang jarang dan 'lebar' di mana matriks kovarians kelas mungkin tidak didefinisikan dengan baik.
  6. Perkiraan probabilitas kelas posterior dapat diperkirakan untuk setiap sampel dengan menerapkan fungsi softmax ke nilai diskriminan untuk setiap kelas.

Tautan ke kertas asli 1989 oleh Friedman et al di sini . Juga, ada penjelasan yang sangat baik oleh Kuncheva dalam bukunya " Menggabungkan pola pengklasifikasi ".


5

Gradient Boosted Trees.

  • Setidaknya seakurat RF pada banyak aplikasi
  • Menggabungkan nilai-nilai yang hilang dengan mulus
  • Pentingnya Var (seperti RF mungkin bias mendukung tingkat nominal terus menerus dan banyak)
  • Plot dependensi parsial
  • GBM versus randomForest di R: menangani BANYAK dataset yang lebih besar

4

Gaussian Process classifier - ini memberikan prediksi probabilistik (yang berguna ketika frekuensi kelas relatif operasional Anda berbeda dari yang ada di rangkaian pelatihan Anda, atau setara dengan biaya false-positive / false-negative Anda yang tidak diketahui atau variabel). Ini juga menyediakan inidcation dari ketidakpastian dalam prediksi model karena ketidakpastian dalam "memperkirakan model" dari dataset yang terbatas. Fungsi co-variance setara dengan fungsi kernel dalam SVM, sehingga juga dapat beroperasi secara langsung pada data non-vektor (misalnya string atau grafik dll). Kerangka matematika juga rapi (tapi jangan gunakan pendekatan Laplace). Pemilihan model otomatis melalui memaksimalkan kemungkinan marjinal.

Pada dasarnya menggabungkan fitur yang baik dari regresi logistik dan SVM.


Apakah ada paket R yang Anda rekomendasikan yang mengimplementasikan ini? Apa implementasi pilihan Anda untuk metode ini? Terima kasih!
Juli

Saya khawatir saya adalah pengguna MATLAB (saya menggunakan paket GPML gaussianprocess.org/gpml/code/matlab/doc ), jadi saya tidak bisa memberi nasihat tentang implementasi R, tetapi Anda mungkin menemukan sesuatu yang cocok di sini gaussianprocess.org/# kode . Jika R tidak memiliki paket yang layak untuk dokter, seseorang perlu menulisnya!
Dikran Marsupial

Ok terima kasih. Apakah metode ini memungkinkan seseorang untuk memilih "variabel penting, seperti dalam variabel pentingnya hutan acak atau penghapusan fitur rekursif dengan SVM?
Juli

Ya, Anda dapat menggunakan fungsi kovarians "Penentuan Relevansi Otomatis", dan memilih hiper-parameter dengan memaksimalkan bukti Bayesian untuk model (meskipun ini dapat mengalami masalah yang terlalu pas yang Anda dapatkan dengan SVMS, sehingga sering kali model berkinerja lebih baik tanpa pemilihan fitur).
Dikran Marsupial

4

Regresi logistik yang diatur L1.

  • Ini cepat komputasi.
  • Ini memiliki interpretasi yang intuitif.
  • Hanya memiliki satu hiperparameter yang mudah dipahami yang dapat secara otomatis disetel dengan validasi silang, yang sering kali merupakan cara yang baik untuk dilakukan.
  • Koefisiennya sebagian linier dan hubungannya dengan hyperparameter secara instan dan mudah terlihat dalam plot sederhana.
  • Ini adalah salah satu metode yang kurang meragukan untuk pemilihan variabel.
  • Juga memiliki nama yang sangat keren.

+1 Parameter-hiper juga dapat diintegrasikan secara analitis, sehingga tidak ada kebutuhan nyata untuk validasi silang untuk banyak aplikasi, lihat misalnya theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdf dan bioinformatika .oxfordjournals.org / content / 22/19 / 2348.full.pdf .
Dikran Marsupial

3

KNN


3

Bayes Naif dan Bay Naif Acak


2
Bisakah Anda memberikan deskripsi masalah di mana RNB memberi Anda hasil yang baik?
Łukasz Lew

Tidak ;-) Ini hanya untuk menghidupkan kembali kolam renang.

1

K-means clustering untuk pembelajaran tanpa pengawasan.


Pertanyaannya secara spesifik meminta classifier.
Prometheus
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.