Apa perbedaan praktis & interpretasi antara alternatif dan regresi logistik?


9

Pertanyaan terbaru tentang alternatif untuk regresi logistik dalam R menghasilkan berbagai jawaban termasuk randomForest, gbm, rpart, bayesglm, dan model aditif umum. Apa perbedaan praktis dan interpretasi antara metode ini dan regresi logistik? Asumsi apa yang mereka buat (atau tidak buat) relatif terhadap regresi logistik? Apakah cocok untuk pengujian hipotesis? Dll

Jawaban:


9

Penafian: Ini tentu jauh dari jawaban penuh untuk pertanyaan!

Saya pikir setidaknya ada dua level yang perlu dipertimbangkan sebelum menetapkan perbedaan antara semua metode tersebut:

  • apakah model tunggal dipasang atau tidak: Ini membantu metode yang berlawanan seperti regresi logistik vs RF atau Gradient Boosting (atau metode Ensemble yang lebih umum ), dan juga menekankan pada estimasi parameter (dengan interval kepercayaan asimptotik atau bootstrap terkait) vs. klasifikasi atau perhitungan akurasi prediksi;
  • apakah semua variabel dipertimbangkan atau tidak: Ini adalah dasar pemilihan fitur, dalam arti bahwa hukuman atau regularisasi memungkinkan untuk mengatasi set data "tidak teratur" (misalnya, besar dan / atau kecil ) dan meningkatkan generalisasi dari temuan.haln

Berikut adalah beberapa hal lain yang menurut saya relevan dengan pertanyaan itu.

Jika kami mempertimbangkan beberapa model - model yang sama dipasang pada himpunan bagian yang berbeda (individu dan / atau variabel) dari data yang tersedia, atau model kompetitif yang berbeda dipasang pada set data yang sama -, validasi silang dapat digunakan untuk menghindari overfitting dan melakukan pemilihan model atau fitur, meskipun CV tidak terbatas pada kasus-kasus khusus ini (misalnya, dapat digunakan dengan GAM atau GLM yang terkena sanksi, misalnya). Juga, ada masalah interpretasi tradisional: model yang lebih kompleks sering menyiratkan interpretasi yang lebih kompleks (lebih banyak parameter, asumsi yang lebih ketat, dll.).

Peningkatan Gradien dan RF mengatasi keterbatasan satu pohon keputusan, berkat Boosting yang ide utamanya adalah menggabungkan output dari beberapa algoritma pembelajaran yang lemah untuk membangun aturan keputusan yang lebih akurat dan stabil, dan Mengantongi di mana kami "rata-rata" menghasilkan lebih set data ulang. Secara keseluruhan, mereka sering dipandang sebagai semacam kotak hitam dibandingkan dengan model yang lebih "klasik" di mana spesifikasi yang jelas untuk model disediakan (saya dapat memikirkan tiga kelas model: parameter , semi-parametrik , non-parametrik ), tetapi Saya pikir diskusi diadakan di bawah utas lain ini The Two Cultures: statistik vs pembelajaran mesin? memberikan sudut pandang yang menarik.

Berikut adalah beberapa makalah tentang pemilihan fitur dan beberapa teknik ML:

  1. Saeys, Y, Inza, I, dan Larrañaga, P. Tinjauan teknik pemilihan fitur dalam bioinformatika , Bioinformatika (2007) 23 (19): 2507-2517.
  2. Dougherty, ER, Hua J, dan Sima, C. Kinerja Metode Pemilihan Fitur , Genomik Saat Ini (2009) 10 (6): 365-374.
  3. Boulesteix, AL dan Strobl, C. Seleksi classifier yang optimal dan bias negatif dalam estimasi tingkat kesalahan: studi empiris pada prediksi dimensi tinggi , BMC Medical Research Metodologi (2009) 9:85.
  4. Caruana, R dan Niculescu-Mizil, A. Perbandingan Empiris Algoritma Pembelajaran yang Dibimbing . Prosiding Konferensi Internasional ke-23 tentang Pembelajaran Mesin (2006).
  5. Friedman, J, Hastie, T, dan Tibshirani, R. Regresi logistik tambahan: Pandangan statistik untuk meningkatkan , Ann. Statist. (2000) 28 (2): 337-407. (Dengan diskusi)
  6. Olden, JD, Lawler, JJ, dan Poff, NL. Metode pembelajaran mesin tanpa air mata: primer untuk ahli ekologi , Q Rev Biol. (2008) 83 (2): 171-93.

Dan tentu saja, Elemen Pembelajaran Statistik , oleh Hastie dan kol., Penuh dengan ilustrasi dan referensi. Pastikan juga untuk memeriksa Tutorial Penambangan Data Statistik , dari Andrew Moore.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.