Regresi logistik (dan lebih umum, GLM) BUKAN milik Machine Learning! Sebaliknya, metode ini milik pemodelan parametrik .
Kedua model parametrik dan algoritmik (ML) menggunakan data, tetapi dengan cara yang berbeda . Model algoritma belajar dari data bagaimana prediktor memetakan ke prediksi dan, tetapi mereka tidak membuat asumsi tentang proses yang telah menghasilkan pengamatan (atau asumsi lain, sebenarnya). Mereka menganggap bahwa hubungan yang mendasari antara input dan output variabel kompleks dan tidak diketahui, dan dengan demikian, mengadopsi pendekatan yang didorong data untuk memahami apa yang terjadi, daripada memaksakan persamaan formal.
Di sisi lain, model parametrik ditentukan secara apriori berdasarkan pengetahuan proses yang dipelajari, menggunakan data untuk memperkirakan parameternya, dan membuat banyak asumsi tidak realistis yang jarang dipegang dalam praktik (seperti independensi, varian yang sama, dan Distribusi kesalahan yang normal).
Juga, model parametrik (seperti regresi logistik) adalah model global . Mereka tidak dapat menangkap pola lokal dalam data (tidak seperti metode ML yang menggunakan pohon sebagai model dasar mereka, misalnya RF atau Boosted Trees). Lihat makalah ini halaman 5. Sebagai strategi remediasi, GLM lokal (yaitu, nonparametrik) dapat digunakan (lihat misalnya paket locfit R).
Seringkali, ketika sedikit pengetahuan tentang fenomena yang mendasarinya tersedia, lebih baik untuk mengadopsi pendekatan berbasis data dan menggunakan pemodelan algoritmik. Misalnya, jika Anda menggunakan regresi logistik dalam kasus di mana interaksi antara variabel input dan output tidak linier, model Anda akan jelas tidak memadai dan banyak sinyal tidak akan ditangkap. Namun, ketika proses dipahami dengan baik, model parametrik memiliki keunggulan dalam memberikan persamaan formal untuk merangkum semuanya, yang kuat dari sudut pandang teoritis.
Untuk diskusi yang lebih terperinci, bacalah makalah yang sangat bagus ini oleh Leo Breiman.