Saat ini saya sedang belajar sendiri bagaimana melakukan klasifikasi, dan secara khusus saya melihat tiga metode: mendukung mesin vektor, jaringan saraf, dan regresi logistik. Apa yang saya coba pahami adalah mengapa regresi logistik akan berkinerja lebih baik daripada dua lainnya.
Dari pemahaman saya tentang regresi logistik, idenya adalah untuk mencocokkan fungsi logistik dengan seluruh data. Jadi jika data saya adalah biner, semua data saya dengan label 0 harus dipetakan dengan nilai 0 (atau dekat dengan itu), dan semua data saya dengan nilai 1 harus dipetakan ke nilai 1 (atau dekat dengan itu). Sekarang, karena fungsi logistik kontinu dan lancar, melakukan regresi ini membutuhkan semua data saya agar sesuai dengan kurva; tidak ada kepentingan yang lebih besar diterapkan pada titik data di dekat batas keputusan, dan semua titik data berkontribusi terhadap kerugian dengan jumlah yang berbeda.
Namun, dengan mesin vektor dukungan dan jaringan saraf, hanya titik-titik data di dekat batas keputusan yang penting; selama titik data tetap berada di sisi yang sama dari batas keputusan, itu akan berkontribusi kerugian yang sama.
Oleh karena itu, mengapa regresi logistik akan pernah mengungguli mesin vektor dukungan atau jaringan saraf, mengingat bahwa "membuang-buang sumber daya" pada upaya menyesuaikan kurva dengan banyak data yang tidak penting (mudah diklasifikasikan), daripada hanya berfokus pada data sulit di sekitar keputusan batas?