Apa perbedaan antara regresi linier dan regresi logistik?
Kapan Anda akan menggunakan masing-masing?
Apa perbedaan antara regresi linier dan regresi logistik?
Kapan Anda akan menggunakan masing-masing?
Jawaban:
Regresi linier menggunakan persamaan linear umum mana adalah variabel dependen kontinyu dan variabel independen yang biasanya terus menerus (tetapi juga dapat menjadi biner, misalnya ketika model linear digunakan dalam t- sebuah test) atau domain diskrit lainnya. adalah istilah untuk varian yang tidak dijelaskan oleh model dan biasanya hanya disebut "kesalahan". Nilai dependen individual yang dilambangkan dengan dapat dipecahkan dengan memodifikasi sedikit persamaan:
Regresi logistik adalah prosedur model umum lain (GLM) menggunakan rumus dasar yang sama, tetapi bukannya kontinu , itu regresi untuk probabilitas hasil kategoris. Dalam bentuk yang paling sederhana, ini berarti bahwa kami mempertimbangkan hanya satu variabel hasil dan dua status variabel itu - baik 0 atau 1.
Persamaan untuk probabilitas terlihat seperti ini:
Variabel bebas Anda dapat berupa kontinu atau biner. Koefisien regresi dapat secara eksponensial memberi Anda perubahan peluang per perubahan dalam , yaitu, dan . disebut rasio odds, . Dalam bahasa Inggris, Anda dapat mengatakan bahwa peluang meningkat dengan faktor per unit berubah dalam . Y=1ebiXi
Contoh: Jika Anda ingin melihat bagaimana indeks massa tubuh memprediksi kolesterol darah (ukuran berkelanjutan), Anda akan menggunakan regresi linier seperti yang dijelaskan di bagian atas jawaban saya. Jika Anda ingin melihat bagaimana BMI memprediksi kemungkinan menjadi diabetes (diagnosis biner), Anda akan menggunakan regresi logistik.
Regresi Linier digunakan untuk membangun hubungan antara variabel dependen dan independen, yang berguna dalam memperkirakan variabel dependen yang dihasilkan dalam kasus perubahan variabel independen. Sebagai contoh:
Menggunakan Regresi Linier, hubungan antara Hujan (R) dan Penjualan Payung (U) ditemukan - U = 2R + 5000
Persamaan ini mengatakan bahwa untuk setiap 1mm Rain, ada permintaan untuk 5002 payung. Jadi, dengan menggunakan Regresi Sederhana, Anda dapat memperkirakan nilai variabel Anda.
Regresi Logistik di sisi lain digunakan untuk memastikan probabilitas suatu peristiwa. Dan acara ini ditangkap dalam format biner, yaitu 0 atau 1.
Contoh - Saya ingin memastikan apakah pelanggan akan membeli produk saya atau tidak. Untuk ini, saya akan menjalankan Regresi Logistik pada data (relevan) dan variabel dependen saya akan menjadi variabel biner (1 = Ya; 0 = Tidak).
Dalam hal representasi grafis, Regresi Linier memberikan garis linier sebagai output, setelah nilai diplot pada grafik. Sedangkan, regresi logistik memberikan garis berbentuk S
Referensi dari Mohit Khurana.
Perbedaan telah diselesaikan oleh DocBuckets dan Pardis, tetapi saya ingin menambahkan satu cara untuk membandingkan kinerja mereka yang tidak disebutkan.
Regresi linier biasanya diselesaikan dengan meminimalkan kesalahan kuadrat terkecil dari model terhadap data, oleh karena itu kesalahan besar akan dihukum secara kuadratik. Regresi logistik justru sebaliknya. Menggunakan fungsi kerugian logistik menyebabkan kesalahan besar akan dihukum konstan asimptotik.
Pertimbangkan regresi linier pada hasil kategori {0,1} untuk melihat mengapa ini merupakan masalah. Jika model Anda memperkirakan hasilnya adalah 38 saat kebenarannya 1, Anda tidak kehilangan apa-apa. Regresi linier akan mencoba mengurangi 38 itu, logistik tidak akan (sebanyak).