Apakah regresi logistik sebenarnya adalah algoritma regresi?


11

Definisi regresi yang biasa (sejauh yang saya ketahui) adalah memprediksi variabel output kontinu dari serangkaian variabel input yang diberikan .

Regresi logistik adalah algoritma klasifikasi biner, sehingga menghasilkan keluaran kategoris.

Apakah ini benar-benar algoritma regresi? Jika demikian, mengapa?

Jawaban:


23

Regresi logistik adalah regresi, pertama dan terutama. Itu menjadi classifier dengan menambahkan aturan keputusan. Saya akan memberikan contoh yang mundur. Artinya, alih-alih mengambil data dan menyesuaikan model, saya akan mulai dengan model untuk menunjukkan bagaimana ini benar-benar masalah regresi.

Dalam regresi logistik, kami memodelkan peluang log, atau logit, bahwa suatu peristiwa terjadi, yang merupakan kuantitas kontinu. Jika probabilitas bahwa peristiwa terjadi adalah P ( A ) , kemungkinannya adalah:SEBUAHP(SEBUAH)

P(SEBUAH)1-P(SEBUAH)

Kemungkinan log, adalah:

catatan(P(SEBUAH)1-P(SEBUAH))

Seperti dalam regresi linier, kami memodelkan ini dengan kombinasi linear dari koefisien dan prediktor:

logit=b0+b1x1+b2x2+

Bayangkan kita diberi model apakah seseorang memiliki rambut abu-abu. Model kami menggunakan usia sebagai satu-satunya prediktor. Di sini, acara kami A = seseorang memiliki rambut beruban:

log odds rambut abu-abu = -10 + 0,25 * usia

...Regresi! Berikut ini beberapa kode Python dan plot:

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

x = np.linspace(0, 100, 100)

def log_odds(x):
    return -10 + .25 * x

plt.plot(x, log_odds(x))
plt.xlabel("age")
plt.ylabel("log odds of gray hair")

plot peluang log untuk contoh mainan kami

P(SEBUAH)

P(SEBUAH)=11+exp(-peluang log))

Berikut kodenya:

plt.plot(x, 1 / (1 + np.exp(-log_odds(x))))
plt.xlabel("age")
plt.ylabel("probability of gray hair")

plot kemungkinan rambut abu-abu untuk contoh mainan kami

P(SEBUAH)>0,5

Regresi logistik berfungsi baik sebagai penggolong dalam contoh-contoh yang lebih realistis juga, tetapi sebelum dapat menjadi penggolong, itu harus menjadi teknik regresi!


Meskipun dalam praktiknya orang menggunakan regresi logistik sebagai sinonim dari regresi logistik + klasifikasi biner.
jinawee

10

Jawaban singkat

Ya, regresi logistik adalah algoritma regresi dan ia memprediksi hasil yang berkelanjutan: probabilitas suatu peristiwa. Bahwa kita menggunakannya sebagai classifier biner adalah karena interpretasi hasilnya.

Detail

Regresi logistik adalah jenis model regresi linier umum.

Dalam model regresi linier biasa, hasil yang berkelanjutan y, dimodelkan sebagai jumlah dari produk prediktor dan efeknya:

y = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

dimana ekesalahannya

Model linier umum tidak memodelkan ysecara langsung. Sebagai gantinya, mereka menggunakan transformasi untuk memperluas domain yke semua bilangan real. Transformasi ini disebut fungsi tautan. Untuk regresi logistik, fungsi tautan adalah fungsi logit (biasanya, lihat catatan di bawah).

Fungsi logit didefinisikan sebagai

ln(y/(1 + y))

Dengan demikian bentuk regresi logistik adalah:

ln(y/(1 + y)) = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

di mana yprobabilitas suatu peristiwa.

Fakta bahwa kita menggunakannya sebagai penggolong biner adalah karena interpretasi hasilnya.

Catatan: probit adalah fungsi tautan lain yang digunakan untuk regresi logistik tetapi logit adalah yang paling banyak digunakan.


1

Ketika Anda mendiskusikan definisi regresi, Anda memprediksi variabel kontinu. Regresi logistik adalah klasifikasi biner. Regresi logistik adalah penerapan fungsi logit pada output dari pendekatan regresi biasa. Fungsi logit berubah (-inf, + inf) ke [0,1]. Saya pikir itu hanya karena alasan historis yang membuat nama itu.

Mengatakan sesuatu seperti "Saya melakukan beberapa regresi untuk mengklasifikasikan gambar. Khususnya saya menggunakan regresi logistik." salah.


2
Regresi logistik dapat digunakan sebagai classifier biner, tetapi tidak inheren satu. Anda bisa menggunakannya untuk memperkirakan peluang atau menentukan hubungan variabel prediktor dengan hasil.
MattBagg

0

ff:XRP(Y=1|λ,x)=11+e-λTx[0,1]λxssayagn(P(Y=1|λ,x))

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.