Notasi matriks untuk regresi logistik

Dalam regresi linear (kerugian kuadrat), menggunakan matriks kami memiliki notasi yang sangat ringkas untuk tujuan

minimize ‖ A x - b ‖^{2}

$\text{minimize}~~ \|Ax-b\|^2$

Di mana adalah matriks data, adalah koefisien, dan adalah respons. $A$ $x$ $b$

Apakah ada notasi matriks yang serupa untuk tujuan regresi logistik? Semua notasi yang saya lihat tidak dapat menghilangkan jumlah atas semua titik data (seperti ). $\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx)$

EDIT: terima kasih atas joceratops dan jawaban bagus AdamO. Jawaban mereka membantu saya untuk menyadari bahwa alasan lain regresi linier memiliki notasi yang lebih ringkas adalah karena definisi norma, yang merangkum kuadrat dan jumlah atau $e^\top e$ . Tetapi dalam kerugian logistik, tidak ada definisi seperti itu, yang membuat notasi sedikit lebih rumit.

— Haitao Du
sumber

Jawaban:

Dalam regresi linier, solusi Maximize Likelihood Estimation (MLE) untuk memperkirakan $x$ memiliki solusi form tertutup berikut (dengan asumsi bahwa A adalah matriks dengan peringkat kolom penuh):

{\hat{x}}_{lin} = \underset{x}{argmin} ‖ SEBUAH x - b ‖_{2}^{2} = ({SEBUAH}^{T} SEBUAH)^{- 1} {SEBUAH}^{T} b

$\hat{x}_\text{lin}=\underset{x}{\text{argmin}} \|Ax-b\|_2^2 = (A^TA)^{-1}A^Tb$

Ini dibaca sebagai "temukan $x$ yang meminimalkan fungsi objektif, $\|Ax-b\|_2^2$ ". Bagus hal tentang mewakili fungsi tujuan regresi linier dengan cara ini adalah bahwa kita dapat menjaga semuanya dalam notasi matriks dan memecahkan untuk dengan tangan. Seperti yang disebutkan oleh Alex R., dalam praktiknya kita sering tidak mempertimbangkan secara langsung karena secara komputasi tidak efisien dan sering tidak memenuhi kriteria peringkat penuh. Sebaliknya, kita beralih ke pseudoinverse Moore-Penrose $\hat{x}_\text{lin}$ $(A^TA)^{-1}$ $A$ . Rincian penyelesaian komputasi untuk invers pseudo dapat melibatkan dekomposisi Cholesky atau Dekomposisi Nilai Singular.

Atau, solusi MLE untuk memperkirakan koefisien dalam regresi logistik adalah:

{\hat{x}}_{log} = \underset{x}{argmin} \sum_{i = 1}^{N} y^{(i)} \log (1 + e^{- x^{T} a^{(i)}}) + (1 - y^{(i)}) \log (1 + e^{x^{T} a^{(i)}})

$\hat{x}_\text{log} = \underset{x}{\text{argmin}} \sum_{i=1}^{N} y^{(i)}\log(1+e^{-x^Ta^{(i)}}) + (1-y^{(i)})\log(1+e^{x^T a^{(i)}})$

di mana (dengan asumsi masing-masing sampel data disimpan dengan bijaksana):

$x$ adalah vektor yang mewakili koefisien regresi

$a^{(i)}$ adalah vektor yang mewakili sampel / baris dalam matriks data $i^{th}$ $A$

$y^{(i)}$ adalah skalar dalam , dan label sesuai dengan sampel $\{0, 1\}$ $i^{th}$ $i^{th}$

$N$ adalah jumlah sampel data / jumlah baris dalam data matriks . $A$

Sekali lagi, ini dibaca sebagai "temukan yang meminimalkan fungsi tujuan". $x$

Jika Anda mau, Anda bisa melangkah lebih jauh dan mewakili dalam notasi matriks sebagai berikut: $\hat{x}_\text{log}$

{\hat{x}}_{log} = \underset{x}{argmin} [\begin{matrix} 1 & (1 - y^{(1)}) \\ ⋮ & ⋮ \\ 1 & (1 - y^{(N)}) \end{matrix}] [\begin{matrix} \log (1 + e^{- x^{T} a^{(1)}}) & . . . & \log (1 + e^{- x^{T} a^{(N)}}) \\ \log (1 + e^{x^{T} a^{(1)}}) & . . . & \log (1 + e^{x^{T} a^{(N)}}) \end{matrix}]

$\hat{x}_\text{log} = \underset{x}{\text{argmin}} \begin{bmatrix} 1 & (1-y^{(1)}) \\ \vdots & \vdots \\ 1 & (1-y^{(N)})\\\end{bmatrix} \begin{bmatrix} \log(1+e^{-x^Ta^{(1)}}) & ... & \log(1+e^{-x^Ta^{(N)}}) \\\log(1+e^{x^Ta^{(1)}}) & ... & \log(1+e^{x^Ta^{(N)}}) \end{bmatrix}$

tetapi Anda tidak mendapatkan apa-apa dari melakukan ini. Regresi logistik tidak memiliki solusi bentuk tertutup dan tidak mendapatkan manfaat yang sama dengan regresi linier dengan merepresentasikannya dalam notasi matriks. Untuk menyelesaikan teknik estimasi seperti gradient descent dan metode Newton-Raphson digunakan. Dengan menggunakan beberapa teknik ini (yaitu Newton-Raphson), diperkirakan dan direpresentasikan dalam notasi matriks ( lihat tautan yang disediakan oleh Alex R. ). $\hat{x}_\text{log}$ $\hat{x}_\text{log}$

— joceratops
sumber

Bagus. Terima kasih. Saya pikir alasan kami tidak memiliki sesuatu seperti menyelesaikan adalah alasan kami tidak mengambil langkah itu lebih banyak untuk membuat notasi matriks dan menghindari simbol penjumlahan.

A^{⊤} A x = A^{⊤} b

$A^\top A x=A^\top b$

— Haitao Du

Kami memang memiliki beberapa keuntungan dengan mengambil satu langkah lebih jauh, membuatnya menjadi perkalian matriks akan membuat kode lebih sederhana, dan di banyak platform seperti matlab, untuk loop dengan jumlah seluruh data, jauh lebih lambat daripada operasi matriks.

— Haitao Du

@ hxd1011: Hanya komentar kecil: mengurangi persamaan matriks tidak selalu bijaksana. Dalam kasus , Anda seharusnya tidak benar-benar mencoba mencari matriks invers , tetapi melakukan sesuatu seperti dekomposisi Cholesky yang akan jauh lebih cepat dan lebih stabil secara numerik. Untuk regresi logistik, ada banyak skema iterasi yang berbeda yang memang menggunakan perhitungan matriks. Untuk ulasan yang bagus, lihat di sini: research.microsoft.com/en-us/um/people/minka/papers/logreg/…

A^{T} A x = A^{T} b

$A^TAx=A^Tb$

A^{T} A

$A^TA$

— Alex R.

@AlexR. Terima kasih banyak. Saya belajar bahwa menggunakan persamaan normal akan membuat angka bersyarat matriks kuadrat. Dan QR atau Cholesky akan jauh lebih baik. Tautan Anda hebat, ulasan seperti itu dengan metode numerik selalu saya inginkan.

— Haitao Du

Jawaban @ joceratops berfokus pada masalah optimisasi kemungkinan maksimum untuk estimasi. Ini memang pendekatan yang fleksibel yang dapat menerima banyak jenis masalah. Untuk memperkirakan sebagian besar model, termasuk model regresi linier dan logistik, ada pendekatan umum lain yang didasarkan pada metode estimasi momen.

Estimator regresi linier juga dapat dirumuskan sebagai akar dari persamaan estimasi:

0 = X^{T} (Y - X β)

$0 = \mathbf{X}^T(Y - \mathbf{X}\beta)$

Dalam hal ini dilihat sebagai nilai yang mengambil residu rata-rata 0. Tidak perlu bergantung pada model probabilitas yang mendasari untuk memiliki interpretasi ini. Namun, menarik untuk mendapatkan persamaan skor untuk kemungkinan normal, Anda akan melihat bahwa mereka mengambil bentuk yang ditampilkan di atas. Memaksimalkan kemungkinan keluarga eksponensial reguler untuk model linier (misalnya regresi linier atau logistik) setara dengan memperoleh solusi untuk persamaan skor mereka. $\beta$

0 = \sum_{i = 1}^{n} S_{i} (α, β) = \frac{\partial}{\partial β} \log L (β, α, X, Y) = X^{T} (Y - g (X β))

$0 = \sum_{i=1}^n S_i(\alpha, \beta) = \frac{\partial}{\partial \beta} \log \mathcal{L}( \beta, \alpha, X, Y) = \mathbf{X}^T (Y - g(\mathbf{X}\beta))$

Di mana memiliki nilai yang diharapkan . Dalam estimasi GLM, dikatakan sebagai kebalikan dari fungsi tautan. Dalam persamaan kemungkinan normal, adalah fungsi identitas, dan dalam regresi logistik adalah fungsi logit. Pendekatan yang lebih umum akan membutuhkan yang memungkinkan untuk model kesalahan spesifikasi. $Y_i$ $g(\mathbf{X}_i \beta)$ $g$ $g^{-1}$ $g^{-1}$ $0 = \sum_{i=1}^n Y - g(\mathbf{X}_i\beta)$

Selain itu, menarik untuk dicatat bahwa untuk keluarga eksponensial reguler, yang disebut hubungan mean-variance. Memang untuk regresi logistik, hubungan varians rata-rata adalah sedemikian rupa sehingga rata-rataterkait dengan varians oleh $\frac{\partial g(\mathbf{X}\beta)}{\partial \beta} = \mathbf{V}(g(\mathbf{X}\beta))$ $p = g(\mathbf{X}\beta)$ $\mbox{var}(Y_i) = p_i(1-p_i)$ . Ini menunjukkan interpretasi dari model yang salah menentukan GLM sebagai salah satu yang memberikan 0 rata-rata Pearson residual. Ini lebih lanjut menyarankan generalisasi untuk memungkinkan derivatif rata-rata fungsional yang tidak proporsional dan hubungan mean-variance.

Sebuah umum memperkirakan persamaan pendekatan akan menentukan model linear dengan cara berikut:

0 = \frac{\partial g (X β)}{\partial β} V^{- 1} (Y - g (X β))

$0 = \frac{\partial g(\mathbf{X}\beta)}{\partial \beta} \mathbf{V}^{-1}\left(Y - g(\mathbf{X}\beta)\right)$

$\mathbf{V}$ $g(\mathbf{X}\beta)$

$g$ $V_{ii}$ $g(\mathbf{X}_i \beta)(1-g(\mathbf{X}\beta))$ $\beta$ . Yang - mengingat jebakan interpretasi OR yang terdokumentasi dengan baik sebagai RR - membuat saya bertanya mengapa ada orang yang cocok dengan model regresi logistik sama sekali.

— AdamO
sumber

+1 jawaban yang bagus. memformulasikannya sebagai temuan dasar pada turunan benar-benar baru bagi saya. dan persamaan kedua benar-benar singkat.

— Haitao Du