Notasi matriks untuk regresi logistik


15

Dalam regresi linear (kerugian kuadrat), menggunakan matriks kami memiliki notasi yang sangat ringkas untuk tujuan

minimize  Axb2

Di mana adalah matriks data, adalah koefisien, dan adalah respons.x bAxb

Apakah ada notasi matriks yang serupa untuk tujuan regresi logistik? Semua notasi yang saya lihat tidak dapat menghilangkan jumlah atas semua titik data (seperti ).dataLlogistic(y,βTx)


EDIT: terima kasih atas joceratops dan jawaban bagus AdamO. Jawaban mereka membantu saya untuk menyadari bahwa alasan lain regresi linier memiliki notasi yang lebih ringkas adalah karena definisi norma, yang merangkum kuadrat dan jumlah atau ee . Tetapi dalam kerugian logistik, tidak ada definisi seperti itu, yang membuat notasi sedikit lebih rumit.

Jawaban:


18

Dalam regresi linier, solusi Maximize Likelihood Estimation (MLE) untuk memperkirakan x memiliki solusi form tertutup berikut (dengan asumsi bahwa A adalah matriks dengan peringkat kolom penuh):

x^lin=argminxSEBUAHx-b22=(SEBUAHTSEBUAH)-1SEBUAHTb

Ini dibaca sebagai "temukan x yang meminimalkan fungsi objektif, SEBUAHx-b22 ". Bagus hal tentang mewakili fungsi tujuan regresi linier dengan cara ini adalah bahwa kita dapat menjaga semuanya dalam notasi matriks dan memecahkan untuk x lin dengan tangan. Seperti yang disebutkan oleh Alex R., dalam praktiknya kita sering tidak mempertimbangkan secara langsung karena secara komputasi tidak efisien dan sering tidak memenuhi kriteria peringkat penuh. Sebaliknya, kita beralih ke pseudoinverse Moore-Penrosex^lin(SEBUAHTSEBUAH)-1A. Rincian penyelesaian komputasi untuk invers pseudo dapat melibatkan dekomposisi Cholesky atau Dekomposisi Nilai Singular.

Atau, solusi MLE untuk memperkirakan koefisien dalam regresi logistik adalah:

x^log=argminxi=1Ny(i)log(1+exTa(i))+(1y(i))log(1+exTa(i))

di mana (dengan asumsi masing-masing sampel data disimpan dengan bijaksana):

x adalah vektor yang mewakili koefisien regresi

a(i) i t h A adalah vektor yang mewakili sampel / baris dalam matriks dataithA

y(i) adalah skalar dalam , dan label sesuai dengan sampel{0,1}ithith

NA adalah jumlah sampel data / jumlah baris dalam data matriks .A

Sekali lagi, ini dibaca sebagai "temukan yang meminimalkan fungsi tujuan".x

Jika Anda mau, Anda bisa melangkah lebih jauh dan mewakili dalam notasi matriks sebagai berikut:x^log

x^log=argminx[1(1y(1))1(1y(N))][log(1+exTa(1))...log(1+exTa(N))log(1+exTa(1))...log(1+exTa(N))]

tetapi Anda tidak mendapatkan apa-apa dari melakukan ini. Regresi logistik tidak memiliki solusi bentuk tertutup dan tidak mendapatkan manfaat yang sama dengan regresi linier dengan merepresentasikannya dalam notasi matriks. Untuk menyelesaikan teknik estimasi seperti gradient descent dan metode Newton-Raphson digunakan. Dengan menggunakan beberapa teknik ini (yaitu Newton-Raphson), diperkirakan dan direpresentasikan dalam notasi matriks ( lihat tautan yang disediakan oleh Alex R. ).x^logx^log


Bagus. Terima kasih. Saya pikir alasan kami tidak memiliki sesuatu seperti menyelesaikan adalah alasan kami tidak mengambil langkah itu lebih banyak untuk membuat notasi matriks dan menghindari simbol penjumlahan. AAx=Ab
Haitao Du

Kami memang memiliki beberapa keuntungan dengan mengambil satu langkah lebih jauh, membuatnya menjadi perkalian matriks akan membuat kode lebih sederhana, dan di banyak platform seperti matlab, untuk loop dengan jumlah seluruh data, jauh lebih lambat daripada operasi matriks.
Haitao Du

5
@ hxd1011: Hanya komentar kecil: mengurangi persamaan matriks tidak selalu bijaksana. Dalam kasus , Anda seharusnya tidak benar-benar mencoba mencari matriks invers , tetapi melakukan sesuatu seperti dekomposisi Cholesky yang akan jauh lebih cepat dan lebih stabil secara numerik. Untuk regresi logistik, ada banyak skema iterasi yang berbeda yang memang menggunakan perhitungan matriks. Untuk ulasan yang bagus, lihat di sini: research.microsoft.com/en-us/um/people/minka/papers/logreg/…ATAx=ATbATA
Alex R.

1
@AlexR. Terima kasih banyak. Saya belajar bahwa menggunakan persamaan normal akan membuat angka bersyarat matriks kuadrat. Dan QR atau Cholesky akan jauh lebih baik. Tautan Anda hebat, ulasan seperti itu dengan metode numerik selalu saya inginkan.
Haitao Du

15

Jawaban @ joceratops berfokus pada masalah optimisasi kemungkinan maksimum untuk estimasi. Ini memang pendekatan yang fleksibel yang dapat menerima banyak jenis masalah. Untuk memperkirakan sebagian besar model, termasuk model regresi linier dan logistik, ada pendekatan umum lain yang didasarkan pada metode estimasi momen.

Estimator regresi linier juga dapat dirumuskan sebagai akar dari persamaan estimasi:

0=XT(Y-Xβ)

Dalam hal ini dilihat sebagai nilai yang mengambil residu rata-rata 0. Tidak perlu bergantung pada model probabilitas yang mendasari untuk memiliki interpretasi ini. Namun, menarik untuk mendapatkan persamaan skor untuk kemungkinan normal, Anda akan melihat bahwa mereka mengambil bentuk yang ditampilkan di atas. Memaksimalkan kemungkinan keluarga eksponensial reguler untuk model linier (misalnya regresi linier atau logistik) setara dengan memperoleh solusi untuk persamaan skor mereka.β

0=i=1nSi(α,β)=βlogL(β,α,X,Y)=XT(Yg(Xβ))

Di mana memiliki nilai yang diharapkan g ( X i β ) . Dalam estimasi GLM, g dikatakan sebagai kebalikan dari fungsi tautan. Dalam persamaan kemungkinan normal, g - 1 adalah fungsi identitas, dan dalam regresi logistik g - 1 adalah fungsi logit. Pendekatan yang lebih umum akan membutuhkan 0 = Σ n i = 1 Y - g ( X i β ) yang memungkinkan untuk model kesalahan spesifikasi.Yig(Xiβ)gg1g10=i=1nYg(Xiβ)

Selain itu, menarik untuk dicatat bahwa untuk keluarga eksponensial reguler, yang disebut hubungan mean-variance. Memang untuk regresi logistik, hubungan varians rata-rata adalah sedemikian rupa sehingga rata-ratap=g(Xβ)terkait dengan varians olehvar(Yi)=pi(1-pi)g(Xβ)β=V(g(Xβ))p=g(Xβ)var(Yi)=pi(1pi). Ini menunjukkan interpretasi dari model yang salah menentukan GLM sebagai salah satu yang memberikan 0 rata-rata Pearson residual. Ini lebih lanjut menyarankan generalisasi untuk memungkinkan derivatif rata-rata fungsional yang tidak proporsional dan hubungan mean-variance.

Sebuah umum memperkirakan persamaan pendekatan akan menentukan model linear dengan cara berikut:

0=g(Xβ)βV1(Yg(Xβ))

Vg(Xβ)

gViig(Xiβ)(1g(Xβ))β. Yang - mengingat jebakan interpretasi OR yang terdokumentasi dengan baik sebagai RR - membuat saya bertanya mengapa ada orang yang cocok dengan model regresi logistik sama sekali.


1
+1 jawaban yang bagus. memformulasikannya sebagai temuan dasar pada turunan benar-benar baru bagi saya. dan persamaan kedua benar-benar singkat.
Haitao Du
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.