Memahami Regresi Logistik dan kemungkinannya


12

Bagaimana cara estimasi parameter / Pelatihan regresi logistik bekerja? Saya akan mencoba untuk menempatkan apa yang saya dapatkan sejauh ini.

  1. Outputnya adalah y dari fungsi logistik yang berbentuk probabilitas tergantung pada nilai x:
    P(y=1|x)=11+eωTxσ(ωTx)
    P(y=0|x)=1P(y=1|x)=111+eωTx
  2. Untuk satu dimensi yang disebut Peluang didefinisikan sebagai berikut:
    p(y=1|x)1p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x
  3. Sekarang menambahkan logfungsi untuk mendapatkan W_0 dan W_1 dalam bentuk linear:
    Logit(y)=log(p(y=1|x)1p(y=1|x))=ω0+ω1x
  4. Sekarang ke bagian masalah Menggunakan kemungkinan (Big X adalah y) Bisakah ada yang tahu mengapa kita mempertimbangkan probabilitas y = 1 dua kali? sejak:
    L(X|P)=i=1,yi=1NP(xi)i=1,yi=0N(1P(xi))
    P(y=0|x)=1P(y=1|x)

dan bagaimana mendapatkan nilai ω darinya?

Jawaban:


10

Asumsikan secara umum bahwa Anda memutuskan untuk mengambil model formulir

P(y=1|X=x)=h(x;Θ)

untuk beberapa parameter . Maka Anda cukup menuliskan kemungkinan untuk itu, yaituΘ

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0P(y=0|x=x;Θ)

yang sama dengan

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0(1P(y=1|x=x;Θ))

Sekarang Anda telah memutuskan untuk 'berasumsi' (model)

P(y=1|X=x)=σ(Θ0+Θ1x)

di mana

σ(z)=1/(1+ez)

jadi Anda hanya menghitung rumus untuk kemungkinan dan melakukan beberapa jenis algoritma optimasi untuk menemukan , misalnya, metode newton atau metode berbasis gradien lainnya.argmaxΘL(Θ)

Perhatikan bahwa kadang-kadang, orang mengatakan bahwa ketika mereka melakukan regresi logistik mereka tidak memaksimalkan kemungkinan (seperti yang kita / Anda lakukan di atas) tetapi mereka meminimalkan fungsi kerugian

l(Θ)=i=1Nyilog(P(Yi=1|X=x;Θ))+(1yi)log(P(Yi=0|X=x;Θ))

tetapi perhatikan bahwa .log(L(Θ))=l(Θ)

Ini adalah pola umum dalam Pembelajaran Mesin: Sisi praktis (meminimalkan fungsi kerugian yang mengukur seberapa 'salah' model heuristik) sebenarnya sama dengan 'sisi teoretis' (pemodelan secara eksplisit dengan simbol- , yang memaksimalkan jumlah statistik seperti kemungkinan) dan pada kenyataannya, banyak model yang tidak terlihat seperti probabilistik (misalnya SVM) dapat dipahami kembali dalam konteks probabilistik dan pada kenyataannya adalah maksimalisasi kemungkinan.P


@Erner terima kasih atas jawaban Anda. Tetapi saya masih perlu sedikit klarifikasi.1 dapatkah Anda jelaskan apa yang tinggal 2 dalam definisi L ( θ ) karena sejauh saya memahaminya saya diintervensi dalam kasus y i = 1 . dan bagaimana bisa mendapatkan nilai ω 1 dan ω 0 terima kasih banyak atas bantuan Anda! L(θ)yi=1ω1ω0
Mesin

@ Engine: 'pi' besar adalah produk ... seperti Sigma besar adalah penjumlahan ... apakah Anda mengerti atau Anda perlu klarifikasi lebih lanjut tentang itu juga? Pada pertanyaan kedua: Katakanlah kita ingin meminimalkan fungsi f ( x ) = x 2 dan kita mulai dari x = 3 tetapi mari kita asumsikan bahwa kita tidak tahu / tidak bisa mengekspresikan / tidak dapat memvisualisasikan f karena rumit . Sekarang turunan dari f adalah f = 2 x . Menariknya jika kita benar dari minimum x = 0Σf(x)=x2x=3fff=2xx=0itu menunjuk ke kanan dan jika kita dibiarkan itu menunjuk ke kiri. Secara matematis, turunan menunjuk ke arah 'pendakian terkuat'
Fabian Werner

@ Engine: Dalam lebih banyak dimensi Anda mengganti turunan dengan gradien, yaitu Anda mulai pada titik acak dan menghitung gradien f pada x dan jika Anda ingin memaksimalkan maka titik berikutnya x 1 adalah x 1 = x 0 + f ( x 0 ) . Kemudian Anda menghitung f ( x 1 ) dan Anda x berikutnya adalah x 2 = x 1 + f ( x 1x0fxx1x1=x0+f(x0)f(x1)x dan sebagainya. Ini disebut gradient ascend / descent dan merupakan teknik yang paling umum dalam memaksimalkan suatu fungsi. Sekarang Anda melakukannya dengan L ( Θ ) atau dengan notasi Anda L ( ω ) untuk menemukan ω yang memaksimalkan Lx2=x1+f(x1)L(Θ)L(ω)ωL
Fabian Werner

y=1ωωy=1y=1 y=0
Fabian Werner

8

,yi=1,yi=0

ωω


yi=0ω

i=1,y=1Ni=1Ny=1

Ada banyak kemungkinan algoritma untuk memaksimalkan fungsi kemungkinan. Yang paling umum, metode Newton-Raphson , memang melibatkan menghitung turunan pertama dan kedua.
Maarten Buis
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.