Ya, Anda benar bahwa ada kekurangan pengidentifikasian kecuali salah satu vektor koefisien diperbaiki. Ada beberapa alasan yang tidak menyebutkan hal ini. Saya tidak dapat berbicara mengapa mereka menghilangkan detail ini, tetapi inilah penjelasan tentang apa itu dan bagaimana cara memperbaikinya.
Deskripsi
Katakanlah Anda memiliki pengamatan dan prediktor , di mana beralih dari ke dan menunjukkan angka / indeks pengamatan. Anda akan perlu memperkirakan berdimensi koefisien vektor .yi∈{0,1,2,…,K−1}x⊺i∈Rpi1nK pβ0,β1,…,βK−1
Fungsi softmax memang didefinisikan sebagai
yang memiliki sifat-sifat bagus seperti dapat dibedakan, jumlahnya menjadi , dll.softmax(z)i=exp(zi)∑K−1l=0exp(zl),
1
Regresi logistik multinomial menggunakan fungsi Softmax untuk setiap pengamatan pada vektor
i⎡⎣⎢⎢⎢⎢⎢x⊺iβ0x⊺iβ1⋮x⊺iβK−1,⎤⎦⎥⎥⎥⎥⎥
yang berarti
⎡⎣⎢⎢⎢⎢⎢P(yi=0)P(yi=1)⋮P(yi=K−1)⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
Masalah
Namun, kemungkinannya tidak dapat diidentifikasi karena beberapa koleksi parameter akan memberikan kemungkinan yang sama. Misalnya, menggeser semua vektor koefisien dengan vektor yang sama akan menghasilkan kemungkinan yang sama. Ini dapat dilihat jika Anda mengalikan setiap pembilang dan penyebut dari setiap elemen vektor dengan konstanta , tidak ada yang berubah:cexp[−x⊺ic]
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺i(β0−c)]∑K−1k=0exp[x⊺i(βk−c)]exp[x⊺i(β1−c)]∑K−1k=0exp[x⊺i(βk−c)]⋮exp[x⊺i(βK−1−c)]∑K−1k=0exp[x⊺i(βk−c)]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
Memperbaikinya
Cara untuk memperbaikinya adalah dengan membatasi parameter. Memperbaiki salah satu dari mereka akan mengarah pada pengidentifikasian, karena menggeser semuanya tidak lagi diizinkan.
Ada dua pilihan umum:
- set , yang berarti (Anda menyebutkan ini), danc=β0β0=0
- set , yang berarti .c=βK−1βK−1=0
Abaikan saja
Namun, terkadang pembatasan itu tidak perlu. Misalnya, jika Anda tertarik untuk membentuk interval kepercayaan untuk kuantitas , maka ini sama dengan , jadi inferensi pada jumlah yang relatif tidak terlalu penting. Juga, jika tugas Anda adalah prediksi dan bukan inferensi parameter, prediksi Anda tidak akan terpengaruh jika semua vektor koefisien diestimasi (tanpa membatasi satu).β01−β21β01−c−[β21−c]