Bukti bahwa model CRF dan model logistik adalah fungsi cembung

8

Di mana saya dapat menemukan bukti yang baik bahwa model berbasis CRF dan model berbasis regresi logistik cembung? Apakah ada trik umum untuk menguji / membuktikan bahwa model atau fungsi objektif cembung?

logistic optimization

— euphoria83
sumber

7

Salah satu triknya adalah menulis ulang fungsi objektif dalam hal fungsi yang dikenal sebagai cembung.

Fungsi obyektif dari model log-linear ML yang terlatih adalah jumlah kemungkinan log-negatif, sehingga cukup untuk menunjukkan bahwa kemungkinan log-negatif untuk setiap titik data adalah cembung.

Mempertimbangkan datapoint tetap, kita dapat menuliskan istilah kemungkinan log negatif sebagai

- ⟨ θ, ϕ (y) ⟩ + \log \sum_{y} \exp (⟨ θ, ϕ (y) ⟩)

$-\langle \theta,\phi(y)\rangle+\log \sum_y \exp(\langle \theta,\phi(y)\rangle)$

Istilah pertama adalah linear sehingga cukup untuk menunjukkan bahwa istilah kedua, yang dikenal sebagai log-normalizer, adalah cembung.

Tulis sebagai $f(\mathbf{g}(\mathbf{\theta}))$ dimana $f(\mathbf{y})=\log \sum_y \exp y$ dan $g_y(\theta)=\langle \mathbf{\theta},\phi(y)\rangle$ . Sini $g$ adalah fungsi linier, dan $f$ adalah fungsi cembung yang dikenal yang disebut log-sum-exp. Lihat halaman 72 dari Convex Optimasi Boyd buku . Komposisi fungsi cembung dan fungsi linier adalah cembung, lihat bagian 3.2.2

Pendekatan lain adalah dengan menggunakan fakta bahwa log-normalizer adalah fungsi penghasil kumulant. Misalnya, lihat contoh 3.41 dalam buku Boyd, atau Proposisi 3.1 dalam naskah "Model grafis, keluarga eksponensial, dan inferensi variasional" Wainwright . Ini berarti bahwa turunan kedua adalah matriks kovarian dari statistik yang cukup $\phi$ yang menurut definisi adalah semi-pasti positif, yang berarti bahwa Hessian dari log-normalizer adalah semi-pasti positif. Hessian semi-pasti positif menjamin fungsinya cembung, lihat bagian 3.1.4 dari buku Boyd.

Secara teknis, log-normalizer bukanlah fungsi penghasil kumul tradisional. CGF adalah $g(\phi)=\log(Z(\theta+\phi))-\log(Z(\theta))$ . Namun, turunan dari normalizer dievaluasi pada $\theta$ sama dengan turunan dari CGF yang dievaluasi pada $\mathbf{0}$ , sehingga menghasilkan kumulan seperti CGF.

Saya tidak dapat menemukan bukti kesetaraan penuh, biasanya orang menghilangkannya karena itu hanya beberapa langkah dari aljabar yang tidak membangkitkan semangat. Derivasi yang sangat singkat untuk ruang keluaran berkelanjutan ada di halaman 5 dari tesis "Model Grafis" Xinhua Zhang . Saya percaya derivasi melihat penuh dalam Lawrence D. Brown "Dasar-dasar keluarga eksponensial statistik"

— Yaroslav Bulatov
sumber

2

Pertama, konveksitas tidak hanya merupakan fitur dari suatu fungsi, tetapi lebih pada fungsi dan domain yang didefinisikan.

Untuk menjawab pertanyaan Anda secara lebih langsung, trik lain (bukan formulasi lain) adalah menghitung matriks Hessian dari fungsi kemungkinan Anda. A per wiki fungsi kontinu, dua kali dapat dibedakan dari beberapa variabel adalah cembung pada himpunan cembung jika dan hanya jika matriks Hessiannya adalah semidefinit positif pada interior himpunan cembung .

Karena Hessian benar-benar simetris, cukuplah untuk memiliki dominasi diagonal , untuk itu menjadi PSD (ini jelas terlihat untuk model logistik).

— pengguna603
sumber