Pertanyaan ini menarik sejauh memaparkan beberapa koneksi antara teori optimasi, metode optimasi, dan metode statistik yang perlu dipahami oleh setiap pengguna statistik yang mampu. Meskipun koneksi ini sederhana dan mudah dipelajari, mereka halus dan sering diabaikan.
Untuk meringkas beberapa ide dari komentar ke balasan lain, saya ingin menunjukkan setidaknya ada dua cara yang "regresi linier" dapat menghasilkan solusi non-unik - bukan hanya secara teoritis, tetapi dalam prakteknya.
Kurangnya pengidentifikasian
Yang pertama adalah ketika model tidak dapat diidentifikasi. Ini menciptakan fungsi objektif cembung tetapi tidak sepenuhnya cembung yang memiliki beberapa solusi.
Perhatikan, misalnya, regresi terhadap x dan y (dengan intercept) untuk ( x , y , z ) Data ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) . Salah satu solusinya adalah z = 1 + y . Lain adalah zzxy(x,y,z)(1,−1,0),(2,−2,−1),(3,−3,−2)z^=1+y . Untuk melihat bahwa harus ada beberapa solusi, parameterkan model dengan tiga parameter nyata ( λ , μ , ν ) dan istilah kesalahan ε dalam bentukz^=1−x(λ,μ,ν)ε
z=1+μ+(λ+ν−1)x+(λ−ν)y+ε.
Jumlah kuadrat residu disederhanakan
SSR = 3 μ2+ 24 μ ν+ 56 ν2.
(Ini adalah kasus terbatas fungsi obyektif yang muncul dalam praktik, seperti yang dibahas di Dapatkah goni empiris dari penaksir-M menjadi tidak terbatas?) , Di mana Anda dapat membaca analisis terperinci dan melihat plot fungsi.)
Karena koefisien dari kuadrat ( dan 56 ) adalah positif dan penentu 3 × 56 - ( 24 / 2 ) 2 = 24 adalah positif, ini adalah bentuk kuadrat positif-semidefinite di ( μ , ν , λ ) . Ini diminimalkan ketika μ = ν = 0 , tetapi λ dapat memiliki nilai apa pun. Karena fungsi objektif SSR tidak bergantung pada λ3563 × 56 - ( 24 / 2 )2= 24( μ , ν, λ )μ = ν= 0λSSRλ, juga tidak gradiennya (atau turunan lainnya). Oleh karena itu, setiap algoritma gradient descent - jika tidak melakukan perubahan arah yang sewenang-wenang - akan menetapkan nilai solusi menjadi apa pun nilai awalnya.λ
Bahkan ketika gradient descent tidak digunakan, solusinya dapat bervariasi. Dalam R
, misalnya, ada dua mudah, cara setara untuk menentukan model ini: sebagai z ~ x + y
atau z ~ y + x
. Pertama hasil z = 1 - x tapi yang kedua memberikan z = 1 + y . z^=1−xz^=1+y
> x <- 1:3
> y <- -x
> z <- y+1
> lm(z ~ x + y)
Coefficients:
(Intercept) x y
1 -1 NA
> lm(z ~ y + x)
Coefficients:
(Intercept) y x
1 1 NA
( NA
Nilai - nilai harus ditafsirkan sebagai nol, tetapi dengan peringatan bahwa ada beberapa solusi. Peringatan itu mungkin karena analisis awal yang dilakukan dalam R
yang independen dari metode solusinya. Metode penurunan gradien kemungkinan tidak akan mendeteksi kemungkinan beberapa solusi, meskipun yang baik akan memperingatkan Anda tentang beberapa ketidakpastian bahwa itu telah sampai pada optimal.)
Batasan parameter
Convexity yang ketat menjamin global optimal yang unik, asalkan domain parameternya adalah cembung. Pembatasan parameter dapat membuat domain non-cembung, yang mengarah ke beberapa solusi global.
Contoh yang sangat sederhana diberikan oleh masalah memperkirakan "rata-rata" untuk data - 1 , 1 tunduk pada pembatasan | μ | ≥ 1 / 2 . Ini memodelkan situasi yang merupakan kebalikan dari metode regularisasi seperti Ridge Regression, Lasso, atau Elastic Net: bersikeras bahwa parameter model tidak menjadi terlalu kecil. (Berbagai pertanyaan muncul di situs ini menanyakan bagaimana menyelesaikan masalah regresi dengan batasan parameter seperti itu, menunjukkan bahwa mereka memang muncul dalam praktik.)μ−1,1|μ|≥1/2
(1−μ)2+(−1−μ)2|μ|≥1/2μ=±1/2μ∈(−∞,−1/2]∪[1/2,∞)
μμ=±1/25/2
μ=1/2μ=−1/2
Situasi yang sama dapat terjadi dengan kumpulan data yang lebih besar dan dalam dimensi yang lebih tinggi (yaitu, dengan lebih banyak parameter regresi yang sesuai).