Bisakah ada beberapa solusi optimal lokal ketika kita menyelesaikan regresi linier?

Saya membaca pernyataan ini pada satu ujian benar / salah lama:

Kita bisa mendapatkan beberapa solusi optimal lokal jika kita memecahkan masalah regresi linier dengan meminimalkan jumlah kesalahan kuadrat menggunakan gradient descent.

Solusi: Salah

Pertanyaan saya adalah, bagian mana dari pertanyaan ini yang salah? Mengapa pernyataan ini salah?

least-squares gradient-descent convex

— Anjela Minoeu
sumber

Jawaban:

Pertanyaan ini menarik sejauh memaparkan beberapa koneksi antara teori optimasi, metode optimasi, dan metode statistik yang perlu dipahami oleh setiap pengguna statistik yang mampu. Meskipun koneksi ini sederhana dan mudah dipelajari, mereka halus dan sering diabaikan.

Untuk meringkas beberapa ide dari komentar ke balasan lain, saya ingin menunjukkan setidaknya ada dua cara yang "regresi linier" dapat menghasilkan solusi non-unik - bukan hanya secara teoritis, tetapi dalam prakteknya.

Kurangnya pengidentifikasian

Yang pertama adalah ketika model tidak dapat diidentifikasi. Ini menciptakan fungsi objektif cembung tetapi tidak sepenuhnya cembung yang memiliki beberapa solusi.

Perhatikan, misalnya, regresi terhadap dan (dengan intercept) untuk Data . Salah satu solusinya adalah . Lain adalah $z$ $x$ $y$ $(x,y,z)$ $(1,-1,0),(2,-2,-1),(3,-3,-2)$ $\hat z = 1 + y$ . Untuk melihat bahwa harus ada beberapa solusi, parameterkan model dengan tiga parameter nyata dan istilah kesalahan dalam bentuk $\hat z = 1-x$ $(\lambda,\mu,\nu)$ $\varepsilon$

z = 1 + μ + (λ + ν - 1) x + (λ - ν) y + ε .

$z = 1+\mu + (\lambda + \nu - 1)x + (\lambda -\nu)y + \varepsilon.$

Jumlah kuadrat residu disederhanakan

SSR = 3 μ^{2} + 24 μ ν + 56 ν^{2} .

$\operatorname{SSR} = 3\mu^2 + 24 \mu\nu + 56 \nu^2.$

(Ini adalah kasus terbatas fungsi obyektif yang muncul dalam praktik, seperti yang dibahas di Dapatkah goni empiris dari penaksir-M menjadi tidak terbatas?) , Di mana Anda dapat membaca analisis terperinci dan melihat plot fungsi.)

Karena koefisien dari kuadrat ( dan ) adalah positif dan penentu adalah positif, ini adalah bentuk kuadrat positif-semidefinite di . Ini diminimalkan ketika , tetapi dapat memiliki nilai apa pun. Karena fungsi objektif tidak bergantung pada $3$ $56$ $3\times 56 - (24/2)^2 = 24$ $(\mu,\nu,\lambda)$ $\mu=\nu=0$ $\lambda$ $\operatorname{SSR}$ $\lambda$ , juga tidak gradiennya (atau turunan lainnya). Oleh karena itu, setiap algoritma gradient descent - jika tidak melakukan perubahan arah yang sewenang-wenang - akan menetapkan nilai solusi menjadi apa pun nilai awalnya. $\lambda$

Bahkan ketika gradient descent tidak digunakan, solusinya dapat bervariasi. Dalam R, misalnya, ada dua mudah, cara setara untuk menentukan model ini: sebagai z ~ x + yatau z ~ y + x. Pertama hasil tapi yang kedua memberikan . $\hat z = 1 - x$ $\hat z = 1 + y$

> x <- 1:3
> y <- -x
> z <- y+1

> lm(z ~ x + y)
Coefficients:
(Intercept)            x            y  
          1           -1           NA  


> lm(z ~ y + x)
Coefficients:
(Intercept)            y            x  
          1            1           NA

( NANilai - nilai harus ditafsirkan sebagai nol, tetapi dengan peringatan bahwa ada beberapa solusi. Peringatan itu mungkin karena analisis awal yang dilakukan dalam Ryang independen dari metode solusinya. Metode penurunan gradien kemungkinan tidak akan mendeteksi kemungkinan beberapa solusi, meskipun yang baik akan memperingatkan Anda tentang beberapa ketidakpastian bahwa itu telah sampai pada optimal.)

Batasan parameter

Convexity yang ketat menjamin global optimal yang unik, asalkan domain parameternya adalah cembung. Pembatasan parameter dapat membuat domain non-cembung, yang mengarah ke beberapa solusi global.

Contoh yang sangat sederhana diberikan oleh masalah memperkirakan "rata-rata" untuk data tunduk pada pembatasan . Ini memodelkan situasi yang merupakan kebalikan dari metode regularisasi seperti Ridge Regression, Lasso, atau Elastic Net: bersikeras bahwa parameter model tidak menjadi terlalu kecil. (Berbagai pertanyaan muncul di situs ini menanyakan bagaimana menyelesaikan masalah regresi dengan batasan parameter seperti itu, menunjukkan bahwa mereka memang muncul dalam praktik.) $\mu$ $-1, 1$ $|\mu| \ge 1/2$

$(1-\mu)^2 + (-1-\mu)^2$ $|\mu| \ge 1/2$ $\mu=\pm 1/2$ $\mu \in (-\infty, -1/2]\cup [1/2, \infty)$

$Plot jumlah kuadrat terhadap $ \ mu $$

$\mu$ $\mu=\pm 1/2$ $5/2$

$\mu=1/2$ $\mu=-1/2$

Situasi yang sama dapat terjadi dengan kumpulan data yang lebih besar dan dalam dimensi yang lebih tinggi (yaitu, dengan lebih banyak parameter regresi yang sesuai).

— whuber
sumber

f (x, y) = (x - y)^{2}

$f(x,y) = (x-y)^2$

y = x

$y=x$

@Kjetil Terima kasih, itu benar. Kuncinya di sini adalah untuk menunjukkan bagaimana fungsi-fungsi tersebut benar-benar muncul dalam situasi regresi. Fungsi Anda justru merupakan inspirasi untuk contoh pertama yang saya tawarkan.

— whuber

Contoh visual stats.stackexchange.com/a/151351/171583 .

— ayorgo

Saya khawatir tidak ada jawaban biner untuk pertanyaan Anda. Jika regresi Linear benar-benar cembung (tidak ada kendala pada koefisien, tidak ada regulator dll,) maka gradient descent akan memiliki solusi yang unik dan akan menjadi global optimal. Gradient descent dapat dan akan mengembalikan beberapa solusi jika Anda memiliki masalah non-cembung.

Meskipun OP meminta regresi linier, contoh di bawah ini menunjukkan minimalisasi kuadrat walaupun nonlinier (vs regresi linier yang diinginkan OP) dapat memiliki beberapa solusi dan gradient descent dapat mengembalikan solusi yang berbeda.

Saya dapat menunjukkan secara empiris menggunakan contoh sederhana itu

Jumlah kesalahan kuadrat kadang-kadang bisa menjadi non-cembung, oleh karena itu ada beberapa solusi
Metode keturunan gradien dapat memberikan beberapa solusi.

Pertimbangkan contoh di mana Anda mencoba meminimalkan kuadrat terkecil untuk masalah berikut:

masukkan deskripsi gambar di sini

$w$ $a$

$a_{12} =9,a_{13} = 1/9,a_{23}=9,a_{31}=1/9$

$minimize$ ${(9-\frac{w_1}{w_2})^2+(\frac{1}{9}-\frac{w_1}{w_3})^2+(\frac{1}{9}-\frac{w_2}{w_1})^2+(9-\frac{w_2}{w_3})^2+(9-\frac{w_3}{w_1})^2+(\frac{1}{9}-\frac{w_3}{w_2})^2}$

Masalah di atas memiliki 3 solusi berbeda dan mereka adalah sebagai berikut:

$w = (0.670,0.242,0.080),obj = 165.2$

$w = (0.080,0.242,0.670),obj = 165.2$

$w = (0.242,0.670,0.080),obj = 165.2$

Seperti yang ditunjukkan di atas masalah kuadrat terkecil bisa nonconvex dan dapat memiliki beberapa solusi. Kemudian masalah di atas dapat diselesaikan dengan menggunakan metode gradient descent seperti microsoft excel solver dan setiap kali kita menjalankan akhirnya kita mendapatkan solusi yang berbeda. karena gradient descent adalah pengoptimal lokal dan dapat terjebak dalam solusi lokal kita perlu menggunakan nilai awal yang berbeda untuk mendapatkan global optima yang sebenarnya. Masalah seperti ini tergantung pada nilai awal.

— peramal cuaca
sumber

Saya tidak berpikir ini menjawab pertanyaan OP karena OP menanyakan secara spesifik tentang regresi linier , bukan optimasi secara umum.

— Sycorax berkata Reinstate Monica

Tidak itu tidak, tetapi hanya mencoba membuat titik pada masalah dengan mengoptimalkan, akan memperbarui dengan peringatan

— peramal

@ user777 Anda benar. ini adalah pertanyaan yang sangat valid untuk ujian lama dari MIT. Saya yakin jawabannya salah dengan terima kasih kepada peramal.

— Anjela Minoeu

Jadi, apakah Anda yakin saya benar?

— Anjela Minoeu

@AnjelaMinoeu, saya telah memperbarui respons saya.

— peramal

Ini karena fungsi objektif yang Anda minimalkan adalah cembung, hanya ada satu minimum / maksimal. Oleh karena itu, optimum lokal juga optimal global. Keturunan gradien akan menemukan solusi pada akhirnya.

Mengapa fungsi objektif ini cembung? Ini adalah keindahan menggunakan kesalahan kuadrat untuk meminimalkan. Derivasi dan kesetaraan ke nol akan menunjukkan dengan baik mengapa hal ini terjadi. Ini cukup masalah buku teks dan dibahas hampir di mana-mana.

— Vladislavs Dovgalecs
sumber

Cembung tidak berarti minimum yang unik. Biasanya Anda perlu mengajukan cembung ketat fungsi objektif yang ditentukan pada domain cembung. Juga masalah di sini adalah kriteria terminasi untuk gradient descent menggunakan aritmatika floating point: bahkan ketika fungsi objektifnya benar-benar cembung, algoritma cenderung menemukan solusi yang berbeda (tergantung pada nilai awal) ketika fungsi tersebut hampir datar mendekati minimum.

— whuber

@whuber tolong tolong membuatnya lebih sederhana dan jelas untuk saya?

— Anjela Minoeu

@whuber Saya pikir masalah pertama adalah penggunaan terminologi. Kedua, kecemburuan tidak menyiratkan minimum yang unik. Saya tidak dapat melihat fungsi cekung yang dapat dibedakan yang tidak memiliki minimum / maksimum tunggal. Lihat buktinya di sini: planetmath.org/localminimumofconvexfunctionisn perlu global

— Vladislavs Dovgalecs

Saya belum repot-repot membaca buktinya, karena itu harus memanggil konveks yang ketat untuk menjadi benar. Masalah kuadrat terkecil dengan koefisien yang tidak dapat diidentifikasi akan menjadi cembung tetapi tidak sepenuhnya cembung, dan dengan demikian akan memiliki (tak terhingga) banyak solusi. Tapi itu tidak sepenuhnya relevan dengan gradient descent, yang memiliki masalah sendiri - beberapa di antaranya jelas dibahas dalam artikel Wikipedia . Dengan demikian, baik dalam pengertian teoritis dan praktis, jawaban yang benar untuk pertanyaan itu benar : gradien keturunan dapat - dan akan - memberikan banyak solusi.

— whuber

@whuber Ya, buktinya menarik bagi konveksitas yang ketat.

— Vladislavs Dovgalecs