Mengapa kehilangan norma L2 memiliki solusi unik dan kehilangan norma L1 memiliki beberapa solusi?

16

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

Jika Anda melihat bagian atas tulisan ini, penulis menyebutkan bahwa norma L2 memiliki solusi yang unik dan norma L1 memiliki banyak solusi. Saya mengerti ini dalam hal regularisasi, tetapi tidak dalam hal menggunakan norma L1 atau norma L2 dalam fungsi kerugian.

Jika Anda melihat grafik fungsi skalar x (x ^ 2 dan | x |), Anda dapat dengan mudah melihat keduanya memiliki satu solusi unik.

regression lasso regularization

— pengguna3180
sumber

2

"fnx"? ... Harap edit untuk membuat ini lebih jelas. Apakah maksud Anda "fungsi"?

— Glen_b -Reinstate Monica

25

Mari kita pertimbangkan masalah satu dimensi untuk eksposisi sesederhana mungkin. (Kasus dimensi yang lebih tinggi memiliki sifat yang serupa.)

Sementara keduanyadan masing-masing memiliki minimum unik,(sejumlah fungsi nilai absolut dengan x-offset berbeda) seringkali tidak. Pertimbangkan dan : $|x-\mu|$ $(x-\mu)^2$ $\sum_i |x_i-\mu|$ $x_1=1$ $x_2=3$

(NB terlepas dari label pada sumbu x, ini benar-benar fungsi dari ; Saya harus memodifikasi label tetapi saya hanya akan membiarkannya apa adanya) $\mu$

Dalam dimensi yang lebih tinggi, Anda bisa mendapatkan wilayah dengan minimum konstan dengan -norm. Ada contoh dalam hal pemasangan garis di sini . $L_1$

Jumlah kuadratik masih kuadratik, sehingga akan memiliki solusi unik. Dalam dimensi yang lebih tinggi (regresi berganda katakan) masalah kuadrat mungkin tidak secara otomatis memiliki minimum yang unik - Anda mungkin memiliki multikolinieritas yang mengarah ke punggungan dimensi yang lebih rendah dalam negatif dari kerugian dalam ruang parameter; itu masalah yang agak berbeda dari yang disajikan di sini. $\sum_i (x_i-\mu)^2 = n(\bar{x}-\mu)^2+k(\mathbf{x})$

Sebuah peringatan. Laman yang Anda tautkan ke klaim bahwa -pengaturan normal adalah kuat. Saya harus mengatakan saya tidak sepenuhnya setuju. Ini kuat terhadap penyimpangan besar dalam arah-y, selama mereka bukan titik-titik yang berpengaruh (discrepant in x-space). Ini dapat secara sewenang-wenang dikacaukan oleh bahkan satu pencilan berpengaruh. Ada contoh di sini . $L_1$

Karena (di luar beberapa keadaan tertentu) Anda biasanya tidak memiliki jaminan seperti tidak ada pengamatan yang sangat berpengaruh, saya tidak akan menyebut L1-regresi kuat.

Kode R untuk plot:

 fi <- function(x,i=0) abs(x-i)
 f <- function(x) fi(x,1)+fi(x,3)
 plot(f,-1,5,ylim=c(0,6),col="blue",lwd=2)
 curve(fi(x,1),-1,5,lty=3,col="dimgrey",add=TRUE)
 curve(fi(x,3),-1,5,lty=3,col="dimgrey",add=TRUE)

— Glen_b -Reinstate Monica
sumber

Ini bagus. Perangkat lunak apa yang Anda gunakan untuk membuat grafik?

— user3180

2

R. Ini hanya dilakukan dalam grafis dasar. Saya telah menambahkan kode ke akhir jawaban saya.

— Glen_b -Reinstate Monica

1

Woah, tidak pernah sadar Anda bisa memasok fungsi plot. Tercengang.

— JAD

5

Meminimalkan kerugian L2 sesuai dengan menghitung rata-rata aritmatika, yang tidak ambigu, sementara meminimalkan kehilangan L1 sesuai dengan menghitung median, yang ambigu jika jumlah elemen genap dimasukkan dalam perhitungan median (lihat Kecenderungan pusat: Solusi untuk masalah variasi) ).

— Halo selamat tinggal
sumber