Apa arti dari bilah ganda dan 2 di bagian bawah dalam kuadrat terkecil biasa?

Saya melihat notasi ini untuk kuadrat terkecil di sini .

min_{w} {‖ X w - y ‖}_{2}^{2}

$\min_w \left\| Xw - y \right\|^2_2$

Saya belum pernah melihat bilah ganda dan 2 di bagian bawah. Apakah arti simbol ini? Apakah mereka memiliki terminologi khusus untuk mereka?

— Aseem Bansal
sumber

Penggunaan bilah ganda hanya menunjukkan bahwa kita menggunakan norma L2.

— Michael R. Chernick

@MichaelChernick dan 2? Apakah itu bagian dari "norma L2"?

— Aseem Bansal

Ya, seperti L2, ada juga L1.

— Jon

Saya pikir

X_{w}

$X_w$ harus

X w

$Xw$ karena

w

$w$ adalah vektor

— ilanman

@ilanman Ya itu yang ada di notasi sebelum edit. Saya mengubahnya kembali

— Aseem Bansal

Anda sedang berbicara tentang -norm (norma Euclidean) dari vektor ( ). Jika ini asing bagi Anda, secara singkat, -norm vektor , adalah: $\ell_2$ $Xw - y$ $\ell_p$ $u \in \mathbb{R}^{n}$

‖ u ‖_{p} = (\sum_{i = 1}^{n} | u_{i} |^{p})^{\frac{1}{p}}

$\|u\|_p = \big(\sum_{i=1}^{n} |u_i|^p\big)^{\frac1p}$

Jadi dalam kasus Anda yang konsisten dengan jumlah residu kuadrat untuk regresi linier. Dalam konteks masalah regresi, Anda juga akan melihat ini banyak dalam perhitungan mean squared error (MSE), dan dalam regresi ridge . $\|u\|_2^2 = (\big(\sum\limits_{i=1}^{n} |u_i|^2\big)^{\frac12})^2 = \sum\limits_{i=1}^{n} u_i^2$

Ini adalah norma umum (di antara alasan lain, ini nyaman secara matematis), jadi ketika jelas dari konteksnya, Anda akan melihat lebih rendah dihilangkan, dan hanya . $2$ $\|u\|^2$

Seperti disebutkan dalam komentar, Anda juga dapat melihat -norm: $\ell_1$

‖ u ‖_{1} = \sum_{i = 1}^{n} | u_{i} |

$\|u\|_1 = \sum_{i=1}^{n} |u_i|$

Yang sesuai dengan nilai absolut. Sekali lagi, Anda akan melihat ini dalam mean absolute error (MAE) atau masalah laso .

Norma populer lainnya:

-norm: Jarak Hamming , atau # bukan-nol dalam vektor, yaitu dalam menghitung sparsity dari vektor. Secara teknis ini bukan norma (ini adalah fungsi kardinalitas), karena Anda memiliki istilah dalam definisi, tetapi memiliki bentuk norma sehingga kami menyebutnya satu.
- Norma ini adalah norma ideal yang digunakan dalam menginduksi sparsity untuk masalah regresi karena kami benar-benar ingin nol koefisien, namun komputasi regularisasi $\ell_0$ adalah NP-keras, jadi alih-alih kami memperkirakannya dengan $\ell_1$ yang dapat dipecahkan melalui pemrograman linear. Ini juga populer di Penginderaan Terkompresi .
$\ell_{\infty}$ -norm: = $\underset{i} {\text{max}}$ $\{|x_i|\}$ untuk $i = 1, ..., n$
$\|A\|_F$ : Norma Frobenius (Euclidean), diterapkan pada matriks $A \in \mathbb{R}^{n\times m} = \sqrt{\sum \limits_{i=1}^{n}\sum \limits_{j=1}^{m}|a_{ij}|^2}$

— ilanman
sumber

Tautan ke wolfram alpha sangat membantu.

— Aseem Bansal

Anda menulis bahwa (pseudo) menghitung jumlah nol dalam vektor — apakah Anda mungkin berarti jumlah entri yang bukan nol ? (Ini akan lebih konsisten dengan apa yang saya lihat, dan juga berarti bahwa akan menjadi jarak Hamming antara dan , sebagai lawan dari minus itu jarak.)

ℓ_{0}

$\ell_0$

‖ u ‖_{0}

$\lVert u \rVert_{0}$

u

$u$

0 \in R^{n}

$0 \in \mathbb R^n$

n

$n$

— wchargin

Kesalahan pengejaan: "Frobenius".

— hobbs

Alih-alih "ini adalah norma umum" Saya akan hanya mengatakan "L2 adalah norma";)

— user541686