Apakah optimasi PCA cembung?

12

Fungsi objektif dari Principal Component Analysis (PCA) adalah meminimalkan kesalahan rekonstruksi dalam norma L2 (lihat bagian 2.12 di sini . Pandangan lain sedang mencoba untuk memaksimalkan varians pada proyeksi. Kami juga memiliki posting yang sangat baik di sini: Apa fungsi tujuan PCA ? ).

Pertanyaan saya adalah apakah optimasi PCA cembung? (Saya menemukan beberapa diskusi di sini , tetapi berharap seseorang dapat memberikan bukti yang bagus di sini di CV).

— Haitao Du
sumber

3

Tidak. Anda memaksimalkan fungsi cembung (di bawah batasan).

— user603

5

Saya pikir Anda harus spesifik tentang apa yang Anda maksud dengan "optimasi PCA." Salah satu formulasi standar adalah untuk memaksimalkan

x^{'} A x

$x^\prime\mathbb{A}x$ subjek ke

x^{'} x = 1

$x^\prime x=1$ . Masalahnya adalah bahwa cembung bahkan tidak masuk akal: domain

x^{'} x = 1

$x^\prime x=1$ adalah bola, bukan ruang Euclidean.

— whuber

1

@whuber terima kasih atas komentar Anda, saya mungkin tidak dapat mengklarifikasi pertanyaan karena pengetahuan yang terbatas. Saya mungkin menunggu beberapa jawaban dapat membantu saya mengklarifikasi pertanyaan pada saat yang sama.

— Haitao Du

3

Saya akan merujuk Anda ke definisi "cembung" yang Anda kenal. Tidakkah mereka semua melibatkan konsep titik dalam domain fungsi yang terletak "di antara" titik lain? Itu perlu diingat, karena mengingatkan Anda untuk mempertimbangkan geometri domain fungsi serta sifat aljabar atau analitik dari nilai fungsi. Dalam terang itu, terpikir oleh saya bahwa formulasi varians-memaksimalkan dapat sedikit dimodifikasi untuk membuat domain cembung: cukup membutuhkan

daripada

. Solusinya sama - dan jawabannya menjadi cukup jelas.

x^{'} x \leq 1

$x^\prime x\le1$

x^{'} x = 1

$x^\prime x=1$

— Whuber

17

Tidak, formulasi PCA yang biasa bukan masalah cembung. Tetapi mereka dapat ditransformasikan menjadi masalah optimisasi cembung.

Wawasan dan kesenangan dari ini mengikuti dan memvisualisasikan urutan transformasi daripada hanya mendapatkan jawaban: itu terletak pada perjalanan, bukan tujuan. Langkah utama dalam perjalanan ini adalah

Dapatkan ungkapan sederhana untuk fungsi tujuan.
Perbesar domainnya, yang bukan cembung, menjadi domain yang cembung.
Ubah tujuan, yang bukan cembung, menjadi sesuatu yang, dengan cara yang jelas tidak mengubah titik di mana ia mencapai nilai optimalnya.

Jika Anda terus mencermati, Anda dapat melihat pengganda SVD dan Lagrange mengintai - tetapi mereka hanya tontonan, ada untuk pemandangan indah, dan saya tidak akan mengomentarinya lebih lanjut.

Formulasi memaksimalkan-varians standar PCA (atau setidaknya langkah kuncinya) adalah

\begin{matrix} (*) & Maximize f (x) = x^{'} A x subject to x^{'} x = 1 \end{matrix}

$\text{Maximize }f(x)=\ x^\prime \mathbb{A} x\ \text{ subject to }\ x^\prime x=1\tag{*}$

di mana matriks adalah matriks simetris, positif-semidefinit yang dibangun dari data (biasanya jumlah kuadrat dan matriks produknya, matriks kovariansnya, atau matriks korelasinya). $n\times n$ $\mathbb A$

(Dengan kata lain, kita dapat mencoba memaksimalkan objektif yang tidak dibatasi . Tidak hanya ini ekspresi yang lebih buruk - ini bukan lagi fungsi kuadrat - tetapi grafik kasus khusus akan dengan cepat menunjukkan itu bukan fungsi cembung) , salah satu. Biasanya orang mengamati fungsi ini invarian di bawah rescalings dan kemudian menguranginya ke formulasi terbatas .) $x^\prime \mathbb{A} x / x^\prime x$ $x\to \lambda x$ $(*)$

Setiap masalah optimasi dapat dirumuskan secara abstrak sebagai

Temukan setidaknya satu yang membuat fungsi sebesar mungkin. $x\in\mathcal{X}$ $f:\mathcal{X}\to\mathbb{R}$

Ingat bahwa masalah pengoptimalan adalah cembung saat menikmati dua properti terpisah:

The domain cembung. $\mathcal{X}\subset\mathbb{R}^n$ Ini dapat dirumuskan dengan banyak cara. Salah satunya adalah bahwa setiap kali dan dan , juga. Geometris: setiap kali dua titik akhir dari kebohongan segmen garis di , seluruh kebohongan segmen di . $x\in\mathcal{X}$ $y\in\mathcal{X}$ $0 \le \lambda \le 1$ $\lambda x + (1-\lambda)y\in\mathcal{X}$ $\mathcal X$ $\mathcal X$
The Fungsi adalah cembung. $f$ Ini juga dapat dirumuskan dengan banyak cara. Salah satunya adalah bahwa setiap kali dan dan , (Kami membutuhkan $x\in\mathcal{X}$ $y\in\mathcal{X}$ $0 \le \lambda \le 1$
$f (λ x + (1 - λ) y) \geq λ f (x) + (1 - λ) f (y) .$ $f(\lambda x + (1-\lambda)y) \ge \lambda f(x) + (1-\lambda) f(y).$ $\mathcal X$ menjadi cembung agar kondisi ini untuk masuk akal) geometris. setiap kali adalah setiap segmen garis di , grafik (sebagai terbatas segmen ini) terletak di atas atau segmen yang menghubungkan dan dalam . $\bar{xy}$ $\mathcal X$ $f$ $(x,f(x))$ $(y,f(y))$ $\mathbb{R}^{n+1}$
Pola dasar dari fungsi cembung adalah lokal di mana-mana parabola dengan koefisien terkemuka non-positif: pada setiap segmen garis dapat dinyatakan dalam bentuk dengan $y\to a y^2 + b y + c$ $a \le 0.$

Kesulitan dengan adalah bahwa adalah satuan bola , yang jelas-jelas bukan cembung. $(*)$ $\mathcal X$ $S^{n-1}\subset\mathbb{R}^n$ Namun, kami dapat memodifikasi masalah ini dengan memasukkan vektor yang lebih kecil. Itu karena ketika kita skala dengan faktor , dikalikan dengan . Ketika , kita dapat menskalakan hingga satuan panjang dengan mengalikannya dengan $x$ $\lambda$ $f$ $\lambda^2$ $0 \lt x^\prime x \lt 1$ $x$ , dengan demikian meningkatkantetapi tetap dalam bola satuan. Karena itu marilah kita merumuskan kembalisebagai $\lambda=1/\sqrt{x^\prime x} \gt 1$ $f$ $D^n = \{x\in\mathbb{R}^n\mid x^\prime x \le 1\}$ $(*)$

\begin{matrix} (**) & Maximize f (x) = x^{'} A x subject to x^{'} x \leq 1 \end{matrix}

$\text{Maximize }f(x)=\ x^\prime \mathbb{A} x\ \text{ subject to }\ x^\prime x\le1\tag{**}$

Domainnya adalah yang jelas-jelas cembung, jadi kita setengah jalan. Masih mempertimbangkan cembungnya grafik . $\mathcal{X}=D^n$ $f$

Cara yang baik untuk memikirkan masalah - bahkan jika Anda tidak bermaksud melakukan perhitungan yang sesuai - adalah dalam hal Teorema Spektral. $(**)$ Ia mengatakan bahwa dengan cara transformasi ortogonal , Anda dapat menemukan setidaknya satu dasar di mana adalah diagonal: yaitu, $\mathbb P$ $\mathbb{R}^n$ $\mathbb A$

A = P^{'} Σ P

$\mathbb {A = P^\prime \Sigma P}$

$\Sigma$ $\mathbb{P}$ $\mathbb A$ $x\to x^\prime \mathbb{A} x$

$\mathbb A$ $\Sigma$ $\mathbb P$

σ_{1} \geq σ_{2} \geq \dots \geq σ_{n} \geq 0.

$\sigma_1 \ge \sigma_2 \ge \cdots \ge \sigma_n \ge 0.$

$x=\mathbb{P}^\prime y$ $x$ $y=\mathbb{P}x$ $f$

f (y) = y^{'} A y = x^{'} P^{'} A P x = x^{'} Σ x = σ_{1} x_{1}^{2} + σ_{2} x_{2}^{2} + \dots + σ_{n} x_{n}^{2} .

$f(y) = y^\prime \mathbb{A} y = x^\prime \mathbb{P^\prime A P} x = x^\prime \Sigma x = \sigma_1 x_1^2 + \sigma_2 x_2^2 + \cdots + \sigma_n x_n^2.$

$\mathcal X$ $\sigma_i$

$(**)$ $x^\prime x = 1$ $\sigma_1$ $f$ $\mathcal{X}$ $f$ $f$ $\sigma_1$

g (y) = f (y) - σ_{1} y^{'} y .

$g(y) = f(y) - \sigma_1 y^\prime y.$

$\sigma_1$ $f$ $g$ $f$ $\mathcal X$

$-\sigma_1$ $-\sigma_1 y^\prime y$ $\mathbb P$ $y^\prime y = x^\prime x$ $x$ $g$

g (y) = σ_{1} x_{1}^{2} + \dots + σ_{n} x_{n}^{2} - σ_{1} (x_{1}^{2} + \dots + x_{n}^{2}) = (σ_{2} - σ_{1}) x_{2}^{2} + \dots + (σ_{n} - σ_{1}) x_{n}^{2} .

$g(y) = \sigma_1 x_1 ^2 + \cdots + \sigma_n x_n^2 - \sigma_1(x_1^2 + \cdots + x_n^2) = (\sigma_2-\sigma_1)x_2^2 + \cdots + (\sigma_n - \sigma_1)x_n^2.$

$\sigma_1 \ge \sigma_i$ $i$ $g$ $g$ $x_2=x_3=\cdots=x_n=0$ $x^\prime x=1$ $x_1=\pm 1$ $y = \mathbb{P} (\pm 1,0,\ldots, 0)^\prime$ $\mathbb P$

$g$ $\partial D^n=S^{n-1}$ $y^\prime y = 1$ $f$ $g$ $\sigma_1$ $g$ $f$ $D^n$ $f$ $g$

— whuber
sumber

4

σ_{1}

$\sigma_1$

@amoeba Tepat dalam semua hal; Terima kasih. Saya telah memperkuat diskusi tentang hal itu.

— whuber

3

(+1) Dalam jawaban Anda, Anda tampaknya mendefinisikan fungsi cembung menjadi apa yang oleh sebagian besar orang dianggap sebagai fungsi cekung (mungkin karena masalah optimisasi cembung memiliki domain cembung dan fungsi cekung di mana maksimum dihitung (atau a cembung fungsi di mana suatu minimum dihitung))

— user795305

2

g

$g$

X

$\mathcal X$

f

$f$

2

f

$f$

g

$g$

g

$g$

6

Tidak.

$k$ $M$

$\hat{X} = \underset{rank(X) \leq k}{argmin} \| M - X\|_F^2$

$\|\cdot\|_F$

Meskipun normalnya cembung, set di mana ia dioptimalkan adalah nonconvex.

Sebuah relaksasi cembung masalah PCA ini disebut Convex Rendah Ranking Pendekatan

$\hat{X} = \underset{\|X\|_* \leq c}{argmin} \| M - X\|_F^2$

$\|\cdot\|_*$ $\|\cdot\|_1$

Anda dapat melihat Pembelajaran Statistik dengan Sparsity , bab 6 (dekomposisi matriks) untuk detailnya.

Jika Anda tertarik pada masalah yang lebih umum dan bagaimana hubungannya dengan kecemburuan, lihat Generalized Low Rank Models .

— Jakub Bartczuk
sumber

1

Penafian: Jawaban sebelumnya melakukan pekerjaan yang cukup baik untuk menjelaskan bagaimana PCA dalam formulasi aslinya adalah non-cembung tetapi dapat dikonversi ke masalah optimasi cembung. Jawaban saya hanya ditujukan untuk jiwa-jiwa miskin (seperti saya) yang tidak begitu akrab dengan jargon Unit Spheres dan SVD - yang, baik, baik untuk diketahui.

Sumber saya adalah catatan kuliah ini oleh Prof. Tibshirani

Untuk masalah optimasi yang harus diselesaikan dengan teknik optimasi cembung, ada dua prasyarat.

Fungsi objektif harus cembung.
Fungsi kendala juga harus cembung.

Sebagian besar formulasi PCA melibatkan kendala pada peringkat matriks.

$rank(X) = k,$ $J_{11}$ $J_{22}$

— kasa
sumber

X

$X$

k

$k$

X

$X$

k

$k$