Mengapa PCA sensitif terhadap pencilan?

Ada banyak posting di SE ini yang membahas pendekatan yang kuat untuk analisis komponen utama (PCA), tetapi saya tidak dapat menemukan penjelasan yang baik tentang mengapa PCA sensitif terhadap outlier di tempat pertama.

machine-learning pca outliers

— Psi
sumber

Karena kontribusi norma L2 sangat tinggi untuk pencilan. Kemudian ketika meminimalkan norma L2 (yang merupakan apa yang PCA coba lakukan), titik-titik itu akan lebih sulit untuk masuk daripada titik-titik yang lebih dekat ke tengah.

— mathreadler

Jawaban ini memberi tahu Anda semua yang Anda butuhkan. Bayangkan saja pencilan dan baca dengan seksama.

— S. Kolassa - Reinstate Monica

Salah satu alasannya adalah bahwa PCA dapat dianggap sebagai dekomposisi tingkat rendah dari data yang meminimalkan jumlah norma dari residu dekomposisi. Yaitu jika adalah data Anda ( vektor dimensi), dan adalah basis PCA ( vektor dimensi), maka dekomposisi akan meminimalkan Di sini adalah matriks koefisien dekomposisi PCA dan adalah norma Frobenius dari matriks $L_2$ $Y$ $m$ $n$ $X$ $k$ $n$

‖ Y - X A ‖_{F}^{2} = \sum_{j = 1}^{m} ‖ Y_{j} - X A_{j .} ‖^{2}

$\lVert Y-XA \rVert^2_F = \sum_{j=1}^{m} \lVert Y_j - X A_{j.} \rVert^2$

A

$A$

‖ \cdot ‖_{F}

$\lVert \cdot \rVert_F$

Karena PCA meminimalkan norma $L_2$ (yaitu norma kuadrat), ia memiliki masalah yang sama dengan kuadrat-terkecil atau menyesuaikan Gaussian dengan peka terhadap outlier. Karena kuadrat penyimpangan dari outlier, mereka akan mendominasi norma total dan karenanya akan mendorong komponen PCA.

— sega_sai
sumber