PCA yang kuat (seperti yang dikembangkan oleh Candes et al 2009 atau lebih baik dari Netrepalli et al 2014 ) adalah metode yang populer untuk deteksi outlier multivarian , tetapi jarak Mahalanobis juga dapat digunakan untuk deteksi outlier dengan memberikan estimasi yang kuat dan teratur dari matriks kovarians . Saya ingin tahu tentang (dis) keuntungan menggunakan satu metode di atas yang lain.
Intuisi saya memberi tahu saya bahwa perbedaan terbesar antara keduanya adalah sebagai berikut: Ketika kumpulan data "kecil" (dalam arti statistik), PCA yang kuat akan memberikan kovarians berperingkat rendah sementara estimasi matriks kovarians yang kuat akan memberikan hasil penuh. peringkat kovarians karena regularisasi Ledoit-Wolf. Bagaimana hal ini pada gilirannya mempengaruhi deteksi outlier?