Ini adalah pertanyaan yang sangat luas , yang saya pikir tidak mungkin untuk dibahas secara komprehensif dalam satu jawaban. Oleh karena itu, saya berpikir bahwa akan lebih bermanfaat untuk memberikan beberapa petunjuk untuk jawaban dan / atau sumber daya yang relevan. Inilah yang akan saya lakukan dengan memberikan informasi dan pemikiran saya berikut ini.
Pertama-tama, saya harus menyebutkan tutorial yang sangat baik dan komprehensif tentang pengurangan dimensi oleh Burges (2009) dari Microsoft Research. Dia menyentuh aspek data dimensi tinggi sering di seluruh monograf. Karya ini, merujuk pada reduksi dimensionalitas sebagai reduksi dimensi , menyajikan pengenalan teoretis ke dalam masalah , menyarankan taksonomi metode reduksi dimensionalitas, yang terdiri dari metode proyektif dan metode pemodelan berjenis , serta memberikan tinjauan umum dari beberapa metode dalam setiap kategori.
Metode " projective mengejar" ditinjau termasuk analisis komponen independen (ICA) , analisis komponen utama (PCA) dan variasinya, seperti PCA kernel dan PCA probabilistik , analisis korelasi kanonik (CCA) dan variasi CCA kernel , analisis diskriminan linear (LDA) ) , pengurangan dimensi kernel (KDR) dan beberapa lainnya. Metode berjenis ditinjau termasuk penskalaan multidimensi (MDS) dan variasi MDS yang menonjol , Isomap , Penempelan Linier Lokaldan metode grafis, seperti petaPeta eigen Laplacian dan pengelompokan spektral . Saya mencantumkan sebagian besar metode yang ditinjau di sini untuk berjaga-jaga, jika publikasi asli tidak dapat diakses untuk Anda, baik online (tautan di atas), atau offline (Referensi).
Ada peringatan untuk istilah "komprehensif" yang telah saya terapkan pada karya yang disebutkan di atas. Walaupun memang agak komprehensif, ini relatif, karena beberapa pendekatan untuk pengurangan dimensi tidak dibahas dalam monograf, khususnya yang berfokus pada variabel yang tidak dapat diamati (laten) . Beberapa dari mereka disebutkan, dengan referensi ke sumber lain - sebuah buku tentang pengurangan dimensi.
Sekarang, saya akan membahas secara singkat beberapa aspek yang lebih sempit dari topik tersebut dengan merujuk pada jawaban saya yang relevan atau terkait. Sehubungan dengan pendekatan tipe tetangga terdekat (NN) untuk data dimensi tinggi, silakan lihat jawaban saya di sini (saya terutama merekomendasikan untuk memeriksa kertas # 4 dalam daftar saya). Salah satu efek kutukan dari dimensionalitas adalah bahwa data dimensi tinggi sering jarang . Mempertimbangkan fakta ini, saya percaya bahwa jawaban saya yang relevan di sini dan di sini tentang regresi dan PCA untuk data yang jarang dan berdimensi tinggi mungkin membantu.
Referensi
Burges, CJC (2010). Pengurangan dimensi: Tur berpemandu. Yayasan dan Tren® dalam Pembelajaran Mesin, 2 (4), 275-365. doi: 10.1561 / 2200000002