Data dimensi tinggi: Apa teknik yang berguna untuk diketahui?

14

Karena berbagai kutukan dimensi , keakuratan dan kecepatan banyak teknik prediksi umum menurun pada data dimensi tinggi. Apa saja teknik / trik / heuristik yang paling berguna yang membantu menangani data dimensi tinggi secara efektif? Sebagai contoh,

Apakah metode statistik / pemodelan tertentu berfungsi baik pada dataset dimensi tinggi?
Bisakah kita meningkatkan kinerja model prediktif kita pada data dimensi tinggi dengan menggunakan tertentu (yang menentukan gagasan jarak) atau kernel (yang menentukan gagasan alternatif produk titik)?
Apa teknik pengurangan dimensionalitas yang paling berguna untuk data dimensi tinggi?

machine-learning statistics dimensionality-reduction

— ASX
sumber

10

Ini adalah pertanyaan yang sangat luas , yang saya pikir tidak mungkin untuk dibahas secara komprehensif dalam satu jawaban. Oleh karena itu, saya berpikir bahwa akan lebih bermanfaat untuk memberikan beberapa petunjuk untuk jawaban dan / atau sumber daya yang relevan. Inilah yang akan saya lakukan dengan memberikan informasi dan pemikiran saya berikut ini.

Pertama-tama, saya harus menyebutkan tutorial yang sangat baik dan komprehensif tentang pengurangan dimensi oleh Burges (2009) dari Microsoft Research. Dia menyentuh aspek data dimensi tinggi sering di seluruh monograf. Karya ini, merujuk pada reduksi dimensionalitas sebagai reduksi dimensi , menyajikan pengenalan teoretis ke dalam masalah , menyarankan taksonomi metode reduksi dimensionalitas, yang terdiri dari metode proyektif dan metode pemodelan berjenis , serta memberikan tinjauan umum dari beberapa metode dalam setiap kategori.

Metode " projective mengejar" ditinjau termasuk analisis komponen independen (ICA) , analisis komponen utama (PCA) dan variasinya, seperti PCA kernel dan PCA probabilistik , analisis korelasi kanonik (CCA) dan variasi CCA kernel , analisis diskriminan linear (LDA) ) , pengurangan dimensi kernel (KDR) dan beberapa lainnya. Metode berjenis ditinjau termasuk penskalaan multidimensi (MDS) dan variasi MDS yang menonjol , Isomap , Penempelan Linier Lokaldan metode grafis, seperti petaPeta eigen Laplacian dan pengelompokan spektral . Saya mencantumkan sebagian besar metode yang ditinjau di sini untuk berjaga-jaga, jika publikasi asli tidak dapat diakses untuk Anda, baik online (tautan di atas), atau offline (Referensi).

Ada peringatan untuk istilah "komprehensif" yang telah saya terapkan pada karya yang disebutkan di atas. Walaupun memang agak komprehensif, ini relatif, karena beberapa pendekatan untuk pengurangan dimensi tidak dibahas dalam monograf, khususnya yang berfokus pada variabel yang tidak dapat diamati (laten) . Beberapa dari mereka disebutkan, dengan referensi ke sumber lain - sebuah buku tentang pengurangan dimensi.

Sekarang, saya akan membahas secara singkat beberapa aspek yang lebih sempit dari topik tersebut dengan merujuk pada jawaban saya yang relevan atau terkait. Sehubungan dengan pendekatan tipe tetangga terdekat (NN) untuk data dimensi tinggi, silakan lihat jawaban saya di sini (saya terutama merekomendasikan untuk memeriksa kertas # 4 dalam daftar saya). Salah satu efek kutukan dari dimensionalitas adalah bahwa data dimensi tinggi sering jarang . Mempertimbangkan fakta ini, saya percaya bahwa jawaban saya yang relevan di sini dan di sini tentang regresi dan PCA untuk data yang jarang dan berdimensi tinggi mungkin membantu.

Referensi

Burges, CJC (2010). Pengurangan dimensi: Tur berpemandu. Yayasan dan Tren® dalam Pembelajaran Mesin, 2 (4), 275-365. doi: 10.1561 / 2200000002

— Aleksandr Blekh
sumber

0

Aleksander telah memberikan jawaban yang sangat komprehensif tetapi ada beberapa yang digugat sangat luas:

Untuk pengurangan dimensi, PCA digunakan. Namun, ini hanya melakukan transformasi linear dan untuk pengurangan dimensi non-linear, pembelajaran berjenis adalah yang Anda cari.

Memproyeksikan data dimensi yang lebih rendah ke dimensi yang lebih tinggi dapat dilakukan menggunakan kernel. Anda biasanya melakukan ini, ketika classifier Anda tidak dapat menemukan bidang linear pemisahan dalam dimensi saat ini tetapi akan dapat menemukan hyperplane linier yang memisahkan kelas dalam dimensi yang lebih tinggi. Kernel digunakan secara luas di SVM's.

— Ram
sumber