Pertanyaan yang diberi tag «dimensionality-reduction»

Mengacu pada teknik untuk mengurangi sejumlah besar variabel atau dimensi yang direntang oleh data ke sejumlah kecil dimensi sambil tetap mempertahankan sebanyak mungkin informasi tentang data tersebut. Metode yang menonjol termasuk PCA, MDS, Isomap, dll. Dua subclass utama teknik: ekstraksi fitur dan pemilihan fitur.

5
Bagaimana komponen utama teratas dapat mempertahankan daya prediksi pada variabel dependen (atau bahkan mengarah ke prediksi yang lebih baik)?
Misalkan Saya menjalankan regresi . Mengapa dengan memilih komponen prinsip k atas X , apakah model mempertahankan daya prediksi pada Y ?Y∼XY∼XY \sim XkkkXXXYYY Saya mengerti bahwa dari dimensi-reduksi / titik fitur-seleksi pandang, jika adalah vektor eigen dari kovarians matriks X dengan top k eigen, maka X v 1 , …

2
Bagaimana memahami "nonlinier" seperti dalam "pengurangan dimensi nonlinier"?
Saya mencoba untuk memahami perbedaan antara metode reduksi dimensionalitas linier (misalnya, PCA) dan yang nonlinier (misalnya, Isomap). Saya tidak begitu mengerti apa arti linearitas (non) dalam konteks ini. Saya membaca dari Wikipedia itu Sebagai perbandingan, jika PCA (algoritma reduksi dimensionalitas linier) digunakan untuk mengurangi dataset yang sama ini menjadi dua …

3
Haruskah reduksi dimensi untuk visualisasi dianggap sebagai masalah "tertutup", diselesaikan oleh t-SNE?
Saya telah membaca banyak tentang algoritma -sne untuk pengurangan dimensi. Saya sangat terkesan dengan kinerja pada dataset "klasik", seperti MNIST, di mana ia mencapai pemisahan digit yang jelas ( lihat artikel asli ):ttt Saya juga menggunakannya untuk memvisualisasikan fitur yang dipelajari oleh jaringan saraf yang saya latih dan saya sangat …

2
Tentang apa itu "regresi penurunan peringkat"?
Saya telah membaca Elemen Pembelajaran Statistik dan saya tidak dapat memahami apa yang dimaksud dengan Bagian 3.7 "Penyusutan dan Seleksi Berganda Berganda". Ini berbicara tentang RRR (regresi tingkat rendah), dan saya hanya bisa mengerti bahwa premisnya adalah tentang model linear multivariat yang digeneralisasi di mana koefisien tidak diketahui (dan diperkirakan) …

1
Mengapa hanya ada
Dalam PCA, ketika jumlah dimensi lebih besar dari (atau bahkan sama dengan) jumlah sampel N , mengapa Anda akan memiliki paling banyak N - 1 vektor eigen bukan nol? Dengan kata lain, pangkat matriks kovarians di antara dimensi d ≥ N adalah N - 1 .dddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1 Contoh: Sampel Anda …

1
t-SNE versus MDS
Telah membaca beberapa pertanyaan tentang t-SNE ( t-Distributed Stochastic Neighbor Embedding ) belakangan ini, dan juga mengunjungi beberapa pertanyaan tentang MDS ( Multidimensional Scaling ). Mereka sering digunakan secara analog, jadi sepertinya ide yang bagus membuat pertanyaan ini melihat ada banyak pertanyaan pada keduanya secara terpisah (atau dibandingkan dengan PCA …

3
PCA saat dimensinya lebih besar dari jumlah sampel
Saya telah menemukan sebuah skenario di mana saya memiliki 10 sinyal / orang untuk 10 orang (jadi 100 sampel) berisi 14000 titik data (dimensi) yang harus saya sampaikan ke pengklasifikasi. Saya ingin mengurangi dimensi data ini dan PCA tampaknya menjadi cara untuk melakukannya. Namun, saya hanya dapat menemukan contoh PCA …

4
Mengapa data campuran merupakan masalah untuk algoritma pengelompokan berbasis euclidean?
Kebanyakan algoritma pengelompokan dan pengurangan dimensi klasik (pengelompokan hierarkis, analisis komponen utama, k-means, peta pengorganisasian sendiri ...) dirancang khusus untuk data numerik, dan data inputnya dipandang sebagai titik dalam ruang euclidean. Ini tentu saja merupakan masalah, karena banyak pertanyaan di dunia nyata melibatkan data yang dicampur: misalnya jika kita mempelajari …


1
Bagaimana LDA, teknik klasifikasi, juga berfungsi sebagai teknik reduksi dimensi seperti PCA
Pada artikel ini , penulis menghubungkan analisis diskriminan linier (LDA) ke analisis komponen utama (PCA). Dengan pengetahuan saya yang terbatas, saya tidak bisa mengikuti bagaimana LDA bisa agak mirip dengan PCA. Saya selalu berpikir bahwa LDA adalah bentuk algoritma klasifikasi, mirip dengan regresi logistik. Saya akan menghargai bantuan dalam memahami …




4
Variabel “normalisasi” untuk SVD / PCA
Misalkan kita memiliki NNN variabel terukur, (a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N) , kita melakukan sejumlah M>NM>NM > N pengukuran, dan kemudian ingin melakukan dekomposisi nilai singular pada hasil untuk menemukan sumbu varians tertinggi untuk poin MMM dalam NNN dimensi ruang. ( Catatan: asumsikan bahwa sarana aiaia_i telah dikurangi, jadi ⟨ai⟩=0⟨ai⟩=0\langle a_i …

2
Kapan kita menggabungkan reduksi dimensi dengan pengelompokan?
Saya mencoba melakukan pengelompokan tingkat dokumen. Saya membangun matriks frekuensi istilah-dokumen dan saya mencoba mengelompokkan vektor-vektor dimensi tinggi ini menggunakan k-means. Alih-alih langsung mengelompokkan, apa yang saya lakukan adalah pertama-tama menerapkan dekomposisi vektor singular LSA (Latent Semantic Analysis) untuk mendapatkan matriks U, S, Vt, memilih ambang yang sesuai menggunakan plot …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.