Pertanyaan yang diberi tag «high-dimensional»

Berkaitan dengan sejumlah besar fitur atau dimensi (variabel) untuk data. (Untuk poin data dalam jumlah besar, gunakan tag [big-data]; jika masalahnya adalah jumlah variabel yang lebih besar daripada data, gunakan tag [underdetermined].)

8
Mengapa jarak Euclidean bukan metrik yang baik dalam dimensi tinggi?
Saya membaca bahwa 'jarak Euclidean bukan jarak yang baik dalam dimensi tinggi'. Saya kira pernyataan ini ada hubungannya dengan kutukan dimensi, tetapi apa sebenarnya? Selain itu, apa itu 'dimensi tinggi'? Saya telah menerapkan pengelompokan hierarkis menggunakan jarak Euclidean dengan 100 fitur. Hingga berapa banyak fitur yang aman untuk menggunakan metrik …



3
Bagaimana cara memperkirakan parameter penyusutan di Lasso atau regresi ridge dengan> 50K variabel?
Saya ingin menggunakan Lasso atau regresi ridge untuk model dengan lebih dari 50.000 variabel. Saya ingin melakukannya menggunakan paket perangkat lunak dalam R. Bagaimana saya bisa memperkirakan parameter penyusutan ( )?λλ\lambda Suntingan: Inilah poin yang ingin saya sampaikan: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace …

3
Haruskah reduksi dimensi untuk visualisasi dianggap sebagai masalah "tertutup", diselesaikan oleh t-SNE?
Saya telah membaca banyak tentang algoritma -sne untuk pengurangan dimensi. Saya sangat terkesan dengan kinerja pada dataset "klasik", seperti MNIST, di mana ia mencapai pemisahan digit yang jelas ( lihat artikel asli ):ttt Saya juga menggunakannya untuk memvisualisasikan fitur yang dipelajari oleh jaringan saraf yang saya latih dan saya sangat …




1
Regresi dimensi tinggi: mengapa
Saya mencoba membaca tentang penelitian di bidang regresi dimensi tinggi; ketika ppp lebih besar dari nnn , yaitu, p>>np>>np >> n . Sepertinya istilah logp/nlog⁡p/n\log p/n sering muncul dalam hal tingkat konvergensi untuk estimator regresi. Sebagai contoh, di sini , persamaan (17) mengatakan bahwa fit β^β^\hat{\beta} memenuhi 1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - …

1
Apakah kutukan Dimensi mempengaruhi beberapa model lebih dari yang lain?
Tempat saya telah membaca tentang kutukan dimensionalitas menjelaskannya dalam hubungannya dengan kNN terutama, dan model linier secara umum. Saya secara teratur melihat peringkat teratas di Kaggle menggunakan ribuan fitur pada dataset yang hampir tidak memiliki 100k titik data. Mereka terutama menggunakan pohon Boosted dan NN, antara lain. Banyak fitur yang …




4
Kutukan dimensi: pengklasifikasi kNN
Saya membaca buku Kevin Murphy: Machine Learning-A probabilistic Perspective. Dalam bab pertama penulis menjelaskan kutukan dimensi dan ada bagian yang saya tidak mengerti. Sebagai contoh, penulis menyatakan: Pertimbangkan input didistribusikan secara seragam di sepanjang unit D-dimensi cube. Misalkan kita memperkirakan kepadatan label kelas dengan menumbuhkan hiper kubus di sekitar x …

1
Apakah teorema kontras relatif dari Beyer et al. makalah: "Tentang Perilaku Metrik Jarak yang Mengejutkan di Ruang Dimensi Tinggi" menyesatkan?
Ini dikutip sangat sering ketika menyebutkan kutukan dimensi dan pergi (rumus kanan disebut kontras relatif) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 Hasil teorema menunjukkan bahwa perbedaan antara jarak maksimum dan minimum ke titik kueri yang diberikan tidak meningkat secepat jarak terdekat ke …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.