Pertanyaan yang diberi tag «dimensionality-reduction»

Mengacu pada teknik untuk mengurangi sejumlah besar variabel atau dimensi yang direntang oleh data ke sejumlah kecil dimensi sambil tetap mempertahankan sebanyak mungkin informasi tentang data tersebut. Metode yang menonjol termasuk PCA, MDS, Isomap, dll. Dua subclass utama teknik: ekstraksi fitur dan pemilihan fitur.

1
Apa hubungan antara kuadrat terkecil parsial, regresi peringkat berkurang, dan regresi komponen utama?
Apakah penurunan regresi peringkat dan regresi komponen utama hanyalah kasus khusus dari kuadrat terkecil parsial? Tutorial ini (Halaman 6, "Perbandingan Tujuan") menyatakan bahwa ketika kita melakukan kuadrat terkecil parsial tanpa memproyeksikan X atau Y (yaitu, "tidak parsial"), itu menjadi penurunan peringkat peringkat atau regresi komponen utama, sesuai. Pernyataan serupa dibuat …

2
Metode untuk menggabungkan / mengurangi kategori dalam data ordinal atau nominal?
Saya berjuang untuk menemukan metode untuk mengurangi jumlah kategori dalam data nominal atau ordinal. Sebagai contoh, katakanlah saya ingin membangun model regresi pada dataset yang memiliki sejumlah faktor nominal dan ordinal. Meskipun saya tidak memiliki masalah dengan langkah ini, saya sering mengalami situasi di mana fitur nominal tanpa pengamatan dalam …

4
Variabel mana yang menjelaskan komponen PCA mana, dan sebaliknya?
Menggunakan data ini: head(USArrests) nrow(USArrests) Saya dapat melakukan PCA sebagai berikut: plot(USArrests) otherPCA <- princomp(USArrests) Saya bisa mendapatkan komponen baru otherPCA$scores dan proporsi varian dijelaskan oleh komponen dengan summary(otherPCA) Tetapi bagaimana jika saya ingin tahu variabel mana yang sebagian besar dijelaskan oleh komponen utama mana? Dan sebaliknya: apakah PC1 atau …

3
Memilih hyperparameters menggunakan T-SNE untuk klasifikasi
Dalam masalah khusus yang saya kerjakan dengan (kompetisi) saya memiliki pengaturan follwoing: 21 fitur (angka pada [0,1]) dan output biner. Saya memiliki sekitar 100 K baris. Pengaturan tampaknya sangat bising. Saya dan peserta lain menerapkan pembuatan fitur untuk sementara waktu dan penyematan stokastik tetangga t-didistribusikan ternyata lebih kuat dalam pengaturan …

1
Pengurangan dimensi yang diawasi
Saya memiliki satu set data yang terdiri dari sampel berlabel 15K (dari 10 grup). Saya ingin menerapkan pengurangan dimensi menjadi 2 dimensi, yang akan mempertimbangkan pengetahuan label. Ketika saya menggunakan teknik reduksi dimensionalitas tanpa pengawasan "standar" seperti PCA, plot sebar tampaknya tidak ada hubungannya dengan label yang dikenal. Apakah yang …


1
Aljabar LDA. Fisher daya diskriminasi variabel dan Analisis Diskriminan Linear
Tampaknya, Analisis Fisher bertujuan memaksimalkan pemisahan antar kelas secara serentak, sekaligus meminimalkan dispersi di dalam kelas. Sebuah ukuran yang berguna dari kekuatan diskriminasi dari sebuah variabel maka diberikan oleh kuantitas diagonal: Bii/WiiBii/WiiB_{ii}/W_{ii} . http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html Saya mengerti bahwa ukuran ( p x p) dari matriks Antara ( B ) dan Dalam-Kelas …



1
Jelaskan langkah-langkah algoritma LLE (local linear embedding)?
Saya mengerti prinsip dasar di balik algoritma untuk LLE terdiri dari tiga langkah. Menemukan lingkungan setiap titik data dengan beberapa metrik seperti k-nn. Temukan bobot untuk setiap tetangga yang menunjukkan efek yang dimiliki tetangga pada titik data. Bangun penyisipan data dimensi rendah berdasarkan bobot yang dihitung. Tetapi penjelasan matematis dari …

1
Apa arti sumbu pada t-SNE?
Saat ini saya mencoba untuk membungkus kepala saya dengan matematika t-SNE . Sayangnya, masih ada satu pertanyaan yang tidak dapat saya jawab dengan memuaskan: Apa arti sebenarnya dari sumbu dalam grafik t-SNE? Jika saya akan memberikan presentasi tentang topik ini atau memasukkannya ke dalam publikasi apa pun: Bagaimana saya memberi …

5
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?
Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


4
Melakukan PCA dengan hanya matriks jarak
Saya ingin mengelompokkan dataset besar yang saya hanya memiliki jarak berpasangan. Saya menerapkan algoritma k-medoid, tetapi butuh waktu terlalu lama untuk dijalankan sehingga saya ingin memulai dengan mengurangi dimensi masalah saya dengan menerapkan PCA. Namun, satu-satunya cara saya tahu untuk melakukan metode ini adalah dengan menggunakan matriks kovarians yang tidak …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.