Pertanyaan yang diberi tag «feature-selection»

Metode dan prinsip pemilihan subset atribut untuk digunakan dalam pemodelan lebih lanjut

2
Apakah boleh melakukan pemilihan fitur tanpa pengawasan sebelum validasi silang?
Dalam Elemen Pembelajaran Statistik , saya menemukan pernyataan berikut: Ada satu kualifikasi: langkah penyaringan awal tanpa pengawasan dapat dilakukan sebelum sampel ditinggalkan. Sebagai contoh, kita dapat memilih 1000 prediktor dengan varians tertinggi di seluruh 50 sampel, sebelum memulai validasi silang. Karena penyaringan ini tidak melibatkan label kelas, itu tidak memberikan …

2
Pemilihan fitur untuk masalah pengelompokan
Saya mencoba untuk membuat kelompok kumpulan data yang berbeda menggunakan algoritma yang tidak diawasi (clustering). Masalahnya adalah saya memiliki banyak fitur (~ 500) dan sejumlah kecil case (200-300). Sejauh ini saya hanya melakukan masalah klasifikasi yang selalu saya beri label data sebagai set pelatihan. Di sana saya menggunakan beberapa kriteria …

6
Cara menyiapkan / membuat fitur untuk deteksi anomali (data keamanan jaringan)
Tujuan saya adalah untuk menganalisis log jaringan (mis., Apache, syslog, audit keamanan Direktori Aktif, dan sebagainya) menggunakan deteksi pengelompokan / anomali untuk tujuan deteksi intrusi. Dari log saya memiliki banyak bidang teks seperti alamat IP, nama pengguna, nama host, port tujuan, port sumber, dan sebagainya (total 15-20 bidang). Saya tidak …

4
Apa urutan lag?
Misalkan saya memiliki data longitudinal dari bentuk (Saya memiliki beberapa pengamatan, ini hanya bentuk yang tunggal). Saya tertarik pada pembatasan . tidak dibatasi setara dengan mengambil dengan .Σ Σ Y j = α j + j - 1 Σ ℓ = 1 φ ℓ j Y j - ℓ + …

1
Bagaimana cara membandingkan acara yang diamati dengan yang diharapkan?
Misalkan saya punya satu sampel frekuensi dari 4 peristiwa yang mungkin: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 dan saya memiliki probabilitas yang diharapkan dari peristiwa saya terjadi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dengan jumlah frekuensi yang diamati …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 


4
Bagaimana cara melakukan beberapa tes post-hoc chi-square pada tabel 2 X 3?
Kumpulan data saya terdiri dari angka kematian total atau kelangsungan hidup suatu organisme pada tiga tipe lokasi, inshore, midchannel, dan offshore. Angka-angka dalam tabel di bawah ini mewakili jumlah situs. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Saya ingin tahu apakah # situs tempat …

2
Apakah mungkin menggunakan kernel PCA untuk pemilihan fitur?
Apakah mungkin untuk menggunakan analisis komponen utama kernel (kPCA) untuk Latent Semantic Indexing (LSI) dengan cara yang sama seperti PCA digunakan? Saya melakukan LSI dalam R menggunakan prcompfungsi PCA dan mengekstrak fitur dengan memuat tertinggi dari komponen pertama . Dengan itu saya mendapatkan fitur yang menggambarkan komponen terbaik.kkk Saya mencoba …

3
Penggunaan polandia median untuk pemilihan fitur
Dalam sebuah makalah yang saya baca baru-baru ini saya menemukan bit berikut di bagian analisis data mereka: Tabel data kemudian dipecah menjadi jaringan dan garis sel, dan kedua subtabel secara terpisah dipoles median (baris dan kolom secara iteratif disesuaikan memiliki median 0) sebelum bergabung kembali ke dalam satu tabel. Kami …

3
Menghitung subset prediktor terbaik untuk regresi linier
Untuk pemilihan prediktor dalam regresi linier multivariat dengan prediktor yang cocok, apa metode yang tersedia untuk menemukan 'optimal' subset dari prediktor tanpa secara eksplisit menguji semua 2 p subset? Dalam 'Analisis Kelangsungan Hidup Terapan,' Hosmer & Lemeshow membuat referensi ke metode Kuk, tetapi saya tidak dapat menemukan kertas aslinya. Adakah …

1
Mengapa laso di matlab jauh lebih lambat daripada glmnet dalam R (10 menit versus ~ 1 dtk)?
Saya mengamati bahwa fungsi laso di MATLAB relatif lambat. Saya menjalankan banyak masalah regresi, dengan biasanya 1 hingga 100 prediktor dan 200 hingga 500 pengamatan. Dalam beberapa kasus, laso ternyata sangat lambat (untuk menyelesaikan masalah regresi butuh beberapa menit). Saya menemukan bahwa ini adalah kasus ketika prediktor sangat berkorelasi (misalnya, …


3
Bagaimana cara menggunakan komponen utama sebagai prediktor dalam GLM?
Bagaimana saya menggunakan output dari analisis komponen utama (PCA) dalam model linier umum (GLM), dengan asumsi PCA digunakan untuk pemilihan variabel untuk GLM? Klarifikasi: Saya ingin menggunakan PCA untuk menghindari penggunaan variabel yang berhubungan dalam GLM. Namun, PCA memberi saya output seperti .2*variable1+.5*variable3dll. Saya terbiasa menempatkan variabel 1 dan 3 …

1
Dalam regresi berganda, mengapa interaksi dimodelkan sebagai produk, dan bukan sesuatu yang lain, dari prediktor?
Pertimbangkan regresi linier berganda. Pertanyaan ini mungkin tampak sederhana, tetapi saya mencoba untuk memahami secara intuitif mengapa, katakanlah jika saya memiliki prediktor X1 dan X2, maka interaksi antara prediktor ini dapat ditangkap secara memadai oleh X1 * X2. Saya tahu istilah interaksi dimodelkan sebagai produk, hanya karena itulah yang diajarkan …

2
Pemilihan fitur pada model linear umum hirarkis Bayesian
Saya ingin memperkirakan GLM hirarkis tetapi dengan pemilihan fitur untuk menentukan kovariat mana yang relevan pada tingkat populasi untuk dimasukkan. Misalkan saya punya GGGgrup dengan pengamatan dan kemungkinan kovariat Yaitu, saya memiliki matriks desain kovariat , hasil . Koefisien pada kovariat ini adalah .NNNKKKx(N⋅G)×Kx(N⋅G)×K\boldsymbol{x}_{(N\cdot G) \times K}y(N⋅G)×1y(N⋅G)×1\boldsymbol{y}_{(N\cdot G) \times 1}βK×1βK×1\beta_{K …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.