Statistik dan Big Data feature-selection

2

Apakah boleh melakukan pemilihan fitur tanpa pengawasan sebelum validasi silang?

Dalam Elemen Pembelajaran Statistik , saya menemukan pernyataan berikut: Ada satu kualifikasi: langkah penyaringan awal tanpa pengawasan dapat dilakukan sebelum sampel ditinggalkan. Sebagai contoh, kita dapat memilih 1000 prediktor dengan varians tertinggi di seluruh 50 sampel, sebelum memulai validasi silang. Karena penyaringan ini tidak melibatkan label kelas, itu tidak memberikan …

9 machine-learning cross-validation feature-selection

2

Pemilihan fitur untuk masalah pengelompokan

Saya mencoba untuk membuat kelompok kumpulan data yang berbeda menggunakan algoritma yang tidak diawasi (clustering). Masalahnya adalah saya memiliki banyak fitur (~ 500) dan sejumlah kecil case (200-300). Sejauh ini saya hanya melakukan masalah klasifikasi yang selalu saya beri label data sebagai set pelatihan. Di sana saya menggunakan beberapa kriteria …

9 r clustering feature-selection unsupervised-learning

6

Cara menyiapkan / membuat fitur untuk deteksi anomali (data keamanan jaringan)

Tujuan saya adalah untuk menganalisis log jaringan (mis., Apache, syslog, audit keamanan Direktori Aktif, dan sebagainya) menggunakan deteksi pengelompokan / anomali untuk tujuan deteksi intrusi. Dari log saya memiliki banyak bidang teks seperti alamat IP, nama pengguna, nama host, port tujuan, port sumber, dan sebagainya (total 15-20 bidang). Saya tidak …

9 feature-selection outliers unsupervised-learning feature-construction

4

Apa urutan lag?

Misalkan saya memiliki data longitudinal dari bentuk (Saya memiliki beberapa pengamatan, ini hanya bentuk yang tunggal). Saya tertarik pada pembatasan . tidak dibatasi setara dengan mengambil dengan .Σ Σ Y j = α j + j - 1 Σ ℓ = 1 φ ℓ j Y j - ℓ + …

9 feature-selection lasso shrinkage

1

Bagaimana cara membandingkan acara yang diamati dengan yang diharapkan?

Misalkan saya punya satu sampel frekuensi dari 4 peristiwa yang mungkin: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 dan saya memiliki probabilitas yang diharapkan dari peristiwa saya terjadi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dengan jumlah frekuensi yang diamati …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

Tes permutasi acak untuk pemilihan fitur

Saya bingung tentang analisis permutasi untuk pemilihan fitur dalam konteks regresi logistik. Bisakah Anda memberikan penjelasan yang jelas tentang tes permutasi acak dan bagaimana hal itu berlaku untuk pemilihan fitur? Mungkin dengan algoritma dan contoh yang tepat. Akhirnya, Bagaimana perbandingannya dengan metode penyusutan lain seperti Lasso atau LAR?

9 regression logistic feature-selection permutation-test shrinkage

4

Bagaimana cara melakukan beberapa tes post-hoc chi-square pada tabel 2 X 3?

Kumpulan data saya terdiri dari angka kematian total atau kelangsungan hidup suatu organisme pada tiga tipe lokasi, inshore, midchannel, dan offshore. Angka-angka dalam tabel di bawah ini mewakili jumlah situs. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Saya ingin tahu apakah # situs tempat …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

2

Apakah mungkin menggunakan kernel PCA untuk pemilihan fitur?

Apakah mungkin untuk menggunakan analisis komponen utama kernel (kPCA) untuk Latent Semantic Indexing (LSI) dengan cara yang sama seperti PCA digunakan? Saya melakukan LSI dalam R menggunakan prcompfungsi PCA dan mengekstrak fitur dengan memuat tertinggi dari komponen pertama . Dengan itu saya mendapatkan fitur yang menggambarkan komponen terbaik.kkk Saya mencoba …

9 r pca feature-selection kernel-trick

3

Penggunaan polandia median untuk pemilihan fitur

Dalam sebuah makalah yang saya baca baru-baru ini saya menemukan bit berikut di bagian analisis data mereka: Tabel data kemudian dipecah menjadi jaringan dan garis sel, dan kedua subtabel secara terpisah dipoles median (baris dan kolom secara iteratif disesuaikan memiliki median 0) sebelum bergabung kembali ke dalam satu tabel. Kami …

9 feature-selection median genetics

3

Menghitung subset prediktor terbaik untuk regresi linier

Untuk pemilihan prediktor dalam regresi linier multivariat dengan prediktor yang cocok, apa metode yang tersedia untuk menemukan 'optimal' subset dari prediktor tanpa secara eksplisit menguji semua 2 p subset? Dalam 'Analisis Kelangsungan Hidup Terapan,' Hosmer & Lemeshow membuat referensi ke metode Kuk, tetapi saya tidak dapat menemukan kertas aslinya. Adakah …

9 modeling regression multivariable model-selection feature-selection

1

Mengapa laso di matlab jauh lebih lambat daripada glmnet dalam R (10 menit versus ~ 1 dtk)?

Saya mengamati bahwa fungsi laso di MATLAB relatif lambat. Saya menjalankan banyak masalah regresi, dengan biasanya 1 hingga 100 prediktor dan 200 hingga 500 pengamatan. Dalam beberapa kasus, laso ternyata sangat lambat (untuk menyelesaikan masalah regresi butuh beberapa menit). Saya menemukan bahwa ini adalah kasus ketika prediktor sangat berkorelasi (misalnya, …

9 regression feature-selection regularization

1

Bagaimana menangani perubahan panjang vektor input dengan jaringan saraf

Saya ingin melatih jaringan saraf dengan urutan karakter sebagai vektor input. Contoh pembelajaran memiliki panjang yang berbeda dan untuk alasan ini saya tidak tahu bagaimana cara mewakili mereka. Katakanlah saya memiliki dua contoh urutan, di sini nama: john doe maurice delanoe Contoh pertama adalah panjang 8, kedua panjang 15. Apakah …

9 machine-learning neural-networks feature-selection natural-language

3

Bagaimana cara menggunakan komponen utama sebagai prediktor dalam GLM?

Bagaimana saya menggunakan output dari analisis komponen utama (PCA) dalam model linier umum (GLM), dengan asumsi PCA digunakan untuk pemilihan variabel untuk GLM? Klarifikasi: Saya ingin menggunakan PCA untuk menghindari penggunaan variabel yang berhubungan dalam GLM. Namun, PCA memberi saya output seperti .2*variable1+.5*variable3dll. Saya terbiasa menempatkan variabel 1 dan 3 …

9 pca generalized-linear-model feature-selection

1

Dalam regresi berganda, mengapa interaksi dimodelkan sebagai produk, dan bukan sesuatu yang lain, dari prediktor?

Pertimbangkan regresi linier berganda. Pertanyaan ini mungkin tampak sederhana, tetapi saya mencoba untuk memahami secara intuitif mengapa, katakanlah jika saya memiliki prediktor X1 dan X2, maka interaksi antara prediktor ini dapat ditangkap secara memadai oleh X1 * X2. Saya tahu istilah interaksi dimodelkan sebagai produk, hanya karena itulah yang diajarkan …

8 multiple-regression feature-selection interaction

2

Pemilihan fitur pada model linear umum hirarkis Bayesian

Saya ingin memperkirakan GLM hirarkis tetapi dengan pemilihan fitur untuk menentukan kovariat mana yang relevan pada tingkat populasi untuk dimasukkan. Misalkan saya punya GGGgrup dengan pengamatan dan kemungkinan kovariat Yaitu, saya memiliki matriks desain kovariat , hasil . Koefisien pada kovariat ini adalah .NNNKKKx(N⋅G)×Kx(N⋅G)×K\boldsymbol{x}_{(N\cdot G) \times K}y(N⋅G)×1y(N⋅G)×1\boldsymbol{y}_{(N\cdot G) \times 1}βK×1βK×1\beta_{K …

8 machine-learning bayesian feature-selection hierarchical-bayesian shrinkage

Pertanyaan yang diberi tag «feature-selection»