Statistik dan Big Data feature-selection

1

Laso dan jaring elastis tidak mampu menangani variabel dengan lebih dari dua kategori dan oleh karena itu pemisahan variabel kategorikal menjadi boneka diperlukan untuk penerapan metode ini. Ini dapat mengakibatkan beberapa masalah dan oleh karena itu ada ekstensi untuk laso ke laso kelompok atau laso kelompok jarang . Namun, saya …

8 machine-learning categorical-data feature-selection lasso elastic-net

1

Menggunakan kata-kata topik yang dihasilkan oleh LDA untuk mewakili dokumen

Saya ingin melakukan klasifikasi dokumen dengan mewakili setiap dokumen sebagai serangkaian fitur. Saya tahu bahwa ada banyak cara: BOW, TFIDF, ... Saya ingin menggunakan Latent Dirichlet Allocation (LDA) untuk mengekstrak kata kunci topik dokumen EACH TUNGGAL. dokumen diwakili oleh kata-kata topik ini. Tapi saya tidak tahu apakah itu masuk akal …

8 feature-selection text-mining topic-models latent-dirichlet-alloc

3

Apakah pemilihan fitur Boruta (dalam R) memperhitungkan korelasi antar variabel?

Saya sedikit pemula dalam R dan pemilihan fitur, dan telah mencoba paket Boruta untuk memilih (mengurangi) jumlah variabel saya (n = 40). Saya berpikir bahwa metode ini juga memperhitungkan kemungkinan korelasi antar variabel, namun, dua (dari 20 variabel yang dipilih) sangat berkorelasi, dan dua lainnya sepenuhnya berkorelasi. Apakah ini normal? …

8 r feature-selection random-forest boruta

2

Mengapa model statistik cocok jika diberi set data yang sangat besar?

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

6

Apakah menggunakan data yang sama untuk pemilihan fitur dan validasi silang bias atau tidak?

Kami memiliki kumpulan data kecil (sekitar 250 sampel * 100 fitur) yang kami inginkan untuk membangun klasifikasi biner setelah memilih subset fitur terbaik. Katakanlah bahwa kita mempartisi data menjadi: Pelatihan, Validasi dan Pengujian Untuk pemilihan fitur, kami menerapkan model pembungkus berdasarkan pada pemilihan fitur yang mengoptimalkan kinerja pengklasifikasi X, Y …

8 machine-learning cross-validation feature-selection train

3

Bisakah saya melakukan pencarian lengkap dengan validasi silang untuk pemilihan fitur?

Saya telah membaca beberapa posting tentang pemilihan fitur dan validasi silang tetapi saya masih memiliki pertanyaan tentang prosedur yang benar. Misalkan saya memiliki dataset dengan 10 fitur dan saya ingin memilih fitur terbaik. Anggap saya menggunakan pengelompokan tetangga terdekat. Dapatkah saya melakukan pencarian lengkap menggunakan validasi silang untuk memperkirakan tingkat …

8 cross-validation model-selection feature-selection

1

Interval kepercayaan saat menggunakan teorema Bayes

Saya menghitung beberapa probabilitas bersyarat, dan interval kepercayaan 95% yang terkait. Untuk banyak kasus saya, saya memiliki jumlah xkeberhasilan langsung dari npercobaan (dari tabel kontingensi), sehingga saya dapat menggunakan interval kepercayaan Binomial, seperti yang disediakan oleh binom.confint(x, n, method='exact')in R. Namun dalam kasus lain, saya tidak memiliki data seperti itu, …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

Pertanyaan yang diberi tag «feature-selection»