Pertanyaan yang diberi tag «feature-selection»

Metode dan prinsip pemilihan subset atribut untuk digunakan dalam pemodelan lebih lanjut


3
Contoh: regresi LASSO menggunakan glmnet untuk hasil biner
Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
Pemilihan fitur dan validasi silang
Saya baru-baru ini banyak membaca di situs ini (@Aniko, @Dikran Marsupial, @Erik) dan di tempat lain tentang masalah overfitting yang terjadi dengan validasi silang - (Smialowski dkk 2010 Bioinformatika, Hastie, Elemen pembelajaran statistik). Sarannya adalah bahwa setiap pemilihan fitur yang diawasi (menggunakan korelasi dengan label kelas) dilakukan di luar estimasi …

6
Pemilihan fitur untuk model "final" saat melakukan validasi silang dalam pembelajaran mesin
Saya agak bingung tentang pemilihan fitur dan pembelajaran mesin dan saya bertanya-tanya apakah Anda dapat membantu saya. Saya memiliki dataset microarray yang diklasifikasikan ke dalam dua kelompok dan memiliki ribuan fitur. Tujuan saya adalah mendapatkan sejumlah kecil gen (fitur saya) (10-20) dalam tanda tangan yang secara teori saya akan dapat …

3
Mengapa Lasso menyediakan Seleksi Variabel?
Saya telah membaca Elemen Pembelajaran Statistik , dan saya ingin tahu mengapa Lasso menyediakan pemilihan variabel dan regresi ridge tidak. Kedua metode meminimalkan jumlah residu kuadrat dan memiliki batasan pada nilai yang mungkin dari parameter ββ\beta . Untuk Lasso, batasannya adalah ||β||1≤t||β||1≤t||\beta||_1 \le t , sedangkan untuk punggungan adalah ||β||2≤t||β||2≤t||\beta||_2 …

6
Seleksi variabel untuk pemodelan prediktif benar-benar diperlukan pada tahun 2016?
Pertanyaan ini telah ditanyakan pada CV beberapa tahun yang lalu, sepertinya layak untuk dikirim kembali mengingat 1) urutan teknologi komputasi yang lebih baik (mis. Komputasi paralel, HPC dll) dan 2) teknik yang lebih baru, misalnya [3]. Pertama, beberapa konteks. Mari kita asumsikan tujuannya bukan pengujian hipotesis, bukan estimasi efek, tetapi …

9
Apa kerugian menggunakan laso untuk pemilihan variabel untuk regresi?
Dari yang saya tahu, menggunakan laso untuk pemilihan variabel menangani masalah input berkorelasi. Juga, karena ini setara dengan Least Angle Regression, itu tidak lambat secara komputasi. Namun, banyak orang (misalnya orang yang saya kenal melakukan bio-statistik) tampaknya masih mendukung pemilihan variabel secara bertahap atau bertahap. Apakah ada kerugian praktis menggunakan …


2
Diskusi pemilihan variabel yang lebih pasti
Latar Belakang Saya sedang melakukan penelitian klinis di bidang kedokteran dan telah mengikuti beberapa kursus statistik. Saya tidak pernah menerbitkan makalah menggunakan regresi linier / logistik dan ingin melakukan pemilihan variabel dengan benar. Interpretabilitas itu penting, jadi tidak ada teknik pembelajaran mesin yang mewah. Saya telah merangkum pemahaman saya tentang …

3
Menggunakan analisis komponen utama (PCA) untuk pemilihan fitur
Saya baru dalam pemilihan fitur dan saya ingin tahu bagaimana Anda akan menggunakan PCA untuk melakukan pemilihan fitur. Apakah PCA menghitung skor relatif untuk setiap variabel input yang dapat Anda gunakan untuk menyaring variabel input noninformatif? Pada dasarnya, saya ingin dapat memesan fitur asli dalam data berdasarkan varians atau jumlah …


6
Fitur untuk klasifikasi deret waktu
Saya mempertimbangkan masalah klasifikasi (multi-kelas) berdasarkan seri waktu dari panjang variabel , yaitu, untuk menemukan fungsi melalui representasi global dari seri waktu oleh serangkaian fitur yang dipilih dari ukuran tetap independen dari , dan kemudian gunakan metode klasifikasi standar pada set fitur ini. Saya tidak tertarik dengan perkiraan, yaitu memprediksif …

5
Bagaimana cara menafsirkan bobot fitur SVM?
Saya mencoba menafsirkan bobot variabel yang diberikan dengan memasang SVM linear. (Saya menggunakan scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Saya tidak dapat menemukan apa pun dalam dokumentasi yang secara khusus menyatakan bagaimana bobot ini dihitung atau ditafsirkan. Apakah tanda bobot itu ada hubungannya dengan …

5
Menggunakan LASSO dari paket lars (atau glmnet) di R untuk pemilihan variabel
Maaf jika pertanyaan ini sedikit mendasar. Saya mencari untuk menggunakan pemilihan variabel LASSO untuk model regresi linier berganda di R. Saya memiliki 15 prediktor, salah satunya adalah kategorikal (akankah itu menyebabkan masalah?). Setelah mengatur dan saya menggunakan perintah berikut:yxxxyyy model = lars(x, y) coef(model) Masalah saya adalah ketika saya menggunakan …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.