Pertanyaan yang diberi tag «feature-selection»

Metode dan prinsip pemilihan subset atribut untuk digunakan dalam pemodelan lebih lanjut

2
Pilihan fitur dengan Hutan Acak
Saya memiliki dataset dengan sebagian besar variabel keuangan (120 fitur, 4k contoh) yang sebagian besar sangat berkorelasi dan sangat bising (indikator teknis, misalnya) jadi saya ingin memilih sekitar maks 20-30 untuk digunakan nanti dengan pelatihan model (klasifikasi biner - bertambah berkurang). Saya sedang berpikir tentang menggunakan hutan acak untuk peringkat …


4
Penambangan Teks: bagaimana cara mengelompokkan teks (misalnya artikel berita) dengan kecerdasan buatan?
Saya telah membangun beberapa jaringan saraf (MLP (terhubung penuh), Elman (berulang)) untuk tugas yang berbeda, seperti bermain Pong, mengklasifikasikan angka tulisan tangan dan lainnya ... Selain itu saya mencoba untuk membangun beberapa jaringan saraf convolutional pertama, misalnya untuk mengklasifikasikan catatan tulisan tangan multi-digit, tetapi saya benar-benar baru untuk menganalisis dan …

1
Gini berkurang dan Gini ketidakmurnian simpul anak
Saya sedang mengerjakan ukuran kepentingan fitur Gini untuk hutan acak. Oleh karena itu, saya perlu menghitung penurunan Gini dalam ketidakmurnian simpul. Inilah cara saya melakukannya, yang mengarah pada konflik dengan definisi tersebut, menunjukkan bahwa saya pasti salah di suatu tempat ... :) Untuk pohon biner, dan mengingat probabilitas anak-anak kiri …

2
LASSO / LARS vs metode umum ke spesifik (GETS)
Saya telah bertanya-tanya, mengapa metode pemilihan model LASSO dan LARS begitu populer walaupun pada dasarnya mereka hanyalah variasi dari seleksi langkah-ke depan (dan karenanya menderita ketergantungan jalur)? Demikian pula, mengapa metode General to Specific (GETS) untuk pemilihan model sebagian besar diabaikan, meskipun mereka melakukan lebih baik daripada LARS / LASSO …


3
Untuk pengklasifikasi linier, apakah koefisien yang lebih besar menyiratkan fitur yang lebih penting?
Saya seorang insinyur perangkat lunak yang sedang mengerjakan pembelajaran mesin. Dari pemahaman saya, regresi linier (seperti OLS) dan klasifikasi linier (seperti regresi logistik dan SVM) membuat prediksi berdasarkan produk dalam antara koefisien terlatih dan variabel fitur → x :w⃗ w→\vec{w}x⃗ x→\vec{x} y^= f( b⃗ ⋅ x⃗ ) = f( ∑sayawsayaxsaya)y^=f(w→⋅x→)=f(∑sayawsayaxsaya) …


1
Bagaimana tepatnya cara kerja pemilihan fitur Chi-square?
Saya tahu bahwa untuk setiap pasangan fitur-kelas, nilai statistik chi-square dihitung dan dibandingkan dengan ambang batas. Tapi saya agak bingung. Jika ada fitur dan kelas , bagaimana cara membuat tabel kontingensi? Bagaimana cara memutuskan fitur mana yang akan disimpan dan mana yang akan dihapus?mmmkkk Klarifikasi apa pun akan sangat dihargai. …

1
Metode perbandingan multipel mana yang digunakan untuk model lmer: lsmeans atau glht?
Saya menganalisis set data menggunakan model efek campuran dengan satu efek tetap (kondisi) dan dua efek acak (peserta karena desain subjek dan pasangan dalam). Model ini dihasilkan dengan lme4paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Selanjutnya, saya melakukan uji rasio kemungkinan model ini terhadap model tanpa efek tetap (kondisi) dan memiliki perbedaan yang signifikan. Ada …

5
Apakah lebih baik melakukan analisis data eksplorasi hanya pada set data pelatihan?
Saya sedang melakukan analisis data eksplorasi (EDA) pada dataset. Kemudian saya akan memilih beberapa fitur untuk memprediksi variabel dependen. Pertanyaannya adalah: Apakah saya harus melakukan EDA hanya pada dataset pelatihan saya? Atau haruskah saya bergabung dengan pelatihan dan menguji kumpulan data kemudian melakukan EDA pada keduanya dan memilih fitur berdasarkan …

2
Perbedaan antara memilih fitur berdasarkan “regresi F” dan berdasarkan nilai
Apakah membandingkan fitur menggunakan fitur F-regressionyang sama dengan yang berhubungan dengan label secara individual dan mengamati nilai ?R2R2R^2 Saya sering melihat rekan-rekan saya menggunakan pilihan F regressionuntuk fitur dalam pipa pembelajaran mesin mereka dari sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Beberapa tolong beri tahu saya - mengapa itu memberikan hasil yang sama seperti hanya …

3
Pemilihan variabel Bayesian - apakah ini benar-benar berfungsi?
Saya pikir saya mungkin mempermainkan beberapa pemilihan variabel Bayesian, mengikuti posting blog yang bagus dan makalah terkait di dalamnya. Saya menulis sebuah program dalam rjags (di mana saya cukup pemula) dan mengambil data harga untuk Exxon Mobil, bersama dengan beberapa hal yang tidak mungkin menjelaskan pengembaliannya (misalnya harga paladium) dan …

1
Apa algoritma regresi stagewise maju?
Mungkin hanya karena saya lelah, tetapi saya mengalami kesulitan mencoba memahami algoritma Forward Stagewise Regression. Dari "Elemen Pembelajaran Statistik" halaman 60: Regresi forward-stagewise (FS) bahkan lebih terbatas daripada regresi step-maju. Itu dimulai seperti regresi maju-langkah, dengan intersep sama dengan [rata-rata] y, dan prediktor terpusat dengan koefisien awalnya semua 0. Pada …

1
GAM vs LOESS vs splines
Konteks : Saya ingin menggambar garis di sebar yang tidak tampak parametrik, oleh karena itu saya gunakan geom_smooth()di ggplotdalam R. Secara otomatis mengembalikan geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.