Pertanyaan yang diberi tag «feature-construction»

Rekayasa fitur adalah proses menggunakan pengetahuan domain tentang data untuk membuat fitur untuk model pembelajaran mesin. Tag ini dimaksudkan untuk pertanyaan teoretis dan praktis tentang rekayasa fitur, tidak termasuk pertanyaan yang meminta kode, yang akan di luar topik di CrossValidated.

2
Memahami Fitur Hashing
Wikipedia memberikan contoh berikut ketika menjelaskan hashing fitur ; tetapi pemetaan tampaknya tidak konsisten dengan kamus yang ditentukan Misalnya, toharus dikonversi 3sesuai dengan kamus, tetapi dikodekan sebagai 1gantinya. Apakah ada kesalahan dalam deskripsi? Bagaimana cara kerja hashing fitur? Teks: John likes to watch movies. Mary likes too. John also likes …


1
Mengapa fitur Fourier acak tidak negatif?
Fitur Random Fourier menyediakan perkiraan untuk fungsi kernel. Mereka digunakan untuk berbagai metode kernel, seperti proses SVM dan Gaussian. Hari ini, saya mencoba menggunakan implementasi TensorFlow dan saya mendapat nilai negatif untuk setengah dari fitur saya. Seperti yang saya pahami, ini seharusnya tidak terjadi. Jadi saya kembali ke kertas aslinya …

3
Algoritma pembelajaran mesin untuk peringkat
Aku punya satu set unsur yang saya bisa menggambarkan sesuai dengan karakteristik. Jadi:nXXXnnn xi:{ci1,ci2,…,cin}∣xi∈Xxi:{ci1,ci2,…,cin}∣xi∈Xx_i: \{c_{i1}, c_{i2}, \ldots, c_{in}\} \mid x_i \in X di mana adalah evaluasi (numerik) untuk elemen sesuai dengan karakteristik . Jadi elemen saya dapat dilihat sebagai titik dalam ruang dimensi. i j ncijcijc_{ij}iiijjjnnn Menurut bacaan saya, ada …

6
Cara menyiapkan / membuat fitur untuk deteksi anomali (data keamanan jaringan)
Tujuan saya adalah untuk menganalisis log jaringan (mis., Apache, syslog, audit keamanan Direktori Aktif, dan sebagainya) menggunakan deteksi pengelompokan / anomali untuk tujuan deteksi intrusi. Dari log saya memiliki banyak bidang teks seperti alamat IP, nama pengguna, nama host, port tujuan, port sumber, dan sebagainya (total 15-20 bidang). Saya tidak …

2
Seberapa pentingkah perluasan basis untuk jaring dalam?
Jika jaring saraf yang dalam dianggap sebagai penduga fungsi universal, apakah perluasan basis benar-benar diperlukan? Atau apakah ini spesifik kasus? Misalnya, jika seseorang memiliki tiga variabel X kuantitatif, apakah akan ada keuntungan dalam memperluas jumlah variabel dengan memperkenalkan interaksi, polinomial, dll.? Ini tampaknya memiliki utilitas yang baik dalam RF misalnya …

2
Fitur diekstraksi dengan max pooling vs mean pooling
Dalam pembelajaran yang mendalam, dan ini adalah aplikasi untuk visi komputer, apakah mungkin untuk mengetahui fitur apa dari kedua jenis ekstrak pooling ini? misalnya apakah mungkin untuk mengatakan bahwa max pool mengekstraksi tepi? Bisakah kita mengatakan sesuatu yang serupa tentang pooling jahat? PS merasa bebas untuk merekomendasikan jika stackoverflow lebih …

1
Pengkodean fitur kardinalitas tinggi (banyak kategori) saat fitur sangat berbeda pada kardinalitas
Saya telah mencari pertanyaan tentang pengkodean fitur kategorikal, tetapi tidak dapat menemukan yang membahas masalah saya. Maaf jika saya melewatkannya. Katakanlah kita memiliki dataset dengan variabel biner dan nominal yang kira-kira sama pentingnya. Sebagian besar pengklasifikasi tidak dapat menangani tipe kategorikal secara langsung, jadi ini harus ditransformasikan - misalnya menggunakan …

2
Mengapa model statistik cocok jika diberi set data yang sangat besar?
Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

3
Konstruksi fitur dalam R
Saya bertanya-tanya apakah ada algoritma (mungkin algoritma genetika) dalam R untuk konstruksi fitur (menurunkan kandidat prediktor dari prediksi yang ada)? Saya sedang memikirkan rutin untuk menguji kekuatan orde tinggi, interaksi, rasio, dan kombinasi linear dan fungsi nonlinier dari variabel yang ada (sin, cos, atan dll). Ini bisa berupa filter atau …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.