Statistik dan Big Data classification

1

Mengurangi jumlah level variabel prediktor kategori tidak berurutan

Saya ingin melatih classifier, katakanlah SVM, atau forest acak, atau classifier lainnya. Salah satu fitur dalam dataset adalah variabel kategori dengan 1000 level. Apa cara terbaik untuk mengurangi jumlah level dalam variabel ini. Dalam R ada fungsi yang disebut combine.levels()dalam paket Hmisc , yang menggabungkan tingkat jarang, tetapi saya mencari …

11 classification svm random-forest many-categories

2

Bagaimana cara memahami jaringan keyakinan mendalam konvolusional untuk klasifikasi audio?

Dalam " Jaringan keyakinan mendalam konvolusional untuk pembelajaran terwakili terwakili terwakili " oleh Lee et. al. ( PDF ) DBN konvolusional diusulkan. Juga metode dievaluasi untuk klasifikasi gambar. Ini terdengar logis, karena ada fitur gambar lokal alami, seperti sudut dan tepi kecil dll. Dalam " Pembelajaran fitur tanpa pengawasan untuk …

11 classification unsupervised-learning intuition deep-belief-networks

3

Mengapa kita perlu memasukkan classifier k-terdekat?

Seperti yang saya pahami, k-NN adalah algoritma pelajar yang malas dan tidak membutuhkan fase pelatihan. Jadi mengapa kita perlu menggunakan .fit()sklearn dan apa yang terjadi ketika kita menggunakannya?

11 classification scikit-learn k-nearest-neighbour

1

R / mgcv: Mengapa produk tensor () dan ti () menghasilkan permukaan yang berbeda?

The mgcvpaket untuk Rmemiliki dua fungsi untuk pas interaksi produk tensor: te()dan ti(). Saya memahami pembagian kerja dasar antara keduanya (menyesuaikan interaksi non-linear vs menguraikan interaksi ini menjadi efek utama dan interaksi). Yang tidak saya mengerti adalah mengapa te(x1, x2)dan ti(x1) + ti(x2) + ti(x1, x2)mungkin menghasilkan (sedikit) hasil yang …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

Teknik Machine Learning untuk mempelajari pola string

Saya memiliki daftar kata-kata, milik berbagai kategori yang ditentukan sendiri. Setiap kategori memiliki pola sendiri (misalnya satu memiliki panjang tetap dengan karakter khusus, yang lain ada karakter yang hanya terjadi dalam kategori "kata", ...). Sebagai contoh: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 …

11 machine-learning classification similarities supervised-learning

3

Pengklasifikasi dengan presisi yang disesuaikan vs pengingatan

Saya sedang mengerjakan masalah klasifikasi biner di mana jauh lebih penting untuk tidak memiliki false positive; cukup banyak negatif palsu ok. Saya telah menggunakan banyak pengklasifikasi di sklearn misalnya, tetapi saya pikir tidak satupun dari mereka memiliki kemampuan untuk menyesuaikan tradeoff presisi-recall secara eksplisit (mereka menghasilkan hasil yang cukup bagus …

11 classification precision-recall

3

Apakah AUC yang baik untuk kurva presisi-recall?

Karena saya memiliki dataset yang sangat tidak seimbang (hasil positif 9%), saya memutuskan kurva presisi-recall lebih tepat daripada kurva ROC. Saya memperoleh ukuran ringkasan analog dari area di bawah kurva PR (0,49, jika Anda tertarik) tetapi tidak yakin bagaimana menafsirkannya. Saya pernah mendengar bahwa 0,8 atau di atas adalah AUC …

11 classification precision-recall auc

1

Pros dari jarak Jeffries Matusita

Menurut beberapa makalah yang saya baca, jarak Jeffries dan Matusita biasa digunakan. Tetapi saya tidak dapat menemukan banyak informasi tentang itu kecuali rumus di bawah ini JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} Ini mirip dengan jarak Euclidean kecuali untuk akar kuadrat E (x, y) =∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} Jarak JM diklaim lebih dapat diandalkan daripada …

11 classification k-nearest-neighbour euclidean

1

Bagaimana kita memprediksi kejadian langka?

Saya sedang mengembangkan model prediksi risiko asuransi. Model-model ini adalah "peristiwa langka" seperti prediksi maskapai tanpa pertunjukan, deteksi kesalahan perangkat keras, dll. Ketika saya menyiapkan kumpulan data saya, saya mencoba menerapkan klasifikasi, tetapi saya tidak dapat memperoleh pengklasifikasi yang berguna karena tingginya proporsi kasus negatif . Saya tidak punya banyak …

11 classification predictive-models scikit-learn poisson-process

1

Cara memilih probabilitas cutoff untuk peristiwa langka Regresi Logistik

Saya memiliki 100.000 pengamatan (9 variabel indikator dummy) dengan 1000 positif. Regresi Logistik harus bekerja dengan baik dalam kasus ini tetapi probabilitas cutoff membingungkan saya. Dalam literatur umum, kami memilih cutoff 50% untuk memprediksi 1 dan 0. Saya tidak bisa melakukan ini karena model saya memberikan nilai maksimum ~ 1%. …

11 regression logistic classification generalized-linear-model roc

3

Komponen utama pertama tidak memisahkan kelas, tetapi PC lain melakukannya; bagaimana mungkin?

Saya menjalankan PCA pada 17 variabel kuantitatif untuk mendapatkan serangkaian variabel yang lebih kecil, yaitu komponen utama, yang akan digunakan dalam pembelajaran mesin yang diawasi untuk mengklasifikasikan instance ke dalam dua kelas. Setelah PCA, PC1 menyumbang 31% dari varians dalam data, PC2 menyumbang 17%, PC3 menyumbang 10%, PC4 menyumbang 8%, …

11 machine-learning classification pca dimensionality-reduction

4

Klasifikasi untuk label kelas yang tidak pasti

Katakanlah saya memiliki serangkaian instance dengan label kelas yang terkait. Tidak masalah bagaimana label ini diberi label, tetapi seberapa yakin keanggotaan kelas mereka. Setiap instanc milik tepat satu kelas. Katakanlah saya dapat mengukur kepastian setiap keanggotaan kelas dengan atribut nominal yang berubah dari 1 menjadi 3 (sangat pasti menjadi tidak …

11 classification weka uncertainty

1

Motivasi di balik langkah-langkah algoritma hutan acak

Metode yang saya kenal untuk membangun hutan acak adalah sebagai berikut: (dari http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) Untuk membangun pohon di hutan kami: Bootstrap sampel ukuran N di mana N adalah ukuran set pelatihan kami. Gunakan contoh bootstrap ini sebagai set pelatihan untuk pohon ini. Di setiap simpul pohon pilih secara acak m …

11 machine-learning classification random-forest

1

Evaluasi pengklasifikasi: kurva belajar vs kurva ROC

Saya ingin membandingkan 2 pengklasifikasi yang berbeda untuk masalah klasifikasi teks multi-kelas yang menggunakan dataset pelatihan besar. Saya ragu apakah saya harus menggunakan kurva ROC atau kurva belajar untuk membandingkan 2 pengklasifikasi. Di satu sisi, kurva pembelajaran berguna untuk menentukan ukuran dataset pelatihan, karena Anda dapat menemukan ukuran dataset di …

11 machine-learning classification roc accuracy

1

Bagaimana cara menggunakan tunggul keputusan sebagai pembelajar yang lemah di Adaboost?

Saya ingin menerapkan Adaboost menggunakan Decision Stump. Benarkah membuat banyak tunggakan keputusan seperti fitur kumpulan data kami di setiap iterasi Adaboost? Misalnya, jika saya memiliki kumpulan data dengan 24 fitur, haruskah saya memiliki 24 class stump classifier di setiap iterasi? Atau haruskah saya secara acak memilih beberapa fitur dan membuat …

11 machine-learning classification cart boosting

Pertanyaan yang diberi tag «classification»