Statistik dan Big Data machine-learning

2

Saya membaca makalah Klasifikasi ImageNet dengan Jaringan Neural Konvolusional Dalam dan pada bagian 3 mereka menjelaskan arsitektur Jaringan Neural Konvolusional mereka, mereka menjelaskan bagaimana mereka lebih suka menggunakan: non-jenuh nonlinierf( x ) = m a x ( 0 , x ) .f(x)=mSebuahx(0,x).f(x) = max(0, x). karena lebih cepat untuk berlatih. …

30 machine-learning neural-networks terminology conv-neural-network

4

Kapan saya harus menyeimbangkan kelas dalam set data pelatihan?

Saya memiliki kursus online, di mana saya belajar, bahwa kelas yang tidak seimbang dalam data pelatihan dapat menyebabkan masalah, karena algoritma klasifikasi berlaku untuk aturan mayoritas, karena memberikan hasil yang baik jika ketidakseimbangan itu terlalu banyak. Dalam suatu tugas seseorang harus menyeimbangkan data melalui undersampling kelas mayoritas. Namun di blog …

29 machine-learning classification unbalanced-classes

5

Membedakan antara dua kelompok dalam statistik dan pembelajaran mesin: uji hipotesis vs klasifikasi vs pengelompokan

Asumsikan saya memiliki dua kelompok data, berlabel A dan B (masing-masing berisi misalnya 200 sampel dan 1 fitur), dan saya ingin tahu apakah mereka berbeda. Saya bisa: a) melakukan uji statistik (misalnya uji-t) untuk melihat apakah mereka berbeda secara statistik. b) menggunakan pembelajaran mesin yang diawasi (mis. dukungan vektor klasifikasi …

29 machine-learning hypothesis-testing t-test unsupervised-learning supervised-learning

3

Mengapa node bias digunakan dalam jaringan saraf?

Mengapa node bias digunakan dalam jaringan saraf? Berapa banyak yang harus Anda gunakan? Di lapisan mana Anda harus menggunakannya: semua lapisan tersembunyi dan lapisan keluaran?

29 machine-learning neural-networks bias-node

5

Cara menangani data hierarkis / bersarang dalam pembelajaran mesin

Saya akan menjelaskan masalah saya dengan sebuah contoh. Misalkan Anda ingin memprediksi penghasilan seseorang yang diberikan beberapa atribut: {Usia, Jenis Kelamin, Negara, Wilayah, Kota}. Anda memiliki dataset pelatihan seperti itu train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

3

Perbedaan antara SVM dan perceptron

Saya agak bingung dengan perbedaan antara SVM dan perceptron. Biarkan saya mencoba meringkas pengertian saya di sini, dan jangan ragu untuk memperbaiki di mana saya salah dan mengisi apa yang saya lewatkan. Perceptron tidak mencoba mengoptimalkan "jarak" pemisahan. Selama menemukan hyperplane yang memisahkan dua set, itu bagus. SVM di sisi …

29 machine-learning svm kernel-trick

2

Apakah penting untuk melakukan normalisasi untuk SVM dan Random Forest?

Setiap dimensi fitur saya memiliki rentang nilai yang berbeda. Saya ingin tahu apakah penting untuk menormalkan dataset ini.

29 machine-learning svm random-forest normalization

6

Prosedur pemilihan variabel untuk klasifikasi biner

Apa pilihan variabel / fitur yang Anda sukai untuk klasifikasi biner ketika ada lebih banyak variabel / fitur daripada pengamatan dalam set pembelajaran? Tujuannya di sini adalah untuk membahas prosedur pemilihan fitur apa yang mengurangi kesalahan klasifikasi terbaik. Kita dapat memperbaiki notasi untuk konsistensi: untuk , mari menjadi kumpulan pembelajaran …

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection

3

Regresi polinomial menggunakan scikit-learning

Saya mencoba menggunakan scikit-learning untuk regresi polinomial. Dari apa yang saya baca regresi polinomial adalah kasus khusus dari regresi linier. Saya berharap bahwa mungkin salah satu model linear umum scikit dapat diparameterisasi agar sesuai dengan polinomial berurutan lebih tinggi tetapi saya tidak melihat opsi untuk melakukan itu. Saya berhasil menggunakan …

29 regression machine-learning large-data polynomial scikit-learn

2

Bagaimana cara membandingkan kinerja pengklasifikasi pembelajaran mesin secara statistik?

Berdasarkan estimasi akurasi klasifikasi, saya ingin menguji apakah satu classifier secara statistik lebih baik pada set dasar daripada classifier lain. Untuk setiap classifier, saya memilih pelatihan dan pengujian sampel secara acak dari set dasar, melatih model, dan menguji model. Saya melakukan ini sepuluh kali untuk setiap classifier. Karena itu saya …

29 machine-learning classification t-test

4

Bagaimana Anda Menafsirkan RMSLE (Root Mean Squared Logarithmic Error)?

Saya telah melakukan kompetisi pembelajaran mesin di mana mereka menggunakan RMSLE (Root Mean Squared Logarithmic Error) untuk mengevaluasi kinerja memprediksi harga jual suatu kategori peralatan. Masalahnya adalah saya tidak yakin bagaimana menafsirkan keberhasilan hasil akhir saya. Sebagai contoh jika saya mencapai RMSLE dari bisa saya membesarkannya yang eksponensial kekuatan dan …

29 regression machine-learning interpretation measurement-error theory

3

R: Random Forest melemparkan NaN / Inf dalam kesalahan "panggilan fungsi asing" meskipun tidak ada dataset NaN [ditutup]

Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Saya menggunakan tanda sisipan untuk menjalankan hutan acak lintas divalidasi atas dataset. Variabel Y adalah faktor. Tidak ada NaN, Inf, …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

apa arti angka-angka dalam laporan klasifikasi sklearn?

Saya memiliki contoh di bawah ini yang saya ambil dari dokumentasi sklearn's sklearn.metrics.classification_report. Apa yang saya tidak mengerti adalah mengapa ada nilai f1, nilai presisi dan recall untuk setiap kelas di mana saya percaya kelas adalah label prediktor? Saya pikir skor f1 memberi tahu Anda keakuratan keseluruhan model. Juga, apa …

29 machine-learning python scikit-learn precision-recall

3

Validasi silang termasuk pelatihan, validasi, dan pengujian. Mengapa kita membutuhkan tiga himpunan bagian?

Saya punya pertanyaan tentang proses validasi silang. Saya berada di tengah-tengah kursus Pembelajaran Mesin di Cursera. Salah satu topiknya adalah tentang validasi silang. Saya merasa agak sulit untuk diikuti. Saya tahu mengapa kami membutuhkan CV karena kami ingin model kami bekerja dengan baik pada data (tidak diketahui) di masa depan …

29 machine-learning cross-validation

3

Mengapa AUC lebih tinggi untuk pengklasifikasi yang kurang akurat daripada untuk yang lebih akurat?

Saya memiliki dua pengklasifikasi A: jaringan Bayesian yang naif B: tree (terhubung sendiri) jaringan Bayesian Dalam hal akurasi dan langkah-langkah lain, A melakukan relatif lebih buruk daripada B. Namun, ketika saya menggunakan paket R ROCR dan AUC untuk melakukan analisis ROC, ternyata AUC untuk A lebih tinggi daripada AUC untuk …

29 machine-learning classification roc auc bayesian-network

Pertanyaan yang diberi tag «machine-learning»