Statistik dan Big Data classification

2

Apakah akurasi = 1- tingkat kesalahan pengujian

Mohon maaf jika ini adalah pertanyaan yang sangat jelas, tetapi saya telah membaca berbagai posting dan sepertinya tidak dapat menemukan konfirmasi yang baik. Dalam kasus klasifikasi, apakah akurasi classifier = 1- tingkat kesalahan pengujian ? Saya mendapatkan bahwa keakuratannya adalah , tetapi pertanyaan saya adalah bagaimana tepatnya akurasi dan tingkat …

14 classification terminology accuracy

2

Matematika di balik pohon klasifikasi dan regresi

Adakah yang bisa membantu menjelaskan beberapa matematika di balik klasifikasi dalam CART? Saya ingin memahami bagaimana dua tahap utama terjadi. Sebagai contoh, saya melatih classifier CART pada dataset dan menggunakan dataset pengujian untuk menandai kinerja prediktifnya tetapi: Bagaimana akar awal pohon dipilih? Mengapa dan bagaimana masing-masing cabang dibentuk? Dataset saya …

14 regression classification data-mining cart

4

Memeriksa apakah peningkatan akurasi signifikan

Misalkan saya memiliki algoritma yang mengklasifikasikan hal-hal menjadi dua kategori. Saya dapat mengukur akurasi algoritma pada katakanlah 1000 hal pengujian - misalkan 80% dari hal-hal tersebut diklasifikasikan dengan benar. Mari kita anggap saya memodifikasi algoritma sehingga 81% dari hal-hal diklasifikasikan dengan benar. Bisakah statistik memberi tahu saya tentang apakah peningkatan …

14 statistical-significance classification

4

Bagaimana cara menginterpretasikan kurva ROC?

Saya menerapkan regresi logistik pada data saya di SAS dan di sini adalah kurva ROC dan tabel klasifikasi. Saya nyaman dengan angka-angka di tabel klasifikasi, tetapi tidak yakin apa yang ditunjukkan oleh kurva roc dan area di bawahnya. Penjelasan apa pun akan sangat dihargai.

14 regression logistic classification roc

3

Apa yang harus menjadi parameter optimal untuk pengelompokan Acak Hutan?

Saat ini saya menggunakan kotak peralatan RF di MATLAB untuk Masalah klasifikasi biner Kumpulan Data: 50.000 sampel dan lebih dari 250 fitur Jadi berapa jumlah pohon dan fitur yang dipilih secara acak pada setiap split untuk menumbuhkan pohon? dapatkah parameter lain sangat memengaruhi hasil?

14 machine-learning classification random-forest

2

Bagaimana cara kerja Naif Bayes dengan variabel kontinu?

Untuk pemahaman saya (yang sangat mendasar), Naive Bayes memperkirakan probabilitas berdasarkan frekuensi kelas setiap fitur dalam data pelatihan. Tetapi bagaimana cara menghitung frekuensi variabel kontinu? Dan ketika melakukan prediksi, bagaimana cara mengklasifikasikan pengamatan baru yang mungkin tidak memiliki nilai yang sama dari pengamatan dalam set pelatihan? Apakah ia menggunakan semacam …

14 machine-learning classification bayesian naive-bayes

1

Membandingkan dua model saat kurva ROC saling bersilangan

Satu ukuran umum yang digunakan untuk membandingkan dua atau lebih model klasifikasi adalah dengan menggunakan area di bawah kurva ROC (AUC) sebagai cara untuk secara tidak langsung menilai kinerjanya. Dalam hal ini model dengan AUC yang lebih besar biasanya diartikan sebagai berkinerja lebih baik daripada model dengan AUC yang lebih …

13 machine-learning classification roc auc model-evaluation

4

Haruskah orang memperhatikan multi-collinearity saat menggunakan model non-linear?

Katakanlah kita memiliki masalah klasifikasi biner dengan sebagian besar fitur kategorikal. Kami menggunakan beberapa model non-linear (mis. XGBoost atau Random Forests) untuk mempelajarinya. Haruskah orang masih khawatir tentang multi-collinearity? Mengapa? Jika jawaban di atas benar, bagaimana seharusnya seseorang melawannya mengingat dia menggunakan jenis model non-linear ini?

13 classification random-forest multicollinearity xgboost

3

Bagaimana model pembelajaran mesin (GBM, NN dll) dapat digunakan untuk analisis survival?

Saya tahu bahwa model statistik tradisional seperti regresi Cox Proportional Hazards & beberapa model Kaplan-Meier dapat digunakan untuk memprediksi hari sampai kejadian berikutnya dari suatu peristiwa katakanlah kegagalan dll. Yaitu analisis survival Pertanyaan Bagaimana versi regresi model pembelajaran mesin seperti GBM, jaringan saraf dll dapat digunakan untuk memprediksi hari sampai …

13 machine-learning classification survival cox-model kaplan-meier

1

Cara melatih lapisan deep-network LSTM

Saya menggunakan jaringan lstm dan umpan-maju untuk mengklasifikasikan teks. Saya mengonversi teks menjadi vektor satu-panas dan mengumpankan masing-masing ke dalam lstm sehingga saya dapat meringkasnya sebagai satu representasi. Lalu saya memberinya makan ke jaringan lain. Tapi bagaimana cara melatih lstm? Saya hanya ingin urutan mengklasifikasikan teks - haruskah saya memberinya …

13 classification neural-networks deep-learning lstm

2

Menggunakan paket caret apakah mungkin untuk mendapatkan matriks kebingungan untuk nilai ambang tertentu?

Saya telah mendapatkan model regresi logistik (via train) untuk respons biner, dan saya telah mendapatkan matriks kebingungan logistik via confusionMatrixin caret. Ini memberi saya matriks kebingungan model logistik, meskipun saya tidak yakin apa ambang batas yang digunakan untuk mendapatkannya. Bagaimana cara mendapatkan matriks kebingungan untuk nilai ambang batas tertentu menggunakan …

13 r classification roc caret confusion-matrix

2

Bagaimana cara kerja multiclass perceptron?

Saya tidak memiliki latar belakang dalam matematika, tetapi saya mengerti bagaimana Perceptron sederhana bekerja dan saya pikir saya memahami konsep hyperplane (saya membayangkannya secara geometris sebagai sebuah pesawat dalam ruang 3D yang memisahkan dua titik awan, seperti garis yang memisahkan awan dua titik dalam ruang 2D). Tapi saya tidak mengerti …

13 machine-learning classification linear-model multi-class

3

PCA pada data teks dimensi tinggi sebelum klasifikasi hutan acak?

Apakah masuk akal untuk melakukan PCA sebelum melakukan Klasifikasi Hutan Acak? Saya berurusan dengan data teks dimensi tinggi, dan saya ingin melakukan pengurangan fitur untuk membantu menghindari kutukan dimensi, tetapi bukankah Random Forests sudah melakukan semacam pengurangan dimensi?

13 classification pca random-forest dimensionality-reduction high-dimensional

1

Tabel Reproduksi 18.1 dari “Elemen Pembelajaran Statistik”

Tabel 18.1 dalam Elemen Pembelajaran Statistik merangkum kinerja beberapa pengklasifikasi pada set data 14 kelas. Saya membandingkan algoritma baru dengan laso dan jaring elastis untuk masalah klasifikasi multikelas. Menggunakan glmnetversi 1.5.3 (R 2.13.0) saya tidak dapat mereproduksi titik 7. (yang multinomial -penalized) pada tabel, di mana jumlah gen yang digunakan …

13 classification lasso glmnet

1

Paket GBM vs. Caret menggunakan GBM

Saya telah menggunakan model tuning caret, tetapi kemudian menjalankan kembali model menggunakan gbmpaket. Ini adalah pemahaman saya bahwa caretpaket menggunakan gbmdan hasilnya harus sama. Namun, hanya menjalankan tes cepat menggunakan data(iris)menunjukkan perbedaan dalam model sekitar 5% menggunakan RMSE dan R ^ 2 sebagai metrik evaluasi. Saya ingin menemukan kinerja model …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

Pertanyaan yang diberi tag «classification»