Pertanyaan yang diberi tag «classification»

Klasifikasi statistik adalah masalah mengidentifikasi sub-populasi yang menjadi tempat pengamatan baru, di mana identitas sub-populasi tidak diketahui, berdasarkan pada serangkaian pelatihan data yang berisi pengamatan yang sub-populasi diketahui. Oleh karena itu klasifikasi ini akan menunjukkan perilaku variabel yang dapat dipelajari oleh statistik.


3
Bagaimana Naive Bayes a Linear Classifier?
Saya telah melihat utas lainnya di sini, tetapi saya pikir jawabannya tidak memuaskan pertanyaan yang sebenarnya. Apa yang terus saya baca adalah bahwa Naif Bayes adalah pengklasifikasi linier (mis: sini ) (sedemikian rupa sehingga menarik batas keputusan linier) menggunakan demonstrasi peluang log. Namun, saya mensimulasikan dua awan Gaussian dan memasang …

2
Kepentingan relatif dari seperangkat alat prediksi dalam klasifikasi hutan acak dalam R
Saya ingin menentukan kepentingan relatif dari set variabel terhadap randomForestmodel klasifikasi dalam R. importanceFungsi ini menyediakan MeanDecreaseGinimetrik untuk setiap prediktor individu - apakah sesederhana menjumlahkan ini di setiap prediktor dalam set? Sebagai contoh: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) …

3
Apa akar penyebab masalah ketidakseimbangan kelas?
Saya telah banyak berpikir tentang "masalah ketidakseimbangan kelas" dalam pembelajaran mesin / statistik akhir-akhir ini, dan saya semakin dalam merasakan bahwa saya tidak mengerti apa yang sedang terjadi. Pertama, biarkan saya mendefinisikan (atau mencoba) mendefinisikan istilah saya: Masalah ketidakseimbangan kelas dalam pembelajaran mesin / statistik adalah pengamatan bahwa beberapa algoritma …

3
Cara menentukan kualitas classifier multiclass
Diberikan dataset dengan instance xsayaxsayax_i bersama dengan kelas mana setiap instance persis milik satu kelasx i y iNNNxsayaxsayax_iysayaysayay_i classifier multiclass Setelah pelatihan dan pengujian saya pada dasarnya memiliki tabel dengan benar kelas dan diprediksi kelas untuk setiap instance dalam tes set. Jadi untuk setiap contoh saya memiliki kecocokan ( ) …

7
Apa cabang statistik?
Dalam matematika, ada cabang-cabang seperti aljabar, analisis, topologi, dll. Dalam pembelajaran mesin ada yang diawasi, tidak diawasi, dan pembelajaran penguatan. Di dalam masing-masing cabang ini, ada cabang yang lebih baik yang membagi metode lebih lanjut. Saya mengalami masalah menggambar paralel dengan statistik. Apa yang akan menjadi cabang utama statistik (dan …

4
Kapan saya harus menyeimbangkan kelas dalam set data pelatihan?
Saya memiliki kursus online, di mana saya belajar, bahwa kelas yang tidak seimbang dalam data pelatihan dapat menyebabkan masalah, karena algoritma klasifikasi berlaku untuk aturan mayoritas, karena memberikan hasil yang baik jika ketidakseimbangan itu terlalu banyak. Dalam suatu tugas seseorang harus menyeimbangkan data melalui undersampling kelas mayoritas. Namun di blog …

4
Area di bawah kurva ROC vs akurasi keseluruhan
Saya sedikit bingung tentang Area Under Curve (AUC) dari ROC dan akurasi keseluruhan. Apakah AUC sebanding dengan akurasi keseluruhan? Dengan kata lain, ketika kita memiliki akurasi keseluruhan yang lebih besar apakah kita akan mendapatkan AUC yang lebih besar? Atau apakah menurut definisi mereka berkorelasi positif? Jika keduanya berkorelasi positif, mengapa …

2
Perbedaan antara Bayes naif & Bayes naif multinomial
Saya pernah berurusan dengan classifier Naif Bayes sebelumnya. Saya telah membaca tentang Multinomial Naif Bayes belakangan ini. Juga Probabilitas Posterior = (Sebelum * Kemungkinan) / (Bukti) . Satu-satunya perbedaan utama (saat memprogram pengklasifikasi ini) yang saya temukan antara Naive Bayes & Multinomial Naive Bayes adalah bahwa Multinomial Naive Bayes menghitung …

6
Prosedur pemilihan variabel untuk klasifikasi biner
Apa pilihan variabel / fitur yang Anda sukai untuk klasifikasi biner ketika ada lebih banyak variabel / fitur daripada pengamatan dalam set pembelajaran? Tujuannya di sini adalah untuk membahas prosedur pemilihan fitur apa yang mengurangi kesalahan klasifikasi terbaik. Kita dapat memperbaiki notasi untuk konsistensi: untuk , mari menjadi kumpulan pembelajaran …

2
Bagaimana cara membandingkan kinerja pengklasifikasi pembelajaran mesin secara statistik?
Berdasarkan estimasi akurasi klasifikasi, saya ingin menguji apakah satu classifier secara statistik lebih baik pada set dasar daripada classifier lain. Untuk setiap classifier, saya memilih pelatihan dan pengujian sampel secara acak dari set dasar, melatih model, dan menguji model. Saya melakukan ini sepuluh kali untuk setiap classifier. Karena itu saya …

3
Mengapa AUC lebih tinggi untuk pengklasifikasi yang kurang akurat daripada untuk yang lebih akurat?
Saya memiliki dua pengklasifikasi A: jaringan Bayesian yang naif B: tree (terhubung sendiri) jaringan Bayesian Dalam hal akurasi dan langkah-langkah lain, A melakukan relatif lebih buruk daripada B. Namun, ketika saya menggunakan paket R ROCR dan AUC untuk melakukan analisis ROC, ternyata AUC untuk A lebih tinggi daripada AUC untuk …

1
Menghitung pengulangan efek dari model lmer
Saya baru saja menemukan makalah ini , yang menjelaskan bagaimana menghitung pengulangan (alias reliabilitas, alias korelasi intraclass) dari pengukuran melalui pemodelan efek campuran. Kode R adalah: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

7
Di Naif Bayes, mengapa repot-repot dengan Laplace smoothing ketika kita memiliki kata-kata yang tidak diketahui dalam set tes?
Saya membaca Klasifikasi Naif Bayes hari ini. Saya membaca, di bawah judul Estimasi Parameter dengan menambahkan 1 smoothing : Mari ccc merujuk ke kelas (seperti positif atau negatif), dan membiarkan www mengacu pada tanda atau kata. Estimasi kemungkinan maksimum untuk P( w | c )P(w|c)P(w|c) adalah c o u n …

1
Bisakah derajat kebebasan menjadi angka non-integer?
Ketika saya menggunakan GAM, itu memberi saya sisa DF adalah (baris terakhir dalam kode). Apa artinya? Melampaui contoh GAM, Secara umum, bisakah jumlah derajat kebebasan menjadi angka yang bukan bilangan bulat?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.