Pertanyaan yang diberi tag «classification»

Klasifikasi statistik adalah masalah mengidentifikasi sub-populasi yang menjadi tempat pengamatan baru, di mana identitas sub-populasi tidak diketahui, berdasarkan pada serangkaian pelatihan data yang berisi pengamatan yang sub-populasi diketahui. Oleh karena itu klasifikasi ini akan menunjukkan perilaku variabel yang dapat dipelajari oleh statistik.

2
Apakah f-ukur identik dengan akurasi?
Saya mengerti bahwa ukuran-f (berdasarkan presisi dan daya ingat) adalah perkiraan seberapa akurat classifier. Juga, f-ukuran lebih disukai daripada akurasi ketika kita memiliki dataset yang tidak seimbang. Saya punya pertanyaan sederhana (yang lebih banyak tentang menggunakan terminologi yang benar daripada tentang teknologi). Saya memiliki dataset yang tidak seimbang dan saya …

3
High Recall - Precision Rendah untuk dataset yang tidak seimbang
Saya saat ini menghadapi beberapa masalah menganalisis dataset tweet dengan mesin vektor dukungan. Masalahnya adalah bahwa saya memiliki satu set pelatihan kelas biner yang tidak seimbang (5: 2); yang diharapkan sebanding dengan distribusi kelas nyata. Saat memprediksi saya mendapatkan presisi rendah (0,47) untuk kelas minoritas di set validasi; recall adalah …



3
Kapan Anda akan menggunakan PCA daripada LDA dalam klasifikasi?
Saya membaca artikel ini tentang perbedaan antara Analisis Komponen Utama dan Analisis Diskriminan Berganda (Analisis Diskriminan Linier), dan saya mencoba memahami mengapa Anda akan menggunakan PCA daripada MDA / LDA. Penjelasannya dirangkum sebagai berikut: secara kasar berbicara dalam PCA kami mencoba untuk menemukan sumbu dengan varian maksimum di mana data …

1
Apakah jaringan saraf biasanya membutuhkan waktu untuk “menendang” selama pelatihan?
Saya mencoba untuk melatih jaringan saraf yang mendalam untuk klasifikasi, menggunakan propagasi balik. Secara khusus, saya menggunakan jaringan saraf convolutional untuk klasifikasi gambar, menggunakan perpustakaan Tensor Flow. Selama pelatihan, saya mengalami beberapa perilaku aneh, dan saya hanya ingin tahu apakah ini tipikal, atau apakah saya mungkin melakukan sesuatu yang salah. …


4
Overfitting dengan Linear Classifiers
Hari ini profesor kami menyatakan di kelas bahwa "overfitting dengan pengklasifikasi linear tidak mungkin". Saya berpendapat bahwa itu salah, karena bahkan pengklasifikasi linier dapat peka terhadap outlier dalam set pelatihan - ambil contohnya margin keras Dukungan Mesin Vektor: Satu titik data berisik dapat mengubah hyperplane mana yang akan digunakan untuk …

2
Menerapkan PCA untuk menguji data untuk tujuan klasifikasi
Saya baru-baru ini belajar tentang PCA yang luar biasa dan saya telah melakukan contoh yang diuraikan dalam dokumentasi scikit-learn . Saya tertarik untuk mengetahui bagaimana saya bisa menerapkan PCA ke titik data baru untuk tujuan klasifikasi. Setelah memvisualisasikan PCA dalam bidang 2 dimensi (sumbu x, y), saya melihat bahwa saya …

1
Kurva ROC untuk dataset tidak seimbang
Pertimbangkan matriks input dan output biner .XXXyyy Cara umum untuk mengukur kinerja classifier adalah dengan menggunakan kurva ROC. Dalam plot ROC, diagonal adalah hasil yang akan diperoleh dari classifier acak. Dalam hal output tidak seimbang , kinerja classifier acak dapat ditingkatkan dengan memilih atau dengan probabilitas berbeda.yyy000111 Bagaimana kinerja classifier …

2
Mengapa Adaboost dengan Pohon Keputusan?
Saya telah membaca sedikit tentang meningkatkan algoritma untuk tugas klasifikasi dan Adaboost pada khususnya. Saya memahami bahwa tujuan Adaboost adalah untuk mengambil beberapa "pelajar yang lemah" dan, melalui serangkaian iterasi pada data pelatihan, mendorong pengklasifikasi untuk belajar memprediksi kelas yang modelnya berulang kali membuat kesalahan. Namun, saya bertanya-tanya mengapa begitu …

2
Bagaimana cara mengubah ambang batas untuk klasifikasi dalam R randomForests?
Semua literatur Pemodelan Distribusi Spesies menunjukkan bahwa ketika memprediksi ada / tidaknya suatu spesies menggunakan model yang menghasilkan probabilitas (misalnya, RandomForests), pilihan ambang batas probabilitas yang digunakan untuk benar-benar mengklasifikasikan suatu spesies sebagai ada atau tidaknya adalah penting dan kita harus tidak selalu mengandalkan default 0,5. Saya butuh bantuan dengan …

3
Bagaimana memvisualisasikan kebaikan Bayesian of fit untuk regresi logistik
Untuk masalah regresi logistik Bayesian, saya telah membuat distribusi prediksi posterior. Saya sampel dari distribusi prediktif dan menerima ribuan sampel (0,1) untuk setiap pengamatan yang saya miliki. Memvisualisasikan kebaikan tidak terlalu menarik, misalnya: Plot ini menunjukkan 10 000 sampel + titik datum yang diamati (cara di sebelah kiri dapat melihat …

1
Mengapa Anova () dan drop1 () memberikan jawaban berbeda untuk GLMM?
Saya memiliki GLMM formulir: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Ketika saya menggunakan drop1(model, test="Chi"), saya mendapatkan hasil yang berbeda daripada jika saya menggunakan Anova(model, type="III")dari paket mobil atau summary(model). Dua yang terakhir ini memberikan jawaban yang sama. Menggunakan banyak data yang …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
Dari mana datangnya istilah “belajar model”
Seringkali saya pernah mendengar data penambang di sini menggunakan istilah ini. Sebagai ahli statistik yang telah mengerjakan masalah klasifikasi, saya akrab dengan istilah "latihlah pengklasifikasi" dan saya menganggap "mempelajari model" berarti hal yang sama. Saya tidak keberatan dengan istilah "train a classifier". Itu tampaknya menggambarkan ide pemasangan model karena data …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.