Pertanyaan yang diberi tag «unbalanced-classes»

Data yang diorganisasikan ke dalam kategori diskrit atau * kelas * dapat menimbulkan masalah untuk analisis tertentu jika jumlah pengamatan ( ) yang dimiliki masing-masing kelas tidak konstan di seluruh kelas. Kelas dengan tidak sama * tidak seimbang *. nn

2
Apakah f-ukur identik dengan akurasi?
Saya mengerti bahwa ukuran-f (berdasarkan presisi dan daya ingat) adalah perkiraan seberapa akurat classifier. Juga, f-ukuran lebih disukai daripada akurasi ketika kita memiliki dataset yang tidak seimbang. Saya punya pertanyaan sederhana (yang lebih banyak tentang menggunakan terminologi yang benar daripada tentang teknologi). Saya memiliki dataset yang tidak seimbang dan saya …

3
High Recall - Precision Rendah untuk dataset yang tidak seimbang
Saya saat ini menghadapi beberapa masalah menganalisis dataset tweet dengan mesin vektor dukungan. Masalahnya adalah bahwa saya memiliki satu set pelatihan kelas biner yang tidak seimbang (5: 2); yang diharapkan sebanding dengan distribusi kelas nyata. Saat memprediksi saya mendapatkan presisi rendah (0,47) untuk kelas minoritas di set validasi; recall adalah …

1
Kurva ROC untuk dataset tidak seimbang
Pertimbangkan matriks input dan output biner .XXXyyy Cara umum untuk mengukur kinerja classifier adalah dengan menggunakan kurva ROC. Dalam plot ROC, diagonal adalah hasil yang akan diperoleh dari classifier acak. Dalam hal output tidak seimbang , kinerja classifier acak dapat ditingkatkan dengan memilih atau dengan probabilitas berbeda.yyy000111 Bagaimana kinerja classifier …



1
Model pembelajaran dalam mana yang dapat mengklasifikasikan kategori yang tidak eksklusif satu sama lain
Contoh: Saya memiliki kalimat dalam deskripsi pekerjaan: "Java senior engineer in UK". Saya ingin menggunakan model pembelajaran yang mendalam untuk memperkirakannya sebagai 2 kategori: English dan IT jobs. Jika saya menggunakan model klasifikasi tradisional, hanya dapat memprediksi 1 label dengan softmaxfungsi di lapisan terakhir. Dengan demikian, saya dapat menggunakan 2 …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
Berlebihan dengan variabel kategori
Saya ingin melakukan kombinasi oversampling dan undersampling untuk menyeimbangkan dataset saya dengan sekitar 4000 pelanggan dibagi menjadi dua kelompok, di mana salah satu grup memiliki proporsi sekitar 15%. Saya telah melihat SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) dan ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), tetapi keduanya membuat sampel sintetis baru menggunakan pengamatan yang …



3
Data pelatihan tidak seimbang - tetapi apakah set validasi saya juga harus?
Saya telah memberi label data yang terdiri dari 10.000 contoh positif, dan 50.000 contoh negatif, sehingga totalnya 60000 contoh. Jelas data ini tidak seimbang. Sekarang katakanlah saya ingin membuat set validasi saya, dan saya ingin menggunakan 10% dari data saya untuk melakukannya. Pertanyaan saya adalah sebagai berikut: Haruskah saya memastikan …

1
Apakah data yang tidak seimbang pengambilan sampel atas atau bawah benar-benar efektif? Mengapa?
Saya sering mendengar pengambilan sampel data atas atau bawah yang dibahas sebagai cara berurusan dengan klasifikasi data yang tidak seimbang. Saya mengerti bahwa ini bisa berguna jika Anda bekerja dengan classifier biner (bukan berdasarkan probabilistik atau berbasis skor) dan memperlakukannya sebagai kotak hitam, jadi skema pengambilan sampel adalah satu-satunya cara …

2
Bagaimana cara membuat koreksi peristiwa langka yang dijelaskan dalam King and Zeng (2001)?
Saya memiliki dataset dengan variabel respons biner (bertahan hidup) dan 3 variabel penjelas ( A= 3 level, B= 3 level, C= 6 level). Dalam dataset ini, data seimbang dengan 100 individu per ABCkategori. Saya sudah mempelajari efek dari A, Bdan Cvariabel dengan dataset ini; efeknya signifikan. Saya memiliki subset. Dalam …

2
Apakah perbedaan besar dalam ukuran sampel bersama dengan perbedaan varian penting untuk uji-t (atau uji permutasi)?
Ada pertanyaan yang sangat membingungkan di pikiran saya. Saya memiliki data, dan ingin membandingkan skor numerik antara pria dan wanita. Ada perbedaan besar dalam kedua kelompok: jumlah pria adalah 34, sementara jumlah wanita adalah 310, dan varians tidak sama. Sejauh yang saya tahu, ketika varians tidak sama, saya dapat menggunakan …


1
Bias regresi Softmax dan probabilitas sebelumnya untuk kelas yang tidak sama
Saya menggunakan regresi Softmax untuk masalah klasifikasi multi-kelas. Saya tidak memiliki probabilitas sebelumnya yang sama untuk masing-masing kelas. Saya tahu dari Regresi Logistik (regresi softmax dengan 2 kelas) bahwa probabilitas kelas sebelumnya secara implisit ditambahkan ke bias ( ).log(p0/p1)log⁡(p0/p1)\log(p_0/p_1) Biasanya yang saya lakukan adalah menghapus secara manual istilah ini dari …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.