Pertanyaan yang diberi tag «classification»

Klasifikasi statistik adalah masalah mengidentifikasi sub-populasi yang menjadi tempat pengamatan baru, di mana identitas sub-populasi tidak diketahui, berdasarkan pada serangkaian pelatihan data yang berisi pengamatan yang sub-populasi diketahui. Oleh karena itu klasifikasi ini akan menunjukkan perilaku variabel yang dapat dipelajari oleh statistik.

3
Mengapa svm tidak sebagus pohon keputusan pada data yang sama?
Saya baru mengenal pembelajaran mesin dan mencoba menggunakan scikit-learning (sklearn) untuk menangani masalah klasifikasi. Baik DecisionTree dan SVM dapat melatih classifier untuk masalah ini. Saya menggunakan sklearn.ensemble.RandomForestClassifierdan sklearn.svm.SVCmenyesuaikan data pelatihan yang sama (sekitar 500.000 entri dengan 50 fitur per entri). The RandomForestClassifier keluar dengan classifier di sekitar satu menit. The …

2
Kumpulan data uji yang sangat tidak seimbang dan data pelatihan yang seimbang dalam klasifikasi
Saya memiliki satu set pelatihan dengan sekitar 3000 contoh positif dan 3000 contoh negatif. Tetapi kumpulan data pengujian saya sangat tidak seimbang. Set positif hanya memiliki 50 instance dan negatif memiliki 1500 instance. Hal ini menyebabkan presisi sangat rendah. Apakah ada pendekatan untuk menyelesaikan masalah ini? Saya menggunakan SVM untuk …


1
Teknik untuk pembelajaran online tambahan classifier pada aliran data
Teknik mana yang bagus untuk menghadapi masalah abstrak ini? Anda memiliki aliran data dari sinyal kontinu, sebagai satu dari sensor fisik. Sinyal itu memiliki nilai nyata (tidak jelas), tanpa atribut; fitur kecanduan (misalnya, kekuatan, korelasi-otomatis, entropi) dapat diekstraksi. Anda dapat menetapkan satu label dari set terbatas ke jendela sinyal. Biarkan …

1
Teknik Kategorisasi / Segmentasi
Pertama, izinkan saya mengatakan bahwa saya sedikit keluar dari kedalaman saya di sini, jadi jika pertanyaan ini perlu diutarakan kembali atau ditutup sebagai duplikat, harap beri tahu saya. Mungkin saja saya tidak memiliki kosakata yang tepat untuk mengungkapkan pertanyaan saya. Saya mengerjakan tugas pemrosesan gambar di mana saya mengidentifikasi fitur-fitur …

2
Engsel kehilangan dengan satu-vs-semua classifier
Saat ini saya sedang melihat bentuk primitif satu-vs-semua yang tidak dibatasi ∑i=1NI∑k=1,k≠yiNKL(1+wk⋅xi−wyi⋅xi)∑i=1NI∑k=1,k≠yiNKL(1+wk⋅xi−wyi⋅xi)\sum\limits_{i=1}^{N_I} \sum\limits_{k=1,\atop k \neq y_i}^{N_K} L(1+ \mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i}) dimana NININ_I adalah jumlah instance, NKNKN_K adalah jumlah kelas, NFNFN_F adalah jumlah fitur, XXX adalah NK×NFNK×NFN_K \times N_F matriks data, yyy adalah vektor label kelas, WWW adalah NK×NINK×NIN_K \times N_I matriks di …


4
Bagaimana menafsirkan Lasso menyusutkan semua koefisien ke 0?
Saya punya dataset dengan 338 prediktor dan 570 instance (sayangnya tidak dapat diunggah) di mana saya menggunakan Lasso untuk melakukan pemilihan fitur. Secara khusus, saya menggunakan cv.glmnetfungsi dari glmnetsebagai berikut, di mana mydata_matrixmatriks biner 570 x 339 dan hasilnya adalah biner: library(glmnet) x_dat <- mydata_matrix[, -ncol(mydata_matrix)] y <- mydata_matrix[, ncol(mydata_matrix)] …


1
Pengkodean fitur kardinalitas tinggi (banyak kategori) saat fitur sangat berbeda pada kardinalitas
Saya telah mencari pertanyaan tentang pengkodean fitur kategorikal, tetapi tidak dapat menemukan yang membahas masalah saya. Maaf jika saya melewatkannya. Katakanlah kita memiliki dataset dengan variabel biner dan nominal yang kira-kira sama pentingnya. Sebagian besar pengklasifikasi tidak dapat menangani tipe kategorikal secara langsung, jadi ini harus ditransformasikan - misalnya menggunakan …

1
Definisi regresi
Dari Wikipedia: Dalam pemodelan statistik, analisis regresi adalah proses statistik untuk memperkirakan hubungan antar variabel. Ini mencakup banyak teknik untuk memodelkan dan menganalisis beberapa variabel, ketika fokusnya adalah pada hubungan antara variabel dependen dan satu atau lebih variabel independen (atau 'prediktor'). Tidak sama dengan klasifikasi ? Pada akhirnya, bukankah itu …

3
Bagaimana melakukan SVD untuk memasukkan nilai yang hilang, contoh konkret
Saya telah membaca komentar yang bagus mengenai bagaimana menangani nilai yang hilang sebelum menerapkan SVD, tetapi saya ingin tahu cara kerjanya dengan contoh sederhana: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Mengingat matriks di atas, jika saya …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
CART: Pilihan prediktor terbaik untuk pemisahan ketika keuntungan dalam penurunan pengotor adalah sama?
Pertanyaan saya berkaitan dengan pohon Klasifikasi . Pertimbangkan contoh berikut dari kumpulan data Iris: Saya ingin secara manual memilih prediktor terbaik untuk pemisahan pertama. Menurut algoritma CART, fitur terbaik untuk membuat pemisahan adalah fitur yang memaksimalkan penurunan pengotor partisi, juga disebut Gini gain: G i n i G a i …

1
Apakah data yang tidak seimbang pengambilan sampel atas atau bawah benar-benar efektif? Mengapa?
Saya sering mendengar pengambilan sampel data atas atau bawah yang dibahas sebagai cara berurusan dengan klasifikasi data yang tidak seimbang. Saya mengerti bahwa ini bisa berguna jika Anda bekerja dengan classifier biner (bukan berdasarkan probabilistik atau berbasis skor) dan memperlakukannya sebagai kotak hitam, jadi skema pengambilan sampel adalah satu-satunya cara …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.