Pertanyaan yang diberi tag «classification»

Klasifikasi statistik adalah masalah mengidentifikasi sub-populasi yang menjadi tempat pengamatan baru, di mana identitas sub-populasi tidak diketahui, berdasarkan pada serangkaian pelatihan data yang berisi pengamatan yang sub-populasi diketahui. Oleh karena itu klasifikasi ini akan menunjukkan perilaku variabel yang dapat dipelajari oleh statistik.

1
Menggunakan aturan penilaian yang tepat untuk menentukan keanggotaan kelas dari regresi logistik
Saya menggunakan regresi logistik untuk memprediksi kemungkinan suatu peristiwa terjadi. Pada akhirnya, probabilitas ini dimasukkan ke dalam lingkungan produksi, tempat kami memfokuskan sebanyak mungkin pada prediksi kami yang "Ya". Oleh karena itu berguna bagi kita untuk memiliki gagasan tentang "hit" atau "non-hit" definitif apa yang mungkin menjadi apriori (sebelum berjalan …



2
Mengapa model statistik cocok jika diberi set data yang sangat besar?
Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

3
Bagaimana cara melakukan klasifikasi Hutan Acak tanpa pengawasan menggunakan kode Breiman?
Saya bekerja dengan kode hutan acak Breiman ( http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_manual.htm#c2 ) untuk klasifikasi data satelit (supervised learning). Saya menggunakan dataset pelatihan dan tes yang memiliki ukuran sampel 2000 dan ukuran variabel 10. Data diklasifikasikan ke dalam dua kelas, A dan B. Dalam mode pembelajaran terawasi, algoritma berkinerja baik dengan kesalahan klasifikasi …

1
Jarak mahalanobis pada data tidak normal
Jarak mahalanobis, ketika digunakan untuk tujuan klasifikasi, biasanya mengasumsikan distribusi normal multivariat, dan jarak dari centroid kemudian harus mengikuti (dengan derajat kebebasan sama dengan jumlah dimensi / fitur). Kita dapat menghitung probabilitas bahwa titik data baru milik set menggunakan jarak Mahalanobis-nya.χ2χ2\chi^2ddd Saya memiliki kumpulan data yang tidak mengikuti distribusi normal …

2
Ukuran sampel sehubungan dengan prediksi dalam klasifikasi dan regresi
Sehubungan dengan pengujian hipotesis, memperkirakan ukuran sampel dilakukan melalui daya, dan itu intuitif bahwa meningkatkan ukuran yang sama meningkatkan presisi efek yang diperkirakan. Tetapi bagaimana dengan prediksi untuk klasifikasi dan regresi? Aspek apa dari masalah prediksi yang dipengaruhi oleh ukuran sampel selain memperkirakan kesalahan generalisasi atau RMSE untuk regresi. Singkatnya, …

3
Mendeteksi cluster dalam urutan biner
Saya memiliki urutan biner seperti 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Di mana kluster sebagian besar 1 diikuti oleh jumlah yang lebih besar dari nol, seperti pada gambar di bawah ini (hitam singkatan dari 1): Saya ingin menerapkan teknik (lebih disukai dalam R atau dengan Python) di mana saya dapat secara otomatis mendeteksi kluster 1 …

5
Klasifikasi vs regresi untuk prediksi tanda variabel respon kontinu
Katakanlah saya ingin memprediksi apakah suatu proyek akan menguntungkan atau tidak. Dalam data sampel saya, variabel respons sebenarnya adalah variabel kontinu: $ untung / rugi proyek. Karena tujuan akhir saya hanyalah klasifikasi biner (proyek menguntungkan atau proyek tidak menguntungkan), haruskah saya menggunakan teknik klasifikasi? Atau haruskah saya menggunakan regresi agar …

3
Analogi sensitivitas dan spesifisitas untuk hasil yang berkelanjutan
Bagaimana saya bisa menghitung sensitivitas dan spesifisitas (atau tindakan analog) dari tes diagnostik berkelanjutan dalam memprediksi hasil yang berkelanjutan (misalnya, tekanan darah) tanpa mendikotomisasi hasilnya? Ada ide? Tampaknya para peneliti telah melakukan ini menggunakan pemodelan efek campuran (lihat tautan di bawah), tetapi saya tidak terbiasa dengan penggunaan teknik ini: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3026390/ …

1
Generalisasi distribusi dan klasifikasi normal multivariat
Saya tertarik pada keluarga distribusi multivariat yang dapat dilihat sebagai generalisasi dari distribusi normal multivariat, sejauh ditentukan oleh nilai ekspektasi μ⃗ μ→\vec \mu dan matriks kovarians ΣΣ\Sigma, ditambah fungsi yang menurun secara monoton g(d)g(d)g(d) sedemikian rupa sehingga kepadatannya p(x⃗ )∝g(Δ(x⃗ ,μ⃗ ))p(x→)∝g(Δ(x→,μ→)) p(\vec x) \propto g \left ( \Delta(\vec x, …

3
Post hoc test dalam ANOVA desain campuran 2x3 menggunakan SPSS?
Saya memiliki dua kelompok yang terdiri dari 10 peserta yang dinilai tiga kali selama percobaan. Untuk menguji perbedaan antara kelompok dan di tiga penilaian, saya menjalankan ANOVA desain campuran 2x3 dengan group(kontrol, eksperimental), time(pertama, kedua, tiga), dan group x time. Keduanya timedan grouphasilnya signifikan, selain itu ada interaksi yang signifikan …
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
Klasifikasi SVM non-linear dengan kernel RBF
Saya menerapkan classifier SVM non-linear dengan RBF kernel. Saya diberitahu bahwa satu-satunya perbedaan dari SVM normal adalah bahwa saya harus mengganti produk dot dengan fungsi kernel: Saya tahu bagaimana SVM linear normal bekerja, yaitu, setelah menyelesaikan masalah optimasi kuadratik (tugas ganda), saya menghitung hyperplane pembagian optimal seperti dan offset dari …

4
Apakah Bayesian Classifier merupakan pendekatan yang baik untuk teks dengan meta-data numerik?
Saya mencoba membuat pendekatan untuk mendeteksi iklan penipuan di situs web saya. Saya pikir masalahnya ada banyak kesamaan dengan mendeteksi email spam (yang mana Bayesian classifier adalah solusi umum) karena banyak sinyal yang mengindikasikan penipuan akan ditemukan dalam teks iklan. Namun, ada beberapa informasi lain yang bisa menjadi indikator scam …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.