Statistik dan Big Data classification

1

Menggunakan aturan penilaian yang tepat untuk menentukan keanggotaan kelas dari regresi logistik

Saya menggunakan regresi logistik untuk memprediksi kemungkinan suatu peristiwa terjadi. Pada akhirnya, probabilitas ini dimasukkan ke dalam lingkungan produksi, tempat kami memfokuskan sebanyak mungkin pada prediksi kami yang "Ya". Oleh karena itu berguna bagi kita untuk memiliki gagasan tentang "hit" atau "non-hit" definitif apa yang mungkin menjadi apriori (sebelum berjalan …

8 r logistic classification loss-functions scoring-rules

4

Apa skor oob yang baik untuk hutan acak dengan sklearn, klasifikasi tiga kelas? [duplikat]

Pertanyaan ini sudah memiliki jawaban di sini : Apakah model saya bagus, berdasarkan nilai metrik diagnostik ( / AUC / akurasi / RMSE dll.)? R2R2R^2 (3 jawaban) Ditutup 8 bulan lalu . Saya memiliki data pembelajaran yang terdiri dari ~ 45 ribu sampel, masing-masing memiliki 21 fitur. Saya mencoba untuk …

8 classification random-forest out-of-sample

2

membangun model klasifikasi untuk data biner ketat

saya punya satu set data yang benar-benar biner. setiap set nilai variabel berada di domain: true, false. properti "khusus" dari kumpulan data ini adalah bahwa mayoritas dari nilai-nilai itu "salah". Saya telah menggunakan algoritma pembelajaran jaringan bayesian untuk mempelajari jaringan dari data. Namun, untuk salah satu node target saya (yang …

8 machine-learning classification svm random-forest bayesian-network

2

Mengapa model statistik cocok jika diberi set data yang sangat besar?

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

3

Bagaimana cara melakukan klasifikasi Hutan Acak tanpa pengawasan menggunakan kode Breiman?

Saya bekerja dengan kode hutan acak Breiman ( http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_manual.htm#c2 ) untuk klasifikasi data satelit (supervised learning). Saya menggunakan dataset pelatihan dan tes yang memiliki ukuran sampel 2000 dan ukuran variabel 10. Data diklasifikasikan ke dalam dua kelas, A dan B. Dalam mode pembelajaran terawasi, algoritma berkinerja baik dengan kesalahan klasifikasi …

8 machine-learning classification random-forest

1

Jarak mahalanobis pada data tidak normal

Jarak mahalanobis, ketika digunakan untuk tujuan klasifikasi, biasanya mengasumsikan distribusi normal multivariat, dan jarak dari centroid kemudian harus mengikuti (dengan derajat kebebasan sama dengan jumlah dimensi / fitur). Kita dapat menghitung probabilitas bahwa titik data baru milik set menggunakan jarak Mahalanobis-nya.χ2χ2\chi^2ddd Saya memiliki kumpulan data yang tidak mengikuti distribusi normal …

8 hypothesis-testing classification multivariate-analysis poisson-distribution joint-distribution

2

Ukuran sampel sehubungan dengan prediksi dalam klasifikasi dan regresi

Sehubungan dengan pengujian hipotesis, memperkirakan ukuran sampel dilakukan melalui daya, dan itu intuitif bahwa meningkatkan ukuran yang sama meningkatkan presisi efek yang diperkirakan. Tetapi bagaimana dengan prediksi untuk klasifikasi dan regresi? Aspek apa dari masalah prediksi yang dipengaruhi oleh ukuran sampel selain memperkirakan kesalahan generalisasi atau RMSE untuk regresi. Singkatnya, …

8 classification sample-size prediction

3

Mendeteksi cluster dalam urutan biner

Saya memiliki urutan biner seperti 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Di mana kluster sebagian besar 1 diikuti oleh jumlah yang lebih besar dari nol, seperti pada gambar di bawah ini (hitam singkatan dari 1): Saya ingin menerapkan teknik (lebih disukai dalam R atau dengan Python) di mana saya dapat secara otomatis mendeteksi kluster 1 …

8 classification clustering data-mining pattern-recognition binary-data

5

Klasifikasi vs regresi untuk prediksi tanda variabel respon kontinu

Katakanlah saya ingin memprediksi apakah suatu proyek akan menguntungkan atau tidak. Dalam data sampel saya, variabel respons sebenarnya adalah variabel kontinu: $ untung / rugi proyek. Karena tujuan akhir saya hanyalah klasifikasi biner (proyek menguntungkan atau proyek tidak menguntungkan), haruskah saya menggunakan teknik klasifikasi? Atau haruskah saya menggunakan regresi agar …

8 regression classification predictive-models

3

Analogi sensitivitas dan spesifisitas untuk hasil yang berkelanjutan

Bagaimana saya bisa menghitung sensitivitas dan spesifisitas (atau tindakan analog) dari tes diagnostik berkelanjutan dalam memprediksi hasil yang berkelanjutan (misalnya, tekanan darah) tanpa mendikotomisasi hasilnya? Ada ide? Tampaknya para peneliti telah melakukan ini menggunakan pemodelan efek campuran (lihat tautan di bawah), tetapi saya tidak terbiasa dengan penggunaan teknik ini: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3026390/ …

8 classification mixed-model predictive-models roc continuous-data

1

Generalisasi distribusi dan klasifikasi normal multivariat

Saya tertarik pada keluarga distribusi multivariat yang dapat dilihat sebagai generalisasi dari distribusi normal multivariat, sejauh ditentukan oleh nilai ekspektasi μ⃗ μ→\vec \mu dan matriks kovarians ΣΣ\Sigma, ditambah fungsi yang menurun secara monoton g(d)g(d)g(d) sedemikian rupa sehingga kepadatannya p(x⃗ )∝g(Δ(x⃗ ,μ⃗ ))p(x→)∝g(Δ(x→,μ→)) p(\vec x) \propto g \left ( \Delta(\vec x, …

8 distributions classification normal-distribution multivariate-analysis

3

Post hoc test dalam ANOVA desain campuran 2x3 menggunakan SPSS?

Saya memiliki dua kelompok yang terdiri dari 10 peserta yang dinilai tiga kali selama percobaan. Untuk menguji perbedaan antara kelompok dan di tiga penilaian, saya menjalankan ANOVA desain campuran 2x3 dengan group(kontrol, eksperimental), time(pertama, kedua, tiga), dan group x time. Keduanya timedan grouphasilnya signifikan, selain itu ada interaksi yang signifikan …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

Klasifikasi SVM non-linear dengan kernel RBF

Saya menerapkan classifier SVM non-linear dengan RBF kernel. Saya diberitahu bahwa satu-satunya perbedaan dari SVM normal adalah bahwa saya harus mengganti produk dot dengan fungsi kernel: Saya tahu bagaimana SVM linear normal bekerja, yaitu, setelah menyelesaikan masalah optimasi kuadratik (tugas ganda), saya menghitung hyperplane pembagian optimal seperti dan offset dari …

8 classification svm kernel-trick nonlinear

4

Apakah Bayesian Classifier merupakan pendekatan yang baik untuk teks dengan meta-data numerik?

Saya mencoba membuat pendekatan untuk mendeteksi iklan penipuan di situs web saya. Saya pikir masalahnya ada banyak kesamaan dengan mendeteksi email spam (yang mana Bayesian classifier adalah solusi umum) karena banyak sinyal yang mengindikasikan penipuan akan ditemukan dalam teks iklan. Namun, ada beberapa informasi lain yang bisa menjadi indikator scam …

8 bayesian classification naive-bayes

1

Kesalahan klasifikasi lebih rendah ketika saya tidak melakukan pembelajaran pada dataset?

Saya memiliki satu set data kata-kata. Saya secara acak memilih beberapa poin dan menggunakannya untuk pengujian dan yang lainnya digunakan untuk pelatihan. kasus (1) Saya hanya mengambil setiap titik data dari set tes dan mengklasifikasikannya memiliki label kelas yang sama dengan titik terdekat dari set kereta. kasus (2) Saya melakukan …

8 machine-learning classification

Pertanyaan yang diberi tag «classification»