Statistik dan Big Data classification

1

Bagaimana cara membandingkan acara yang diamati dengan yang diharapkan?

Misalkan saya punya satu sampel frekuensi dari 4 peristiwa yang mungkin: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 dan saya memiliki probabilitas yang diharapkan dari peristiwa saya terjadi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dengan jumlah frekuensi yang diamati …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

Klasifikasi dengan satu prediktor dominan

Saya memiliki masalah klasifikasi ( -class), dengan urutan 100 prediktor nilai nyata, salah satunya tampaknya memiliki kekuatan penjelas yang lebih banyak daripada yang lain. Saya ingin masuk lebih dalam ke efek dari variabel lain. Namun, teknik pembelajaran mesin standar (hutan acak, SVM, dll) tampaknya dibanjiri oleh satu peramal yang kuat …

9 machine-learning classification

2

Hapus duplikat dari set pelatihan untuk klasifikasi

Katakanlah saya memiliki banyak baris untuk masalah klasifikasi: X1, . . . XN, YX1,...XN,YX_1, ... X_N, Y Di mana adalah fitur / prediktor dan Y adalah kelas yang dimiliki kombinasi fitur baris.X1, . . . , XNX1,...,XNX_1, ..., X_NYYY Banyak kombinasi fitur dan kelasnya diulang dalam dataset, yang saya gunakan …

9 machine-learning classification data-mining logistic stratification

2

Metode canggih untuk menemukan nol bagian rata-rata dari rangkaian waktu

Saya memiliki deret waktu yang bising yang harus saya segmentasikan ke bagian-bagian tersebut dengan rata-rata nol dan bagian-bagian itu tanpa rata-rata nol. Menemukan batas seakurat mungkin adalah penting (jelas di mana batas tepatnya terletak agak subyektif). Saya pikir varian cusum dapat diadaptasi untuk melakukan ini tetapi karena cusum terutama tentang …

9 time-series classification mean change-point

4

Bagaimana cara melakukan beberapa tes post-hoc chi-square pada tabel 2 X 3?

Kumpulan data saya terdiri dari angka kematian total atau kelangsungan hidup suatu organisme pada tiga tipe lokasi, inshore, midchannel, dan offshore. Angka-angka dalam tabel di bawah ini mewakili jumlah situs. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Saya ingin tahu apakah # situs tempat …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

1

Haruskah saya mengacak ulang data saya?

Kami memiliki satu set sampel biologis yang cukup mahal untuk diperoleh. Kami menempatkan sampel ini melalui serangkaian tes untuk menghasilkan data yang digunakan untuk membangun model prediksi. Untuk tujuan ini kami telah membagi sampel ke set pelatihan (70%) dan pengujian (30%). Kami telah berhasil membuat model dan menerapkannya pada set …

9 classification modeling experiment-design cross-validation bootstrap

2

Hitung kurva ROC untuk data

Jadi, saya memiliki 16 percobaan di mana saya mencoba untuk mengotentikasi seseorang dari sifat biometrik menggunakan Hamming Distance. Ambang batas saya diatur ke 3.5. Data saya di bawah dan hanya percobaan 1 yang Benar-Benar Positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

3

Cara membuat pohon-pohon hutan acak memilih desimal tetapi tidak biner

Pertanyaan saya adalah tentang klasifikasi biner, katakanlah memisahkan pelanggan yang baik dari pelanggan yang buruk, tetapi bukan regresi atau klasifikasi non-biner. Dalam konteks ini, hutan acak adalah ansambel pohon klasifikasi. Untuk setiap pengamatan, setiap pohon memilih "ya" atau "tidak", dan suara rata-rata dari semua pohon adalah probabilitas hutan akhir. Pertanyaan …

9 r machine-learning classification random-forest

2

Apa yang membuat classifier salah mengklasifikasikan data? [Tutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 3 tahun yang lalu . Mungkinkah itu dari data itu sendiri? Atau apakah itu karena model tidak dapat mendeteksi …

9 classification supervised-learning

2

Apakah Random Forest pilihan yang baik untuk Klasifikasi data yang tidak seimbang? [Tutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 3 tahun yang lalu . Terlepas dari pendekatan variabilitas data yang mirip dan terus meningkat, dapatkah hutan acak "sebagai …

9 machine-learning classification data-mining supervised-learning statistical-learning

4

Koefisien korelasi Matthews dengan multi-kelas

Koefisien korelasi Matthews ( ) adalah ukuran untuk mengukur kualitas klasifikasi biner ([Wikipedia] [1]). diberikan untuk klasifikasi biner yang menggunakan true positive ( ), false positive ( ), false negative ( ), dan nilai true negative ( ) seperti yang diberikan di bawah ini:MCCMCC\textrm{MCC}MCCMCC\textrm{MCC}TPTPTPFPFPFPFNFNFNTNTNTN MCC =TP× TN- FP× FN( TP+ …

9 machine-learning classification multi-class agreement-statistics

3

KNN: 1-tetangga terdekat

Pertanyaan saya adalah tentang pengelompokan tetangga terdekat 1 dan tentang pernyataan yang dibuat dalam buku The Elements of Statistics Learning, karya Hastie, Tibshirani, dan Friedman. Pernyataannya adalah (hlm. 465, bagian 13.3): "Karena hanya menggunakan titik pelatihan yang paling dekat dengan titik kueri, bias dari estimasi tetangga 1-terdekat sering rendah, tetapi …

9 classification k-nearest-neighbour

1

Analisis Diskriminan Linier untuk

Saya sedang belajar 'Pengantar Pembelajaran Statistik' oleh James, Witten, Hastie, Tibshirani. Di halaman 139, dari buku mereka, mereka mulai dengan memperkenalkan Teorema Bayes pk(X)=P(Y=k|X=x)=πkfk(x)∑kl=1πlfl(x)pk(X)=P(Y=k|X=x)=πkfk(x)∑l=1kπlfl(x)p_k(X)=P(Y=k|X=x) = \dfrac{\pi_kf_k(x)}{\sum_{l=1}^k \pi_l f_l(x)}. ππ\pibukan konstanta matematika, tetapi menunjukkan probabilitas sebelumnya. Tidak ada yang aneh dalam persamaan ini. Buku itu mengklaim bahwa ia ingin mendapatkan taksiran …

9 self-study classification

1

Apa perbedaan antara "standar emas" dan "kebenaran dasar"?

Apa perbedaan antara "standar emas" dan "kebenaran dasar"? Dua artikel wiki (yaitu, standar emas , dan kebenaran dasar ) menghubungkan kedua konsep satu sama lain dalam hal ketepatan / akurasi model. Itu satu kemungkinan. Tetapi saya juga menemukan bahwa konsep-konsep ini digunakan secara bergantian ketika berbicara tentang kumpulan data berlabel: …

9 classification terminology

2

Mereproduksi plot proyeksi analisis diskriminan linier

Saya berjuang dengan poin proyeksi dalam analisis diskriminan linier (LDA). Banyak buku tentang metode statistik multivariat menggambarkan gagasan LDA dengan gambar di bawah ini. Deskripsi masalahnya adalah sebagai berikut. Pertama, kita perlu menggambar batas keputusan, menambahkan garis tegak lurus dan kemudian memplot proyeksi titik data di atasnya. Saya ingin tahu …

9 r machine-learning classification discriminant-analysis

Pertanyaan yang diberi tag «classification»