Statistik dan Big Data clustering

2

Mengapa model statistik cocok jika diberi set data yang sangat besar?

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

Mengapa hanya nilai rata-rata yang digunakan dalam metode pengelompokan (K-means)?

Dalam metode pengelompokan seperti K-means , jarak euclidean adalah metrik yang digunakan. Akibatnya, kami hanya menghitung nilai rata-rata di dalam setiap kluster. Dan kemudian penyesuaian dilakukan pada elemen-elemen berdasarkan jarak mereka ke setiap nilai rata-rata. Saya bertanya-tanya mengapa fungsi Gaussian tidak digunakan sebagai metrik? Alih-alih menggunakan xi -mean(X), kita bisa …

8 normal-distribution clustering k-means unsupervised-learning gaussian-mixture

1

Peta yang diatur sendiri vs kernel k-means

Untuk aplikasi, saya ingin mengelompokkan data (berpotensi berdimensi tinggi) dan mengekstraksi kemungkinan milik sebuah cluster. Saya mempertimbangkan pada saat ini peta mengatur diri sendiri atau kernel k-cara untuk melakukan pekerjaan. Apa pro dan kontra dari setiap classifier untuk tugas ini? Apakah saya kehilangan algoritme pengelompokan orang lain yang bisa tampil …

8 clustering unsupervised-learning

2

Merugikan hasil kriteria pengelompokan

Saya telah melakukan pengelompokan titik koordinat (bujur, lintang) dan menemukan hasil yang mengejutkan dan merugikan dari kriteria pengelompokan untuk jumlah cluster yang optimal. Kriteria diambil dari clusterCrit()paket. Poin-poin yang saya coba klaster pada plot (karakteristik geografis dari kumpulan data terlihat jelas): Prosedur lengkapnya adalah sebagai berikut: Melakukan pengelompokan hierarkis pada …

8 r clustering

1

Menganalisis pertandingan sepak bola: pemain serupa dengan DBSCAN dan lintasan serupa dengan TRACLUS

Saya mencoba menganalisis kumpulan data yang berasal dari sensor yang terletak di dekat sepatu pemain dalam pertandingan ( http://www.orgs.ttu.edu/debs2013/index.php?goto=cfchallengedetails ). Saya memutuskan untuk melihat pengelompokan untuk mengidentifikasi: Lintasan pemain yang serupa dalam pertandingan dengan menggunakan algoritma pengelompokan TRACLUS Mirip pemain dengan menghitung beberapa karakteristik seperti bagian yang gagal, umpan silang …

8 clustering

3

Mendeteksi cluster dalam urutan biner

Saya memiliki urutan biner seperti 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 Di mana kluster sebagian besar 1 diikuti oleh jumlah yang lebih besar dari nol, seperti pada gambar di bawah ini (hitam singkatan dari 1): Saya ingin menerapkan teknik (lebih disukai dalam R atau dengan Python) di mana saya dapat secara otomatis mendeteksi kluster 1 …

8 classification clustering data-mining pattern-recognition binary-data

3

Ketidakstabilan numerik menghitung matriks kovarians terbalik

Saya memiliki 65 sampel data 21 dimensi (disisipkan di sini ) dan saya membuat matriks kovarians. Ketika dihitung dalam C ++ saya mendapatkan matriks kovarians disisipkan di sini . Dan ketika dihitung dalam matlab dari data (seperti yang ditunjukkan di bawah ini) saya mendapatkan matriks kovarians yang disisipkan di sini …

8 clustering matlab covariance distance-functions matrix-inverse

3

Post hoc test dalam ANOVA desain campuran 2x3 menggunakan SPSS?

Saya memiliki dua kelompok yang terdiri dari 10 peserta yang dinilai tiga kali selama percobaan. Untuk menguji perbedaan antara kelompok dan di tiga penilaian, saya menjalankan ANOVA desain campuran 2x3 dengan group(kontrol, eksperimental), time(pertama, kedua, tiga), dan group x time. Keduanya timedan grouphasilnya signifikan, selain itu ada interaksi yang signifikan …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

Interval kepercayaan saat menggunakan teorema Bayes

Saya menghitung beberapa probabilitas bersyarat, dan interval kepercayaan 95% yang terkait. Untuk banyak kasus saya, saya memiliki jumlah xkeberhasilan langsung dari npercobaan (dari tabel kontingensi), sehingga saya dapat menggunakan interval kepercayaan Binomial, seperti yang disediakan oleh binom.confint(x, n, method='exact')in R. Namun dalam kasus lain, saya tidak memiliki data seperti itu, …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

2

Klaster data clickstream

Baru-baru ini saya memasuki bidang pembelajaran mesin dan proyek yang sedang saya kerjakan mengharuskan saya untuk mengelompokkan pengguna berdasarkan urutan mereka mengunjungi halaman web di situs web. Saya punya data dalam bentuk: ['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...] Di mana setiap angka adalah kategori / halaman …

8 clustering unsupervised-learning model-based-clustering

3

Model Campuran dan Campuran Proses Dirichlet (kuliah atau makalah pemula)

Dalam konteks pengelompokan online, saya sering menemukan banyak makalah yang berbicara tentang: "proses dirichlet" dan "model campuran terbatas / tak terbatas". Mengingat bahwa saya tidak pernah menggunakan atau membaca tentang proses dirichlet atau model campuran. Apakah Anda tahu saran tentang kuliah pengantar atau makalah yang mudah dimengerti, tentang itu?

8 clustering inference mixture dirichlet-distribution dirichlet-process

1

Memperbaiki kesalahan standar ketika variabel independen terkait otomatis

Saya punya pertanyaan tentang bagaimana cara memperbaiki kesalahan standar ketika variabel independen memiliki korelasi. Dalam pengaturan deret waktu yang sederhana, kita dapat menggunakan matriks kovarians Newey-West dengan banyak lag dan itu akan menangani masalah korelasi dalam residu. Apa yang dilakukan seseorang dalam pengaturan data panel? Bayangkan situasi di mana Anda …

8 clustering standard-error panel-data

1

Apa perbedaan utama antara analisis Taxometrik (misalnya, MAXCOV, MAXEIG) dan analisis Kelas Laten?

Penelitian terbaru telah berusaha untuk menentukan apakah konstruksi psikologis tertentu adalah dimensi laten atau taksononik (yaitu, termasuk takson atau kelas). Sebagai contoh, para peneliti mungkin tertarik untuk mencari tahu apakah ada "kelas" tertentu dari orang-orang yang lebih mungkin mengembangkan nyeri kronis setelah cedera, atau jika risiko mengembangkan nyeri kronis dikonseptualisasikan …

8 clustering latent-variable psychology latent-class model-based-clustering

1

Deteksi bentuk untuk data deret waktu

Saya memiliki banyak koleksi rangkaian waktu - pengukuran dilakukan setiap 15 menit (96 pengukuran dalam sehari) selama rentang 1 tahun di berbagai lokasi berbeda. Saya telah membagi setiap deret waktu menjadi 365 deret waktu lebih kecil, 1 untuk setiap hari dalam setahun. Melihat deret waktu ini, pasti ada banyak bentuk …

8 time-series clustering curves

5

Teknik reduksi dimensi untuk memaksimalkan pemisahan kluster yang diketahui?

Jadi katakanlah saya memiliki banyak titik data di R ^ n, di mana n cukup besar (seperti, 50). Saya tahu data ini terbagi dalam 3 kelompok, dan saya tahu bagian mana dari setiap titik data yang menjadi bagiannya. Yang ingin saya lakukan adalah memvisualisasikan cluster ini dalam 2D sedemikian rupa …

8 clustering pca dimensionality-reduction data-visualization

Pertanyaan yang diberi tag «clustering»