Pertanyaan yang diberi tag «large-data»

'Data besar' mengacu pada situasi di mana jumlah pengamatan (titik data) sangat besar sehingga memerlukan perubahan dalam cara analis data memikirkan atau melakukan analisis. (Jangan bingung dengan 'dimensi tinggi'.)

4
Bagaimana cara memproyeksikan vektor baru ke ruang PCA?
Setelah melakukan analisis komponen utama (PCA), saya ingin memproyeksikan vektor baru ke ruang PCA (yaitu menemukan koordinatnya dalam sistem koordinat PCA). Saya telah menghitung PCA dalam bahasa R menggunakan prcomp. Sekarang saya harus bisa mengalikan vektor saya dengan matriks rotasi PCA. Haruskah komponen utama dalam matriks ini disusun dalam baris …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
Apakah kita benar-benar melakukan analisis regresi multivariat dengan * juta * koefisien / variabel independen?
Saya menghabiskan beberapa waktu untuk belajar mesin pembelajaran (maaf untuk rekursi :) dan saya tidak bisa tidak tertarik dengan aturan praktis untuk memilih Gradient Descent daripada penyelesaian persamaan langsung untuk menghitung koefisien regresi, dalam kasus regresi linier multivariat. Rule of thumb: jika jumlah fitur (koefisien baca / variabel independen) adalah …

6
Opsi analisis data di luar inti
Saya telah menggunakan SAS secara profesional selama hampir 5 tahun sekarang. Saya sudah menginstalnya di laptop saya dan sering harus menganalisis dataset dengan 1.000-2.000 variabel dan ratusan ribu pengamatan. Saya telah mencari alternatif untuk SAS yang memungkinkan saya untuk melakukan analisis pada set data berukuran serupa. Saya ingin tahu apa …
18 r  sas  large-data 

5
Regresi Poisson dengan data besar: apakah salah mengubah satuan pengukuran?
Karena faktorial dalam distribusi poisson, menjadi tidak praktis untuk memperkirakan model poisson (misalnya, menggunakan kemungkinan maksimum) ketika pengamatan besar. Jadi, misalnya, jika saya mencoba memperkirakan suatu model untuk menjelaskan jumlah kasus bunuh diri pada tahun tertentu (hanya data tahunan yang tersedia), dan mengatakan, ada ribuan kasus bunuh diri setiap tahun, …


4
Bagaimana saya dapat meningkatkan analisis saya tentang efek reputasi pada pemungutan suara?
Baru-baru ini saya telah melakukan beberapa analisis tentang efek reputasi pada upvote (lihat posting blog ), dan kemudian saya punya beberapa pertanyaan tentang analisis dan grafik yang mungkin lebih mencerahkan (atau lebih tepat). Jadi beberapa pertanyaan (dan jangan ragu untuk menanggapi siapa pun khususnya dan mengabaikan yang lain): Dalam inkarnasi …

5
Cara yang baik untuk menampilkan banyak data secara grafis
Saya sedang mengerjakan proyek yang melibatkan 14 variabel dan 345.000 pengamatan untuk data perumahan (hal-hal seperti tahun dibangun, rekaman persegi, harga jual, wilayah tempat tinggal, dll). Saya prihatin dengan mencoba menemukan teknik grafis yang baik dan perpustakaan R yang berisi teknik merencanakan yang bagus. Saya sudah melihat apa yang di …

4
Interval kepercayaan ketika ukuran sampel sangat besar
Pertanyaan saya dapat diulangi sebagai "bagaimana menilai kesalahan pengambilan sampel menggunakan data besar", terutama untuk publikasi jurnal. Berikut adalah contoh untuk menggambarkan tantangan. Dari kumpulan data yang sangat besar (> 100000 pasien unik dan obat yang diresepkan dari 100 rumah sakit), saya tertarik untuk memperkirakan proporsi pasien yang menggunakan obat …




1
Dapatkah mesin vektor dukungan digunakan dalam data besar?
Dengan pengetahuan terbatas yang saya miliki tentang SVM, itu baik untuk data pendek dan gemuk matriks , (banyak fitur, dan tidak terlalu banyak contoh), tetapi tidak untuk data besar.XXX Saya mengerti salah satu alasannya adalah Kernel Matrix adalah matriks mana, adalah jumlah instance dalam data. Jika kita mengatakan, 100K data, …


5
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?
Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Good-of-fit untuk ukuran sampel yang sangat besar
Saya mengumpulkan sampel kategori data yang sangat besar (> 1.000.000) setiap hari dan ingin melihat data yang terlihat "berbeda" secara signifikan antar hari untuk mendeteksi kesalahan dalam pengumpulan data. Saya pikir menggunakan tes good-of-fit (khususnya, G-test) akan menjadi cocok (pun intended) untuk ini. Distribusi yang diharapkan diberikan oleh distribusi hari …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.