Pertanyaan yang diberi tag «large-data»

'Data besar' mengacu pada situasi di mana jumlah pengamatan (titik data) sangat besar sehingga memerlukan perubahan dalam cara analis data memikirkan atau melakukan analisis. (Jangan bingung dengan 'dimensi tinggi'.)

1
Menguji dataset besar untuk normalitas - bagaimana dan apakah ini dapat diandalkan?
Saya sedang memeriksa bagian dari dataset saya yang berisi 46840 nilai ganda mulai dari 1 hingga 1690 yang dikelompokkan dalam dua grup. Untuk menganalisis perbedaan antara kelompok-kelompok ini saya mulai dengan memeriksa distribusi nilai-nilai untuk memilih tes yang tepat. Mengikuti panduan tentang pengujian normalitas, saya melakukan qqplot, histogram & boxplot. …

4
Pengujian Hipotesis dengan Big Data
Bagaimana Anda melakukan tes hipotesis dengan data besar? Saya menulis skrip MATLAB berikut untuk menekankan kebingungan saya. Yang dilakukannya hanyalah menghasilkan dua seri acak, dan menjalankan regresi linier sederhana dari satu variabel di variabel lainnya. Itu melakukan regresi ini beberapa kali menggunakan nilai acak yang berbeda dan rata-rata laporan. Apa …


1
Menangani set data besar dalam R - tutorial, praktik terbaik, dll
Saya seorang R noob yang diharuskan untuk melakukan berbagai macam analisis pada set data besar di R. Jadi sambil melihat-lihat situs ini dan di tempat lain, tampak bagi saya bahwa ada banyak masalah esoteris dan kurang terkenal yang terlibat di sini - seperti paket mana yang digunakan kapan, transformasi apa …
11 r  large-data 

1
Apakah PCA skala besar bahkan mungkin?
Cara klasik analisis komponen utama '(PCA) adalah untuk melakukannya pada input data matriks yang kolom memiliki rata-rata nol (maka PCA dapat "memaksimalkan varians"). Ini dapat dicapai dengan mudah dengan memusatkan kolom. Namun, ketika matriks input jarang, matriks tengah sekarang akan lebih jarang, dan - jika matriks sangat besar - dengan …


2
Apakah masuk akal untuk menghitung interval kepercayaan dan untuk menguji hipotesis ketika data dari seluruh populasi tersedia?
Apakah masuk akal untuk menghitung interval kepercayaan dan untuk menguji hipotesis ketika data dari seluruh populasi tersedia? Menurut pendapat saya, jawabannya adalah tidak, karena kita dapat secara akurat menghitung nilai sebenarnya dari parameter. Tetapi kemudian, berapa proporsi maksimal data dari populasi asli yang memungkinkan kita untuk menggunakan teknik yang disebutkan …

3
Bagaimana cara melihat data deret waktu besar secara interaktif?
Saya sering berurusan dengan jumlah data deret waktu yang masuk akal, 50-200 juta ganda dengan perangko waktu terkait dan ingin memvisualisasikannya secara dinamis. Apakah ada perangkat lunak yang ada untuk melakukan ini secara efektif? Bagaimana dengan perpustakaan dan format data? Zoom-cache adalah salah satu contoh perpustakaan yang berfokus pada seri …





2
Pengurangan dimensi yang bisa diukur
Mempertimbangkan jumlah fitur yang konstan, Barnes-Hut t-SNE memiliki kompleksitas , proyeksi acak dan PCA memiliki kompleksitas menjadikannya "terjangkau" untuk set data yang sangat besar.O ( n logn )HAI(ncatatan⁡n)O(n\log n)O ( n )HAI(n)O(n) Di sisi lain, metode yang mengandalkan penskalaan multidimensi memiliki kompleksitas .O ( n2)HAI(n2)O(n^2) Apakah ada teknik pengurangan dimensi …


2
Bootstrap parametrik, semiparametrik, dan nonparametrik untuk model campuran
Cangkok berikut diambil dari artikel ini . Saya pemula untuk bootstrap dan mencoba mengimplementasikan bootstrap parametrik, semiparametrik, dan nonparametrik untuk model campuran linier dengan R bootpaket. Kode R Ini Rkode saya : library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.