Pertanyaan yang diberi tag «large-data»

'Data besar' mengacu pada situasi di mana jumlah pengamatan (titik data) sangat besar sehingga memerlukan perubahan dalam cara analis data memikirkan atau melakukan analisis. (Jangan bingung dengan 'dimensi tinggi'.)



3
Pengelompokan yang efisien ruang
Kebanyakan algoritma pengelompokan yang saya lihat dimulai dengan membuat jarak masing-masing untuk setiap titik, yang menjadi masalah pada kumpulan data yang lebih besar. Apakah ada yang tidak melakukannya? Atau apakah itu dalam semacam pendekatan parsial / perkiraan / terhuyung-huyung? Algoritma / implementasi clustering mana yang membutuhkan waktu kurang dari O …

2
Bisakah sampel terlalu besar untuk ANOVA atau uji-t?
Saya memiliki hampir satu juta kumpulan data dan setiap kali saya menjalankan uji perbandingan rata-rata, baik ANOVA atau uji-t, saya mendapatkan tingkat signifikansi kurang dari 0,0001 pada SPSS. Saya khawatir sampel saya sangat besar sehingga tentu saja ketika saya membandingkan cara itu akan terlihat sangat berbeda. Bisakah sampel terlalu besar …

4
Memperkirakan dimensi kumpulan data
Seorang kolega dalam statistik terapan mengirimi saya ini: "Saya bertanya-tanya apakah Anda tahu cara untuk mengetahui dimensi sebenarnya dari suatu fungsi. Misalnya, lingkaran adalah fungsi satu dimensi dalam ruang dua dimensi. Jika saya tidak tahu cara menggambar, apakah ada statistik yang dapat saya hitung yang memberi tahu saya bahwa itu …

1
Bisakah saya subsampel dataset besar di setiap iterasi MCMC?
Masalah: Saya ingin melakukan sampling Gibbs untuk menyimpulkan beberapa posterior lebih dari dataset besar. Sayangnya, model saya tidak terlalu sederhana dan dengan demikian pengambilan sampel terlalu lambat. Saya akan mempertimbangkan pendekatan variasional atau paralel, tetapi sebelum melangkah sejauh itu ... Pertanyaan: Saya ingin tahu apakah saya dapat sampel secara acak …

1
Hutan Acak dalam pengaturan Big Data
Saya memiliki dataset dengan 5.818.446 baris dan 51 kolom, di mana 50 di antaranya adalah prediktor. Respons saya kuantitatif, jadi saya tertarik dengan model regresi. Saya mencoba menyesuaikan hutan acak dengan data saya menggunakan paket tanda sisipan. Namun, saya tidak memiliki cukup RAM untuk melakukannya. Saya sudah mencari solusi untuk …

5
Mengapa regressor yang tidak relevan menjadi signifikan secara statistik dalam sampel besar?
Saya mencoba untuk lebih memahami signifikansi statistik, ukuran efek dan sejenisnya. Saya memiliki persepsi (mungkin itu salah) bahwa bahkan regresi yang tidak relevan sering menjadi signifikan secara statistik dalam sampel besar . Dengan tidak relevan saya berarti bahwa tidak ada penjelasan pokok permasalahan mengapa regressor harus berhubungan dengan variabel dependen. …

2
Mengapa model statistik cocok jika diberi set data yang sangat besar?
Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
Star Coordinates vs. analisis komponen utama
Saat ini saya sedang mempersiapkan presentasi untuk kursus universitas di "Analisis Data Visual". Dan salah satu topik saya adalah visualisasi "Koordinat Bintang". Koordinat Bintang Ketika Star Coordinates melakukan transformasi data dimensi tinggi, dan teknik PCA yang terkenal juga melakukannya, saya bertanya-tanya apakah PCA dapat ditiru oleh Star Coordinates? Saya pikir …

2
R sebagai alternatif SAS untuk data besar
Saya tahu bahwa R tidak terlalu membantu untuk menganalisis dataset besar mengingat R memuat semua data dalam memori sedangkan sesuatu seperti SAS melakukan analisis sekuensial. Yang mengatakan, ada paket seperti bigmemory yang memungkinkan pengguna untuk melakukan analisis data besar (analisis statistik) lebih efisien di R. Saya ingin tahu, terlepas dari …
8 r  sas  large-data 

3
Apa saja penggunaan matriks padat dalam statistik?
OK, saya bukan ahli statistik (bahkan tidak dekat). Saya seorang peneliti Komputasi Kinerja Tinggi dan saya ingin beberapa kasus uji untuk Matriks Padat Besar (Lebih dari 5000x5000). Saya telah bertanya di sini dan beberapa tempat lain tetapi tidak pernah mendapat jawaban dari ahli statistik. Saya sangat tertarik untuk mencoba kode …

3
Melakukan regresi pada sampel dari file yang sangat besar: apakah rata-rata dan rata-rata dari koefisien sampel adalah penduga yang konsisten?
Saya memiliki file 100M baris yang cukup larege dan 30 kolom atau lebih yang saya ingin menjalankan beberapa regresi. Saya memiliki kode khusus untuk menjalankan regresi pada seluruh file, tetapi apa yang ingin saya lakukan adalah mengambil sampel acak dari file dan menjalankannya dalam R. Strateginya adalah: sampel acak N …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.