Statistik dan Big Data large-data

1

Bagaimana cara menghitung ukuran akurasi berdasarkan RMSE? Apakah dataset besar saya terdistribusi secara normal?

Saya punya beberapa dataset dengan urutan ribuan poin. Nilai dalam setiap dataset adalah X, Y, Z yang mengacu pada koordinat dalam ruang. Nilai Z mewakili perbedaan ketinggian pada pasangan koordinat (x, y). Biasanya di bidang SIG saya, kesalahan ketinggian dirujuk dalam RMSE dengan mengurangi titik ground-truth ke titik pengukuran (titik …

9 normal-distribution large-data

3

Bagaimana cara cepat memilih variabel penting dari dataset yang sangat besar?

Saya memiliki dataset dengan sekitar 2.000 variabel biner / 200.000 baris dan saya mencoba untuk memprediksi variabel dependen biner tunggal. Tujuan utama saya pada tahap ini bukan untuk mendapatkan akurasi prediksi, melainkan untuk mengidentifikasi variabel mana yang merupakan prediktor penting. Saya ingin menurunkan jumlah variabel dalam model akhir saya menjadi …

9 machine-learning data-mining large-data

3

Pengelompokan yang efisien ruang

Kebanyakan algoritma pengelompokan yang saya lihat dimulai dengan membuat jarak masing-masing untuk setiap titik, yang menjadi masalah pada kumpulan data yang lebih besar. Apakah ada yang tidak melakukannya? Atau apakah itu dalam semacam pendekatan parsial / perkiraan / terhuyung-huyung? Algoritma / implementasi clustering mana yang membutuhkan waktu kurang dari O …

9 clustering algorithms large-data

2

Bisakah sampel terlalu besar untuk ANOVA atau uji-t?

Saya memiliki hampir satu juta kumpulan data dan setiap kali saya menjalankan uji perbandingan rata-rata, baik ANOVA atau uji-t, saya mendapatkan tingkat signifikansi kurang dari 0,0001 pada SPSS. Saya khawatir sampel saya sangat besar sehingga tentu saja ketika saya membandingkan cara itu akan terlihat sangat berbeda. Bisakah sampel terlalu besar …

9 anova t-test effect-size large-data

4

Memperkirakan dimensi kumpulan data

Seorang kolega dalam statistik terapan mengirimi saya ini: "Saya bertanya-tanya apakah Anda tahu cara untuk mengetahui dimensi sebenarnya dari suatu fungsi. Misalnya, lingkaran adalah fungsi satu dimensi dalam ruang dua dimensi. Jika saya tidak tahu cara menggambar, apakah ada statistik yang dapat saya hitung yang memberi tahu saya bahwa itu …

9 large-data

1

Bisakah saya subsampel dataset besar di setiap iterasi MCMC?

Masalah: Saya ingin melakukan sampling Gibbs untuk menyimpulkan beberapa posterior lebih dari dataset besar. Sayangnya, model saya tidak terlalu sederhana dan dengan demikian pengambilan sampel terlalu lambat. Saya akan mempertimbangkan pendekatan variasional atau paralel, tetapi sebelum melangkah sejauh itu ... Pertanyaan: Saya ingin tahu apakah saya dapat sampel secara acak …

8 sampling bootstrap mcmc large-data gibbs

1

Hutan Acak dalam pengaturan Big Data

Saya memiliki dataset dengan 5.818.446 baris dan 51 kolom, di mana 50 di antaranya adalah prediktor. Respons saya kuantitatif, jadi saya tertarik dengan model regresi. Saya mencoba menyesuaikan hutan acak dengan data saya menggunakan paket tanda sisipan. Namun, saya tidak memiliki cukup RAM untuk melakukannya. Saya sudah mencari solusi untuk …

8 r random-forest large-data

5

Mengapa regressor yang tidak relevan menjadi signifikan secara statistik dalam sampel besar?

Saya mencoba untuk lebih memahami signifikansi statistik, ukuran efek dan sejenisnya. Saya memiliki persepsi (mungkin itu salah) bahwa bahkan regresi yang tidak relevan sering menjadi signifikan secara statistik dalam sampel besar . Dengan tidak relevan saya berarti bahwa tidak ada penjelasan pokok permasalahan mengapa regressor harus berhubungan dengan variabel dependen. …

8 regression statistical-significance effect-size large-data

2

Mengapa model statistik cocok jika diberi set data yang sangat besar?

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

Star Coordinates vs. analisis komponen utama

Saat ini saya sedang mempersiapkan presentasi untuk kursus universitas di "Analisis Data Visual". Dan salah satu topik saya adalah visualisasi "Koordinat Bintang". Koordinat Bintang Ketika Star Coordinates melakukan transformasi data dimensi tinggi, dan teknik PCA yang terkenal juga melakukannya, saya bertanya-tanya apakah PCA dapat ditiru oleh Star Coordinates? Saya pikir …

8 data-visualization pca large-data

2

R sebagai alternatif SAS untuk data besar

Saya tahu bahwa R tidak terlalu membantu untuk menganalisis dataset besar mengingat R memuat semua data dalam memori sedangkan sesuatu seperti SAS melakukan analisis sekuensial. Yang mengatakan, ada paket seperti bigmemory yang memungkinkan pengguna untuk melakukan analisis data besar (analisis statistik) lebih efisien di R. Saya ingin tahu, terlepas dari …

8 r sas large-data

3

Apa saja penggunaan matriks padat dalam statistik?

OK, saya bukan ahli statistik (bahkan tidak dekat). Saya seorang peneliti Komputasi Kinerja Tinggi dan saya ingin beberapa kasus uji untuk Matriks Padat Besar (Lebih dari 5000x5000). Saya telah bertanya di sini dan beberapa tempat lain tetapi tidak pernah mendapat jawaban dari ahli statistik. Saya sangat tertarik untuk mencoba kode …

8 large-data matrix

3

Melakukan regresi pada sampel dari file yang sangat besar: apakah rata-rata dan rata-rata dari koefisien sampel adalah penduga yang konsisten?

Saya memiliki file 100M baris yang cukup larege dan 30 kolom atau lebih yang saya ingin menjalankan beberapa regresi. Saya memiliki kode khusus untuk menjalankan regresi pada seluruh file, tetapi apa yang ingin saya lakukan adalah mengambil sampel acak dari file dan menjalankannya dalam R. Strateginya adalah: sampel acak N …

8 r regression large-data bootstrap

Pertanyaan yang diberi tag «large-data»