Statistik dan Big Data bootstrap

1

Kapan / mengapa kecenderungan sentral dari simulasi resampling berbeda dari nilai yang diamati?

Haruskah seseorang selalu mengharapkan kecenderungan sentral (yaitu, rata-rata dan / atau median) sampel yang di-boot sama dengan nilai yang diamati? Dalam kasus khusus ini saya memiliki tanggapan yang didistribusikan secara eksponensial untuk subjek di dua kondisi (saya tidak menjalankan eksperimen, saya hanya punya data). Saya telah ditugaskan untuk boot dengan …

8 bootstrap simulation effect-size cohens-d

1

Bagaimana Efron membayangkan bootstrap?

Apakah Anda kenal Bradley Efron ? Dia pria yang hebat. Bagaimana Efron membayangkan atau berpikir tentang "bootstrap" untuk pertama kalinya?

8 bootstrap history

2

Mengapa model statistik cocok jika diberi set data yang sangat besar?

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi): id, age, income, gender, job category, monthly spend di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

Haruskah pemangkasan dihindari karena mengantongi (dengan pohon keputusan)?

Saya datang dengan beberapa posting dan surat-surat yang menyatakan bahwa pemangkasan pohon dalam ansambel "mengantongi" pohon tidak diperlukan (lihat 1 ). Namun, apakah perlu (atau setidaknya dalam beberapa kasus yang diketahui) merusak untuk melakukan pemangkasan (misalnya, dengan sampel OOB) pada masing-masing pohon dalam sebuah ensemble? Terima kasih!

8 bootstrap cart bagging

1

Metode apa yang mensimulasikan pvalues dari pengambilan sampel ulang dari data

Beberapa waktu yang lalu saya mengajukan pertanyaan tentang menghubungkan waktu antara prangko waktu dan menerima tanggapan dari Peter Ellis yang mengatakan saya bisa menghitung jarak rata-rata antara kode ... Ini sudah memberi Anda perasaan tentang perilaku mana yang dikelompokkan bersama, tetapi Anda juga harus memeriksa bahwa ini tidak masuk akal …

8 bootstrap monte-carlo resampling quasi-monte-carlo

1

Hitung nilai-p dalam bootstrap berpasangan

Saya menemukan kertas baru dari kelompok Berkeley NLP tentang pengujian statistik, Investigasi Empiris Signifikansi Statistik di NLP . Ada pseudocode untuk menghitung nilai-p dalam makalah, pada dasarnya, idenya adalah bahwa set sampel disampel dengan penggantian dari data . Kemudianx1,x2, . . . ,xNx1,x2,...,xNx_1,x_2,...,x_Nxxx p-value = count ( δ(xsaya) > 2 …

8 hypothesis-testing bootstrap p-value

2

Bootstrap vs integrasi numerik

Pemahaman saya tentang pendekatan bootstrap didasarkan pada kerangka kerja Wasserman (hampir kata demi kata): Membiarkan Tn=g(X1,...,Xn)Tn=g(X1,...,Xn)T_n = g(X_1, ..., X_n) menjadi statistik (XiXiX_i adalah sampel awal yang diambil dari distribusi FFF). Misalkan kita ingin memperkirakanVF(Tn)VF(Tn)V_F(T_n) - varians dari TnTnT_n diberikan FFF. Pendekatan bootstrap mengikuti dua langkah ini: Memperkirakan VF(Tn)VF(Tn)V_F(T_n) dengan …

8 bootstrap computational-statistics

2

Disarankan membaca untuk memahami kapan bootstrap akan gagal?

Diketahui bahwa bootstrap bisa gagal. Saya membaca di Bagian 6 dari Bickel dan Freedman (1981) bahwa bootstrap gagal ketika Anda ingin menggunakannya untuk mengevaluasi MLE untuk memperkirakan parameter distribusi seragam berkelanjutan. Saya membaca Secion 7.4 dari buku karya Efron dan Tibshirani tetapi saya tidak dapat menemukan referensi yang mereka tunjuk. …

8 bootstrap references

1

Bootstrap dengan sejumlah pengamatan

Katakanlah saya telah mengumpulkan sejumlah kecil (N) pengamatan untuk hipotesis yang ingin saya uji. Saya bisa menggunakan metode bootstrap untuk menghasilkan distribusi sampel untuk hasil rata-rata dari pengamatan N, tapi saya khawatir bahwa model ini bisa rusak ketika N menjadi sangat kecil, memperkenalkan kesalahan ke dalam distribusi sampel itu sendiri. …

8 bootstrap

1

Parameter bootstrap dan perkiraan fit dengan non-normalitas untuk model persamaan struktural

Konteks: Dalam konteks pemodelan persamaan struktural, saya memiliki non-normalitas menurut tes Mardia tetapi indeks skewness dan kurtosis univariat kurang dari 2,0. Pertanyaan: Haruskah estimasi parameter (estimasi koefisien) dievaluasi menggunakan bootstrap (1000 ulangan) dengan metode yang dikoreksi? Sebagai pengganti tes chi-square tradisional, haruskah versi bootstrap Bollen-Stine digunakan?

8 bootstrap normality-assumption sem

3

Melakukan regresi pada sampel dari file yang sangat besar: apakah rata-rata dan rata-rata dari koefisien sampel adalah penduga yang konsisten?

Saya memiliki file 100M baris yang cukup larege dan 30 kolom atau lebih yang saya ingin menjalankan beberapa regresi. Saya memiliki kode khusus untuk menjalankan regresi pada seluruh file, tetapi apa yang ingin saya lakukan adalah mengambil sampel acak dari file dan menjalankannya dalam R. Strateginya adalah: sampel acak N …

8 r regression large-data bootstrap

2

Apakah akan menggunakan regresi linier yang kuat atau bootstrap ketika ada heteroskedastisitas?

Saya memiliki dataset di mana saya perlu melakukan regresi linier. Sayangnya ada masalah dengan heteroskedastisitas. Saya sudah menjalankan kembali analisis menggunakan regresi kuat dengan estimator HC3 untuk varians dan juga melakukan bootstrap dengan fungsi bootcov di Hmisc untuk R. Hasilnya cukup dekat. Apa yang umumnya direkomendasikan?

8 regression bootstrap heteroscedasticity

Pertanyaan yang diberi tag «bootstrap»