Saya memiliki file 100M baris yang cukup larege dan 30 kolom atau lebih yang saya ingin menjalankan beberapa regresi. Saya memiliki kode khusus untuk menjalankan regresi pada seluruh file, tetapi apa yang ingin saya lakukan adalah mengambil sampel acak dari file dan menjalankannya dalam R. Strateginya adalah: sampel acak N baris dari file tanpa penggantian menjalankan regresi dan simpan koefisien minat, ulangi proses ini M kali dengan sampel yang berbeda untuk setiap koefisien, hitung rata-rata dan kesalahan standar dari koefisien pada M berjalan.
Saya ingin menginterpretasikan rerata yang dihitung lebih dari M berjalan sebagai perkiraan nilai-nilai koefisien yang dihitung pada seluruh kumpulan data, dan kesalahan standar dari sarana sebagai perkiraan kesalahan standar dari koefisien yang dihitung pada seluruh kumpulan data.
Eksperimen menunjukkan ini sebagai strategi yang menjanjikan, tetapi saya tidak yakin tentang teori yang mendasarinya. Apakah penaksir saya konsisten dan efisien? Jika mereka konsisten seberapa cepat mereka bertemu? Imbalan M dan N apa yang terbaik?
Saya akan sangat menghargainya jika seseorang dapat mengarahkan saya ke makalah, buku dll dengan teori yang relevan.
Salam dan terima kasih banyak,
Joe Rickert