Mengapa model statistik cocok jika diberi set data yang sangat besar?

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi):

id, age, income, gender, job category, monthly spend

di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, dan dataset (yang berisi id, age, income, gender, job categorytetapi tidak ada variabel respons) yang akan diprediksi berisi 1 juta baris. Pertanyaan saya adalah: apakah ada masalah potensial jika saya melemparkan terlalu banyak baris (3 juta dalam kasus ini) ke dalam model statistik? Saya mengerti biaya komputasi adalah salah satu perhatian, apakah ada masalah lain? Apakah ada buku / makalah yang sepenuhnya menjelaskan masalah ukuran kumpulan data?

modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

— pengguna2926523
sumber

Memiliki terlalu banyak baris tidak menghasilkan overfitting. Terlalu banyak kolom.

— Peter Flom

Karena pertanyaan ini didasarkan pada beberapa asumsi yang salah - bahwa orang enggan menggunakan banyak kasus untuk analisis dan bahwa sebagian besar model statistik tidak dapat mengatasi set data besar - kemungkinan untuk mengakumulasi jawaban yang tidak relevan atau membingungkan. Harap pertimbangkan untuk mengedit pertanyaan Anda untuk menghapus kesalahan penyajian ini.

— whuber

Anda masih tidak memperhitungkan apa yang dikatakan @whuber. Tempatnya salah. Tidak benar bahwa "kebanyakan model statistik tidak dapat menangani kumpulan data besar", jadi Anda tidak akan mendapatkan jawaban yang berguna untuk pertanyaan Anda. Tidak benar bahwa Anda dapat menggunakan informasi tentang semua orang di suatu negara pada waktu tertentu (saya kira inilah yang Anda maksud dengan "populasi").

— pkofod

ID adalah, jika ini adalah analisis waras, bukan variabel kontinu tunggal. ID adalah variabel kategori karena perbedaan antara individu tidak sesuai dengan penugasan numerik sewenang-wenang yang mereka terima. Itu berarti Anda memiliki 1 variabel untuk setiap individu dalam analisis. Berpotensi jutaan.

— AdamO

terima kasih atas komentarnya, tetapi saya masih bingung mengapa saya tidak dapat menggunakan informasi tentang semua orang di suatu negara pada waktu tertentu (ini adalah contoh yang dibuat-buat, jadi mari kita asumsikan saya memiliki info itu)?

— user2926523

Jawaban:

Ada dua macam masalah yang mungkin Anda temui:

1) Masalah komputer karena kumpulan data terlalu besar. Saat ini, beberapa juta baris dengan 6 kolom tidak terlalu besar. Tapi, tergantung pada program Anda, komputer Anda, jumlah RAM Anda dan mungkin hal-hal lain, itu mungkin macet.

2) Masalah statistik. Di sini, masalah seperti yang Anda diskusikan akan memiliki satu "masalah" yang saya tahu: Bahkan efek kecil akan sangat signifikan. Ini bukan masalah dengan regresi, ini masalah dengan nilai p. Lebih baik melihat ukuran efek (parameter regresi).

3) Jenis lain masalah dengan model Anda bukan karena jumlah baris, tetapi sifat variabel respons (pengeluaran bulanan). Meskipun regresi OLS tidak membuat asumsi tentang distribusi respons (hanya tentang kesalahan), namun, model dengan uang sebagai variabel dependen sering memiliki kesalahan tidak normal. Selain itu, seringkali masuk akal, secara substantif, untuk mengambil catatan tanggapan. Apakah ini benar dalam kasus Anda tergantung pada apa yang Anda coba lakukan.

— Peter Flom
sumber

Hai Peter, dapatkah Anda menjelaskan lebih detail mengapa variabel respons (yaitu, pengeluaran bulanan) harus diambil log? Apa manfaatnya dari ini?

— shihpeng

Tentu. Nilai moneter harus sering dicatat. Kami memikirkan uang dalam bentuk multiplikasi, bukan tambahan. Jika Anda beralih dari menghabiskan 1010, itu bukan apa-apa. Jika Anda beralih dari 20 itu sangat besar.

1000 t o

$1000 to$

10 t o

$10 to$

— Peter Flom

Yang penting adalah jumlah individu (baris) dibandingkan dengan jumlah koefisien yang Anda perlu perkirakan untuk model yang ingin Anda muat. Aturan umum yang tipikal menyarankan sekitar 20 pengamatan per koefisien sebagai minimum, jadi Anda harus dapat memperkirakan hingga 150.000 koefisien — tentunya lebih dari cukup untuk empat prediksi Anda.

Bahkan Anda memiliki peluang, bukan masalah, dalam hal ini: untuk menyesuaikan model yang agak rumit termasuk hubungan non-linear dari respons terhadap prediktor, & interaksi antara prediktor; yang dapat memprediksi respons jauh lebih baik daripada yang lebih sederhana di mana hubungan respons terhadap prediktor dianggap linier & aditif.

— Scortchi - Reinstate Monica
sumber