Mengapa model statistik cocok jika diberi set data yang sangat besar?


8

Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi):

id, age, income, gender, job category, monthly spend

di mana monthly spendadalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, dan dataset (yang berisi id, age, income, gender, job categorytetapi tidak ada variabel respons) yang akan diprediksi berisi 1 juta baris. Pertanyaan saya adalah: apakah ada masalah potensial jika saya melemparkan terlalu banyak baris (3 juta dalam kasus ini) ke dalam model statistik? Saya mengerti biaya komputasi adalah salah satu perhatian, apakah ada masalah lain? Apakah ada buku / makalah yang sepenuhnya menjelaskan masalah ukuran kumpulan data?

modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

15
Memiliki terlalu banyak baris tidak menghasilkan overfitting. Terlalu banyak kolom.
Peter Flom

5
Karena pertanyaan ini didasarkan pada beberapa asumsi yang salah - bahwa orang enggan menggunakan banyak kasus untuk analisis dan bahwa sebagian besar model statistik tidak dapat mengatasi set data besar - kemungkinan untuk mengakumulasi jawaban yang tidak relevan atau membingungkan. Harap pertimbangkan untuk mengedit pertanyaan Anda untuk menghapus kesalahan penyajian ini.
whuber

Anda masih tidak memperhitungkan apa yang dikatakan @whuber. Tempatnya salah. Tidak benar bahwa "kebanyakan model statistik tidak dapat menangani kumpulan data besar", jadi Anda tidak akan mendapatkan jawaban yang berguna untuk pertanyaan Anda. Tidak benar bahwa Anda dapat menggunakan informasi tentang semua orang di suatu negara pada waktu tertentu (saya kira inilah yang Anda maksud dengan "populasi").
pkofod

2
ID adalah, jika ini adalah analisis waras, bukan variabel kontinu tunggal. ID adalah variabel kategori karena perbedaan antara individu tidak sesuai dengan penugasan numerik sewenang-wenang yang mereka terima. Itu berarti Anda memiliki 1 variabel untuk setiap individu dalam analisis. Berpotensi jutaan.
AdamO

terima kasih atas komentarnya, tetapi saya masih bingung mengapa saya tidak dapat menggunakan informasi tentang semua orang di suatu negara pada waktu tertentu (ini adalah contoh yang dibuat-buat, jadi mari kita asumsikan saya memiliki info itu)?
user2926523

Jawaban:


12

Ada dua macam masalah yang mungkin Anda temui:

1) Masalah komputer karena kumpulan data terlalu besar. Saat ini, beberapa juta baris dengan 6 kolom tidak terlalu besar. Tapi, tergantung pada program Anda, komputer Anda, jumlah RAM Anda dan mungkin hal-hal lain, itu mungkin macet.

2) Masalah statistik. Di sini, masalah seperti yang Anda diskusikan akan memiliki satu "masalah" yang saya tahu: Bahkan efek kecil akan sangat signifikan. Ini bukan masalah dengan regresi, ini masalah dengan nilai p. Lebih baik melihat ukuran efek (parameter regresi).

3) Jenis lain masalah dengan model Anda bukan karena jumlah baris, tetapi sifat variabel respons (pengeluaran bulanan). Meskipun regresi OLS tidak membuat asumsi tentang distribusi respons (hanya tentang kesalahan), namun, model dengan uang sebagai variabel dependen sering memiliki kesalahan tidak normal. Selain itu, seringkali masuk akal, secara substantif, untuk mengambil catatan tanggapan. Apakah ini benar dalam kasus Anda tergantung pada apa yang Anda coba lakukan.


Hai Peter, dapatkah Anda menjelaskan lebih detail mengapa variabel respons (yaitu, pengeluaran bulanan) harus diambil log? Apa manfaatnya dari ini?
shihpeng

1
Tentu. Nilai moneter harus sering dicatat. Kami memikirkan uang dalam bentuk multiplikasi, bukan tambahan. Jika Anda beralih dari menghabiskan 1010, itu bukan apa-apa. Jika Anda beralih dari 20 itu sangat besar. 1000to10to
Peter Flom

2

Yang penting adalah jumlah individu (baris) dibandingkan dengan jumlah koefisien yang Anda perlu perkirakan untuk model yang ingin Anda muat. Aturan umum yang tipikal menyarankan sekitar 20 pengamatan per koefisien sebagai minimum, jadi Anda harus dapat memperkirakan hingga 150.000 koefisien — tentunya lebih dari cukup untuk empat prediksi Anda.

Bahkan Anda memiliki peluang, bukan masalah, dalam hal ini: untuk menyesuaikan model yang agak rumit termasuk hubungan non-linear dari respons terhadap prediktor, & interaksi antara prediktor; yang dapat memprediksi respons jauh lebih baik daripada yang lebih sederhana di mana hubungan respons terhadap prediktor dianggap linier & aditif.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.