Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi):
id, age, income, gender, job category, monthly spend
di mana monthly spend
adalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, dan dataset (yang berisi id, age, income, gender, job category
tetapi tidak ada variabel respons) yang akan diprediksi berisi 1 juta baris. Pertanyaan saya adalah: apakah ada masalah potensial jika saya melemparkan terlalu banyak baris (3 juta dalam kasus ini) ke dalam model statistik? Saya mengerti biaya komputasi adalah salah satu perhatian, apakah ada masalah lain? Apakah ada buku / makalah yang sepenuhnya menjelaskan masalah ukuran kumpulan data?