Saya terkesan dengan masalah yang tampaknya mudah, tetapi saya belum menemukan solusi yang cocok untuk beberapa minggu sekarang.
Saya memiliki cukup banyak data jajak pendapat / survei (puluhan ribu responden, katakanlah 50k per dataset), yang berasal dari sesuatu yang saya harap disebut survei yang dirancang rumit dengan bobot, stratifikasi, perutean khusus, dan sebagainya. Untuk setiap responden, ada ratusan variabel seperti demografi (usia, wilayah ...) dan sebagian besar variabel biner (paling banyak, kategori).
Saya datang lebih banyak dari latar belakang ilmu komputer / mesin dan saya harus belajar banyak tentang statistik survei klasik dan metodologi. Sekarang saya ingin menerapkan pembelajaran mesin klasik pada data tersebut (misalnya memprediksi beberapa nilai yang hilang untuk subset responden - pada dasarnya tugas klasifikasi). Tetapi, pegang dan lihatlah, saya tidak dapat menemukan cara yang cocok untuk melakukan itu. Bagaimana saya harus memasukkan stratas, bobot, atau perutean itu (seperti: jika pertanyaan 1 dijawab dengan opsi 2, ajukan pertanyaan 3, jika tidak lewati)?
Cukup menerapkan model saya (pohon, regresi logistik, SVM, XGBoost ...) tampaknya berbahaya (dan, mereka gagal dalam kebanyakan kasus), karena mereka biasanya menganggap data berasal dari sampel acak sederhana atau iid.
Banyak metode setidaknya memiliki bobot, tetapi tidak banyak membantu. Selain itu, tidak jelas bagaimana saya harus menggabungkan kelas dan bobot yang tidak seimbang yang diberikan oleh definisi survei bersama, tidak berbicara tentang hal-hal stratifikasi. Selain itu, model hasil harus dikalibrasi dengan baik - distribusi yang diprediksi harus sangat dekat dengan yang asli. Performa prediksi yang baik bukan satu-satunya kriteria di sini. Saya mengubah metrik optimisasi untuk memperhitungkan hal ini juga (seperti jarak distribusi yang diprediksi dari akurasi distribusi + / MCC) dan dalam beberapa kasus membantu, mengapa melumpuhkan kinerja pada yang lain.
Apakah ada cara kanonik bagaimana menangani masalah ini? Bagi saya, ini adalah bidang penelitian yang sangat kurang dihargai. IMO banyak survei yang dapat mengambil manfaat dari kekuatan ML, tetapi tidak ada sumber. Seperti ini adalah dua dunia yang tidak berinteraksi satu sama lain.
Apa yang saya temukan sejauh ini:
- http://civilstat.com/2014/08/statistics-modeling-the-two-cultures-breiman/
Sebagai contoh, saya masih tahu hanya satu kertas (Toth & Eltinge, 2011) tentang bagaimana melakukan pohon regresi ketika data Anda berasal dari survei sampel yang kompleks.
- http://ccsg.isr.umich.edu/index.php/chapters/statistics-analysis-chapter#nine
Dalam meta-analisis baru-baru ini dari 150 makalah penelitian sampel menganalisis beberapa survei dengan desain sampel kompleks, ditemukan bahwa kesalahan analitik yang disebabkan oleh ketidaktahuan atau penggunaan yang salah dari fitur desain sampel kompleks sering terjadi.
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
Terkait pertanyaan CV, tetapi tidak ada yang berisi jawaban yang dapat digunakan bagaimana mendekati ini (baik tidak ada jawaban, bukan apa yang saya minta, atau menyajikan rekomendasi yang menyesatkan):