Saya memiliki survei besar di mana para siswa ditanyai, antara lain, tingkat pendidikan ibu mereka. Beberapa melewatkannya, dan beberapa menjawab dengan salah. Saya tahu ini, karena ada sub-sampel dari ibu responden awal yang kemudian diwawancarai, dan mengajukan pertanyaan yang sama. (Saya yakin ada beberapa, jumlah yang lebih kecil, kesalahan yang terkait dengan tanggapan ibu juga.)
Tantangan saya, adalah memutuskan bagaimana cara terbaik memanfaatkan sumber data yang kedua dan lebih andal ini. Paling tidak saya bisa menggunakannya untuk menyalahkan data yang hilang lebih cerdas daripada yang saya bisa jika saya hanya bisa mengandalkan kasus lengkap. Tetapi jika 3/4 dari anak-anak yang datanya dapat saya periksa silang, yang menjawab "Ibu saya tidak pernah tamat sekolah dasar" bertentangan dengan jawaban ibu mereka, maka sepertinya saya harus menggunakan imputasi untuk membuat beberapa dataset untuk menangkap ketidakpastian di sana. [menambahkan: Saya katakan 3/4 untuk menegaskan, tetapi sekarang saya telah memeriksa data, saya mungkin juga memberi tahu Anda bahwa mendekati 40% tidak sesuai]
Saya pribadi akan menggunakan pendidikan ibu sebagai prediktor dalam model campuran, tetapi jika ada yang punya sesuatu untuk dikatakan tentang situasi lain saya akan senang belajar tentang mereka juga.
Saya akan senang menerima saran dalam siaran berskala besar atau khusus. Terima kasih!
Pembaruan : Saya meninggalkan pertanyaan yang belum terpecahkan untuk saat ini, meskipun saya menghargai tanggapan Will dan Conjugate_Prior, saya mengulurkan harapan untuk umpan balik yang lebih spesifik dan teknis.
Scatterplot di bawah ini akan memberi Anda gambaran tentang bagaimana kedua variabel terkait dalam 10.000 kasus di mana keduanya ada. Mereka bersarang di lebih dari 100 sekolah. Mereka berkorelasi pada 0,78, Jawaban Pelajar- rata-rata: 5,12 sd = 2,05, jawaban Mom, rata-rata = 5,02, sd = 1,92 Jawaban siswa hilang pada sekitar 15% kasus.