Saya memiliki tindakan berulang pada 2 kali poin dalam sampel orang. Ada 18k orang pada waktu 1, dan 13k pada waktu 2 (5000 mangkir).
Saya ingin mundur hasil Y diukur pada waktu 2 (dan hasilnya tidak dapat diukur pada waktu 1) pada set prediktor X diukur pada waktu 1. Semua variabel memiliki beberapa data yang hilang. Sebagian besar tampaknya relatif acak, atau hilangnya tampaknya dijelaskan dengan baik oleh data yang diamati. Namun, sebagian besar dari hilangnya dalam hasil Y adalah karena mangkir. Saya akan menggunakan beberapa imputasi (R :: mice), dan akan menggunakan dataset lengkap untuk menentukan nilai untuk X, tetapi saya telah menerima 2 buah saran yang saling bertentangan mengenai imputasi Y:
1) Impute Y dari X dan V (V = variabel tambahan yang berguna) dalam sampel lengkap 18k.
2) Jangan menyalahkan Y dalam individu yang hilang untuk ditindaklanjuti (dan dengan demikian menjatuhkan mereka dari model regresi berikutnya).
Yang pertama masuk akal karena informasi adalah informasi, jadi mengapa tidak menggunakan semuanya; Tapi yang terakhir masuk akal, dengan cara yang lebih intuitif - sepertinya salah untuk menyalahkan hasil untuk 5000 orang berdasarkan Y ~ X + V, untuk kemudian berbalik dan memperkirakan Y ~ X.
Mana yang (lebih) benar?
Pertanyaan sebelumnya ini bermanfaat, tetapi tidak secara langsung mengatasi hilangnya karena mangkir (walaupun mungkin jawabannya sama; saya tidak tahu).