Saya bertanya-tanya apakah seseorang dapat memberikan beberapa wawasan jika mengapa imputasi untuk data yang hilang lebih baik daripada hanya membangun model yang berbeda untuk kasus dengan data yang hilang. Terutama dalam kasus model linier [umum] (saya mungkin bisa melihat dalam kasus-kasus non-linear hal-hal berbeda)
Misalkan kita memiliki model linier dasar:
Tetapi kumpulan data kami berisi beberapa catatan dengan hilang. Dalam kumpulan data prediksi tempat model akan digunakan, juga akan ada kasus yang hilang X 3 . Tampaknya ada dua cara untuk melanjutkan:
Beberapa model
Kami dapat membagi data menjadi dan non- X 3 case dan membangun model terpisah untuk masing-masing. Jika kita menganggap bahwa X 3 terkait erat dengan X 2 maka model data yang hilang dapat kelebihan berat X 2 untuk mendapatkan prediksi dua prediktor terbaik. Juga jika kasus data yang hilang sedikit berbeda (karena mekanisme data yang hilang) maka dapat memasukkan perbedaan itu. Di sisi bawah, kedua model hanya cocok pada sebagian data masing-masing, dan tidak "saling membantu", sehingga kecocokannya mungkin buruk pada kumpulan data yang terbatas.
Tuduhan
Regutasi beberapa imputasi pertama-tama akan mengisi dengan membangun model berdasarkan X 1 dan X 2 dan kemudian secara acak pengambilan sampel untuk menjaga kebisingan dalam data yang dimasukkan. Karena ini adalah dua model lagi, bukankah ini hanya akan menjadi sama dengan metode beberapa model di atas? Jika mampu mengungguli - dari mana keuntungan itu berasal? Apakah hanya itu cocok untuk X 1 dilakukan pada seluruh set?
EDIT:
Sementara jawaban Steffan sejauh ini menjelaskan bahwa pemasangan model kasus lengkap pada data imputasi akan mengungguli pemasangan data lengkap, dan tampaknya jelas kebalikannya benar, masih ada beberapa kesalahpahaman tentang perkiraan data yang hilang.
Jika saya memiliki model di atas, bahkan pas dengan sempurna, secara umum akan menjadi model peramalan yang mengerikan jika saya hanya meletakkan nol ketika memprediksi. Bayangkan, misalnya, bahwa maka X 2 sama sekali tidak berguna ( ) ketika X 3 hadir, tetapi masih akan berguna jika tidak ada X 3 .
Pertanyaan kunci yang saya tidak mengerti adalah: apakah lebih baik untuk membangun dua model, satu menggunakan dan satu menggunakan ( X 1 , X 2 , X 3 ) , atau lebih baik membangun satu ( penuh) memodelkan dan menggunakan imputasi pada dataset perkiraan - atau apakah ini hal yang sama?
Membawa dalam jawaban Steffan, itu akan muncul bahwa lebih baik untuk membangun model kasus lengkap pada set pelatihan diperhitungkan, dan sebaliknya itu mungkin terbaik untuk membangun model data yang hilang pada set data penuh dengan dibuang. Apakah langkah kedua ini berbeda dari menggunakan model imputasi dalam data perkiraan?