Saya hanya bertanya-tanya tentang pertanyaan yang persis sama ketika menganalisis data National Hospital Discharge Survey terbaru . Beberapa variabel memiliki nilai hilang yang substansial, seperti status perkawinan dan jenis prosedur. Masalah ini menjadi perhatian saya karena kategori ini muncul dengan efek yang kuat (dan signifikan) di sebagian besar analisis regresi logistik yang saya jalankan.
Seseorang cenderung bertanya - tanya mengapakode yang hilang diberikan. Dalam kasus status perkawinan, misalnya, masuk akal bahwa kegagalan untuk memberikan informasi ini dapat dikaitkan dengan faktor-faktor penting seperti status sosial ekonomi atau jenis penyakit. Dalam kasus tekanan darah tinggi Anda, kami harus bertanya mengapa nilainya tidak diketahui atau ditolak? Ini bisa terkait dengan praktik di lembaga (mungkin mencerminkan prosedur yang lemah) atau bahkan dengan individu (seperti keyakinan agama). Karakteristik tersebut pada gilirannya dapat dikaitkan dengan diabetes. Oleh karena itu, tampaknya lebih bijaksana untuk melanjutkan seperti yang Anda miliki, daripada mengkode nilai-nilai ini sebagai hilang (dengan demikian mengecualikan mereka dari analisis sama sekali) atau mencoba untuk menyalahkan nilai-nilai (yang secara efektif menutupi informasi yang mereka berikan dan dapat membiaskan hasilnya). Ini benar-benar tidak lagi sulit untuk dilakukan: Anda hanya perlu memastikan variabel ini diperlakukan sebagai kategori dan Anda akan mendapatkan satu koefisien lagi dalam hasil regresi. Selain itu, saya menduga dataset BRFSS cukup besar sehingga Anda tidak perlu khawatir tentang kekuatan.