80% dari data yang hilang dalam satu variabel

Ada satu variabel dalam data saya memiliki 80% dari data yang hilang. Data hilang karena tidak ada (yaitu berapa banyak pinjaman bank yang harus dibayar perusahaan). Saya menemukan sebuah artikel yang mengatakan bahwa metode penyesuaian variabel dummy adalah solusi untuk masalah ini. Berarti saya perlu mengubah variabel kontinu ini menjadi kategorikal?

Apakah ini satu-satunya solusi? Saya tidak ingin menghapus variabel ini karena menurut saya secara teoritis, ini penting untuk pertanyaan penelitian saya.

missing-data

— lcl23
sumber

Jawaban:

Apakah data "hilang" dalam arti tidak diketahui atau apakah itu hanya berarti tidak ada pinjaman (sehingga jumlah pinjaman nol)? Kedengarannya seperti yang terakhir, dalam hal ini Anda membutuhkan boneka biner tambahan untuk menunjukkan apakah ada pinjaman. Tidak ada transformasi dari jumlah pinjaman yang dibutuhkan (selain, mungkin, dari ekspresi ulang terus menerus, seperti root atau log awal, yang mungkin ditunjukkan berdasarkan pertimbangan lain).

Ini bekerja dengan baik dalam regresi. Contoh sederhana adalah model konseptual formulir

dependent variable (Y) = loan amount (X) + constant.

$\text{dependent variable (Y) = loan amount (X) + constant.}$

Dengan penambahan indikator pinjaman ( ), model regresi adalah $I$

Y = β_{I} I + β_{X} X + β_{0} + ϵ

$Y = \beta_I I + \beta_X X + \beta_0 + \epsilon$

dengan mewakili kesalahan acak dengan nol harapan. Koefisien diartikan sebagai: $\epsilon$

$\beta_0$ adalah ekspektasi untuk situasi tanpa pinjaman, karena itu ditandai dengan dan . $Y$ $X = 0$ $I = 0$

$\beta_X$ adalah perubahan kecil dalam sehubungan dengan jumlah pinjaman ( ). $Y$ $X$

$\beta_I + \beta_0$ adalah penyadapan untuk kasus-kasus dengan pinjaman.

— whuber
sumber

Mereka tidak akan diperlakukan sebagai orang hilang, mereka akan memperkirakan nilai tanpa pinjaman. Mungkin Anda tidak pernah meminjamkan 'NA' dalam hal ini Anda perlu mengkode ulang angka-angka itu menjadi 0.

— John

@ John Terima kasih, itulah yang saya rekomendasikan. Intinya adalah untuk menyatakan nilai pinjaman ( ) dengan cara apa pun yang sesuai (seperti log (jumlah + 1)) dan mengatur dan untuk kasus apa pun tanpa pinjaman. Ini adalah teknik standar dalam regresi, termasuk regresi logistik.

X

$X$

X = 0

$X=0$

I = 1

$I=1$

— whuber

@ lcl23 Jika saya memahami situasinya dengan benar, imputasi tidak masuk akal: data "hilang" Anda tidak hilang; mereka mengindikasikan tidak ada pinjaman yang diambil.

— whuber

@ Bakaburg Saya pikir Anda mungkin mendapatkannya mundur, tetapi tidak masalah - dua model (menggunakan versus ) akan menjadi setara. Nilai prediksi dalam model dengan dan tanpa indikator seperti itu akan berbeda, jadi saya tidak mengerti apa yang ingin Anda tanyakan. Perhatikan bahwa "tidak terdeteksi" sangat berbeda dari "tidak ada"! Jika batas deteksi Anda cukup kecil, seharusnya tidak ada kebutuhan untuk memperkenalkan boneka untuk mereka; dan jika ada kebutuhan, maka memperkenalkan boneka mungkin agak terlalu kasar. Dalam hal itu, pertimbangkan metode analisis data yang disensor atau nilai interval.

I (X = 1)

$I(X=1)$

I (X = 0)

$I(X=0)$

— whuber

Jawabannya ada di sini. Ketika dummy adalah , nilai ditambahkan ke prediksi. Ketika boneka adalah , nilai itu turun. Hanya itu yang ada untuk itu.

1

$1$

β_{I}

$\beta_I$

0

$0$

— whuber

Saya pikir Anda telah salah memahami saran artikel: terutama karena saran itu tidak masuk akal. Anda kemudian akan memiliki dua masalah: bagaimana cara pengkodean ulang variabel dan nilainya masih hilang. Apa yang mungkin disarankan adalah membuat indikator hilang .

Pendekatan yang agak relevan untuk menangani data yang hilang yang secara longgar cocok dengan deskripsi ini adalah menyesuaikan indikator hilangnya . Ini tentu saja pendekatan yang sederhana dan mudah, tetapi secara umum itu bias. Bias bisa tidak terbatas dalam kejahatannya. Apa yang dilakukan secara efektif adalah mencocokkan dua model dan rata-rata pengaruhnya bersama-sama: model pertama adalah model bersyarat penuh , yang kedua adalah model faktor lengkap. Model bersyarat penuh adalah model kasus lengkap di mana setiap pengamatan dihapus yang memiliki nilai yang hilang. Jadi cocok pada subset 20% dari data. Yang kedua adalah kecocokan pada 80% sisanya tidak menyesuaikan untuk nilai yang hilang sama sekali. Model marginal ini memperkirakan efek yang sama dengan model penuh ketika tidak ada interaksi yang tidak terukur, ketika fungsi tautan dilipat, dan ketika data hilang secara acak (MAR). Efek-efek ini kemudian digabungkan dengan rata-rata tertimbang. Bahkan dalam kondisi yang ideal, tidak ada interaksi yang tidak terukur, dan data yang hilang secara acak (MCAR), pendekatan indikator yang hilang mengarah pada efek bias karena model marginal dan model kondisional memperkirakan efek yang berbeda. Bahkan prediksi bias dalam hal ini.

Alternatif yang jauh lebih baik adalah dengan menggunakan beberapa imputasi. Bahkan ketika sebagian besar faktor yang hilang diukur pada prevalensi yang sangat rendah, MI melakukan pekerjaan yang relatif baik untuk menghasilkan realisasi canggih dari nilai-nilai apa yang mungkin terjadi. Satu-satunya asumsi yang diperlukan di sini adalah MAR.

— AdamO
sumber

Apa yang dimaksud dengan "fungsi tautan dapat diciutkan"?

— Matthew Drury

@MatthewDrury pada dasarnya, "collapsibility" berarti bahwa menyesuaikan variabel yang memprediksi hasil tetapi bukan efek utama akan meningkatkan presisi, tetapi tidak mengubah perkiraan efek.

— AdamO

Keren, terima kasih Adam. Belum pernah mendengar istilah itu sebelumnya.

— Matthew Drury