Bagaimana saya bisa memperbaiki kesalahan pengukuran dalam variabel dependen dalam regresi logit?

8

Saya menjalankan regresi logit biner di mana saya tahu variabel dependen salah dicatat dalam sebagian kecil kasus. Jadi saya mencoba memperkirakan $\beta$ dalam model ini:

$prob(y_i) = 1/(1 + e^{-z_i})$

$z_i = \alpha + X_i\beta$

Tapi bukannya vektor $Y$ , Saya sudah $\tilde{Y}$ , yang mencakup beberapa kesalahan acak (mis $y_i = 1$ tapi $\tilde{y_i} = 0$ , atau sebaliknya, untuk beberapa orang $i$ ).

Apakah ada (cukup) koreksi sederhana untuk masalah ini?

Saya tahu bahwa logit memiliki beberapa sifat yang bagus dalam studi kasus kontrol. Sepertinya sesuatu yang serupa berlaku di sini, tetapi saya belum dapat menemukan solusi yang baik.

Beberapa kendala lain: ini adalah aplikasi penambangan teks, jadi dimensinya $X$ besar (dalam ribuan atau puluhan ribu). Ini mungkin mengesampingkan beberapa prosedur intensif komputasi.

Juga, saya tidak peduli tentang memperkirakan dengan benar $\alpha$ hanya $\beta$ .

logistic measurement-error

— Abe
sumber

2

Situasi ini sering disebut sebagai kesalahan klasifikasi. Tulisan ini membantu saya memperkirakan dengan benar $\beta$ . EDIT: Saya menemukan makalah yang tampak relevan menggunakan http://www.google.com/search?q=misclassification+of+dependent+variable+logistic .

— GaBorgulya
sumber

1

Menurut abstrak, makalah ini tampaknya berurusan dengan "kovariat biner rawan kesalahan": yaitu, hanya dengan variabel bebas kesalahan klasifikasi saja.

— whuber

1

Sebenarnya abstrak membahas keduanya: "Untuk kesalahan klasifikasi hasil, kami berpendapat bahwa analisis berbasis kemungkinan adalah pendekatan yang paling bersih dan paling disukai. Dalam kasus kesalahan klasifikasi kovariat, kami menggabungkan [....]

— rolando2

2

Anda dapat memperkirakan model kesalahan parametrik menggunakan MLE, atau Anda dapat menggunakan pendekatan semi-paramteris berdasarkan sesuatu seperti penaksir korelasi korelasi maksimal (MRC). Secara komputasional, MRC merupakan penghalang untuk sampel besar, jadi sepertinya MLE adalah pendekatan yang tepat untuk saya.

Terima kasih kepada GaBorgulya untuk beberapa arahan yang cepat dan cepat, terutama pada istilah "kesalahan klasifikasi."

Berikut adalah beberapa sumber yang bagus tentang topik ini:

Model dasar, persis seperti yang dijelaskan dalam masalah asli

Versi tidak sama yang sama

Model yang lebih rumit, tetapi lebih umum

Tinjauan yang bagus

— Abe
sumber