Bagaimana saya bisa memperbaiki kesalahan pengukuran dalam variabel dependen dalam regresi logit?


8

Saya menjalankan regresi logit biner di mana saya tahu variabel dependen salah dicatat dalam sebagian kecil kasus. Jadi saya mencoba memperkirakanβ dalam model ini:

halrHaib(ysaya)=1/(1+e-zsaya)

zsaya=α+Xsayaβ

Tapi bukannya vektor Y, Saya sudah Y~, yang mencakup beberapa kesalahan acak (mis ysaya=1tapi ysaya~=0, atau sebaliknya, untuk beberapa orang saya).

Apakah ada (cukup) koreksi sederhana untuk masalah ini?

Saya tahu bahwa logit memiliki beberapa sifat yang bagus dalam studi kasus kontrol. Sepertinya sesuatu yang serupa berlaku di sini, tetapi saya belum dapat menemukan solusi yang baik.

Beberapa kendala lain: ini adalah aplikasi penambangan teks, jadi dimensinya Xbesar (dalam ribuan atau puluhan ribu). Ini mungkin mengesampingkan beberapa prosedur intensif komputasi.

Juga, saya tidak peduli tentang memperkirakan dengan benar αhanya β.

Jawaban:


2

Situasi ini sering disebut sebagai kesalahan klasifikasi. Tulisan ini membantu saya memperkirakan dengan benarβ. EDIT: Saya menemukan makalah yang tampak relevan menggunakan http://www.google.com/search?q=misclassification+of+dependent+variable+logistic .


1
Menurut abstrak, makalah ini tampaknya berurusan dengan "kovariat biner rawan kesalahan": yaitu, hanya dengan variabel bebas kesalahan klasifikasi saja.
whuber

1
Sebenarnya abstrak membahas keduanya: "Untuk kesalahan klasifikasi hasil, kami berpendapat bahwa analisis berbasis kemungkinan adalah pendekatan yang paling bersih dan paling disukai. Dalam kasus kesalahan klasifikasi kovariat, kami menggabungkan [....]
rolando2

2

Anda dapat memperkirakan model kesalahan parametrik menggunakan MLE, atau Anda dapat menggunakan pendekatan semi-paramteris berdasarkan sesuatu seperti penaksir korelasi korelasi maksimal (MRC). Secara komputasional, MRC merupakan penghalang untuk sampel besar, jadi sepertinya MLE adalah pendekatan yang tepat untuk saya.

Terima kasih kepada GaBorgulya untuk beberapa arahan yang cepat dan cepat, terutama pada istilah "kesalahan klasifikasi."

Berikut adalah beberapa sumber yang bagus tentang topik ini:

Model dasar, persis seperti yang dijelaskan dalam masalah asli

Versi tidak sama yang sama

Model yang lebih rumit, tetapi lebih umum

Tinjauan yang bagus

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.