Saya menjalankan regresi logit biner di mana saya tahu variabel dependen salah dicatat dalam sebagian kecil kasus. Jadi saya mencoba memperkirakan dalam model ini:
Tapi bukannya vektor , Saya sudah , yang mencakup beberapa kesalahan acak (mis tapi , atau sebaliknya, untuk beberapa orang ).
Apakah ada (cukup) koreksi sederhana untuk masalah ini?
Saya tahu bahwa logit memiliki beberapa sifat yang bagus dalam studi kasus kontrol. Sepertinya sesuatu yang serupa berlaku di sini, tetapi saya belum dapat menemukan solusi yang baik.
Beberapa kendala lain: ini adalah aplikasi penambangan teks, jadi dimensinya besar (dalam ribuan atau puluhan ribu). Ini mungkin mengesampingkan beberapa prosedur intensif komputasi.
Juga, saya tidak peduli tentang memperkirakan dengan benar hanya .