Pertimbangkan pengambilan sampel data dari populasi berukuran dengan cara berikut: Untuk
Amati status "penyakit" individu
Jika mereka memiliki penyakit, masukkan mereka dalam sampel dengan probabilitas
Jika mereka tidak memiliki penyakit, sertakan mereka dengan probabilitas .
Misalkan Anda mengamati variabel hasil biner dan vektor prediktor , untuk subjek disampel dengan cara ini. Variabel hasil bukanlah status "penyakit". Saya ingin memperkirakan parameter model regresi logistik:
Yang saya pedulikan hanyalah rasio odds (log), . Mencegat itu tidak relevan bagi saya.
Pertanyaan saya adalah: Dapatkah saya mendapatkan estimasi yang masuk akal dari dengan mengabaikan probabilitas sampling , dan menyesuaikan model seolah-olah itu sampel acak biasa?
Saya cukup yakin jawaban untuk pertanyaan ini adalah "ya". Yang saya cari adalah referensi yang memvalidasi ini.
Ada dua alasan utama saya yakin tentang jawabannya:
Saya telah melakukan banyak studi simulasi dan tidak satupun yang bertentangan dengan ini, dan
Sangat mudah untuk menunjukkan bahwa, jika populasi diatur oleh model di atas, maka model yang mengatur data sampel adalah
Jika probabilitas pengambilan sampel tidak bergantung pada , maka ini akan mewakili pergeseran sederhana ke intersepsi dan estimasi titik jelas tidak akan terpengaruh. Tetapi, jika offset berbeda untuk setiap orang, logika ini tidak cukup berlaku karena Anda pasti akan mendapatkan estimasi titik yang berbeda, meskipun saya menduga sesuatu yang serupa tidak.
Terkait: Makalah klasik oleh Prentice dan Pyke (1979) mengatakan bahwa koefisien regresi logistik dari kasus-kontrol (dengan status penyakit sebagai hasilnya) memiliki distribusi yang sama dengan yang dikumpulkan dari studi prospektif. Saya menduga hasil yang sama ini akan berlaku di sini, tetapi saya harus mengakui bahwa saya tidak sepenuhnya memahami setiap bit kertas.
Terima kasih sebelumnya atas segala komentar / referensi.