Jika tujuan dari model tersebut adalah prediksi, maka Anda tidak dapat menggunakan regresi logistik tanpa bobot untuk memprediksi hasil: Anda akan melebih-lebihkan risiko. Kekuatan model logistik adalah bahwa rasio odds (OR) - "kemiringan" yang mengukur hubungan antara faktor risiko dan hasil biner dalam model logistik - tidak berubah terhadap pengambilan sampel bergantung pada hasil. Jadi, jika kasus diambil sampel dalam rasio 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 untuk kontrol, itu sama sekali tidak masalah: OR tetap tidak berubah dalam skenario mana pun selama pengambilan sampel tanpa syarat. pada paparan (yang akan memperkenalkan bias Berkson). Memang, pengambilan sampel tergantung hasil adalah upaya penghematan biaya ketika pengambilan sampel acak sederhana lengkap tidak akan terjadi.
Mengapa prediksi risiko bias dari pengambilan sampel tergantung hasil menggunakan model logistik? Sampling dependen hasil berdampak pada intersep dalam model logistik. Hal ini menyebabkan kurva asosiasi berbentuk S "meluncur ke atas sumbu x" oleh perbedaan dalam log-odds pengambilan sampel kasus dalam sampel acak sederhana dalam populasi dan log-odds pengambilan sampel kasus dalam pseudo -populasi dari desain eksperimental Anda. (Jadi jika Anda memiliki 1: 1 kasus untuk kontrol, ada kemungkinan 50% untuk mengambil sampel kasus dalam populasi semu ini). Dalam hasil yang jarang terjadi, ini adalah perbedaan yang sangat besar, faktor 2 atau 3.
Ketika Anda berbicara tentang model seperti itu "salah", Anda harus fokus pada apakah tujuannya inferensi (kanan) atau prediksi (salah). Ini juga membahas rasio hasil terhadap kasus. Bahasa yang cenderung Anda lihat di sekitar topik ini adalah menyebut studi semacam itu sebagai studi "kontrol kasus", yang telah ditulis secara luas. Mungkin publikasi favorit saya tentang topik ini adalah Breslow and Day yang sebagai studi penting mengkarakterisasi faktor risiko untuk penyebab kanker yang langka (sebelumnya tidak dapat dilakukan karena kelangkaan peristiwa). Studi kontrol kasus memicu beberapa kontroversi seputar kesalahan interpretasi temuan: terutama menggabungkan OR dengan RR (melebih-lebihkan temuan) dan juga "basis studi" sebagai perantara sampel dan populasi yang meningkatkan temuan.memberikan kritik yang sangat baik terhadap mereka. Namun, tidak ada kritik yang mengklaim bahwa studi kasus-kontrol secara inheren tidak valid, maksud saya bagaimana Anda bisa? Mereka telah memajukan kesehatan masyarakat di jalan yang tak terhitung banyaknya. Artikel Miettenen bagus dalam menunjukkan bahwa, Anda bahkan dapat menggunakan model risiko relatif atau model lain dalam pengambilan sampel tergantung hasil dan menggambarkan perbedaan antara hasil dan temuan tingkat populasi dalam banyak kasus: itu tidak terlalu buruk karena OR biasanya merupakan parameter yang sulit menafsirkan.
Mungkin cara terbaik dan termudah untuk mengatasi bias oversampling dalam prediksi risiko adalah dengan menggunakan kemungkinan tertimbang.
Scott dan Wild mendiskusikan bobot dan menunjukkan koreksi jangka waktu intersepsi dan prediksi risiko model. Ini adalah pendekatan terbaik ketika ada pengetahuan apriori tentang proporsi kasus dalam populasi. Jika prevalensi hasil sebenarnya 1: 100 dan Anda sampel kasus ke kontrol dalam mode 1: 1, Anda cukup mengontrol berat badan dengan besarnya 100 untuk mendapatkan parameter populasi yang konsisten dan prediksi risiko yang tidak bias. Kelemahan dari metode ini adalah tidak memperhitungkan ketidakpastian dalam prevalensi populasi jika telah diperkirakan ada kesalahan di tempat lain. Ini adalah area penelitian terbuka yang luas, Lumley dan Breslowdatang sangat jauh dengan beberapa teori tentang pengambilan sampel dua fase dan penduga ganda kuat. Saya pikir ini hal yang sangat menarik. Program Zelig tampaknya hanya menjadi implementasi dari fitur bobot (yang tampaknya sedikit berlebihan karena fungsi glm R memungkinkan untuk bobot).