Studi berat badan lahir rendah
Ini adalah salah satu dataset dalam buku teks Hosmer dan Lemeshow tentang Regresi Logistik Terapan (2000, Wiley, edisi kedua). Tujuan dari penelitian prospektif ini adalah untuk mengidentifikasi faktor-faktor risiko yang terkait dengan melahirkan bayi berat lahir rendah (berat kurang dari 2.500 gram). Data dikumpulkan pada 189 wanita, 59 di antaranya memiliki bayi berat lahir rendah dan 130 di antaranya memiliki bayi berat lahir normal. Empat variabel yang dianggap penting adalah usia, berat subjek pada periode menstruasi terakhir, ras, dan jumlah kunjungan dokter selama trimester pertama kehamilan.
Ini tersedia dalam R as data(birthwt, package="MASS")
atau di Stata dengan webuse lbw
. Versi teks muncul di sini: lowbwt.dat ( deskripsi ). Sebagai catatan, ada beberapa versi dataset ini karena diperluas ke studi kasus-kontrol (1-1 atau 1-3, sesuai usia), seperti yang diilustrasikan oleh Hosmer dan Lemeshow dalam ALR bab 7.
Saya biasa mengajar kursus pengantar berdasarkan dataset ini karena alasan berikut:
- Ini menarik dari perspektif historis dan epidemiologis (data dikumpulkan pada tahun 1986); tidak diperlukan latar belakang kedokteran atau statistik untuk memahami gagasan utama dan pertanyaan apa yang dapat diajukan dari penelitian itu.
- χ2
- Hal ini memungkinkan untuk membahas perspektif pemodelan yang berbeda (pendekatan penjelas atau prediksi), dan implikasi dari skema pengambilan sampel ketika mengembangkan model (stratifikasi / kasus yang cocok).
Poin lain yang dapat ditekankan, tergantung pada audiens dan tingkat keahlian dengan perangkat lunak statistik, atau statistik secara umum.
Adapun dataset yang tersedia di R, prediktor kategoris dinilai sebagai bilangan bulat (misalnya, untuk etnis ibu kita memiliki '1' = putih, '2' = hitam, '3' = lainnya), walaupun fakta bahwa pemesanan alami untuk beberapa prediktor (misalnya, jumlah pekerja prematur sebelumnya atau jumlah kunjungan dokter) atau penggunaan label eksplisit (itu selalu merupakan ide yang baik untuk menggunakan 'ya' / 'tidak' daripada 1/0 untuk variabel biner, bahkan jika itu tidak ' t mengubah apa pun dalam matriks desain!) benar-benar tidak ada. Dengan demikian, mudah untuk membahas masalah apa yang mungkin muncul dengan mengabaikan tingkat atau unit pengukuran dalam analisis data.
Variabel tipe campuran menarik ketika melakukan analisis eksplorasi dan mendiskusikan jenis tampilan grafis yang sesuai untuk meringkas hubungan univariat, bivariat, atau trivariat. Demikian juga, menghasilkan tabel ringkasan yang bagus, dan pelaporan yang lebih umum, adalah aspek lain yang menarik dari dataset ini (tetapi Hmisc::summary.formula
perintah membuatnya sangat mudah di bawah R).
Hosmer dan Lemeshow melaporkan bahwa data aktual telah dimodifikasi untuk melindungi kerahasiaan subjek (hlm. 25). Mungkin menarik untuk membahas masalah kerahasiaan data, seperti yang dilakukan di salah satu Journal Club kami sebelumnya , tetapi lihat transkripnya . (Harus kuakui aku tidak pernah membahas banyak hal dengan itu.)
Sangat mudah untuk memperkenalkan beberapa nilai yang hilang atau nilai yang salah (yang merupakan masalah umum dalam kehidupan nyata seorang ahli statistik), yang mengarah untuk membahas (a) deteksi mereka melalui codebook ( Hmisc::describe
atau Stata's codebook
) atau grafik eksplorasi (selalu plot data Anda terlebih dahulu!) , dan (b) kemungkinan perbaikan (imputasi data, penghapusan listwise atau ukuran hubungan berpasangan, dll.).