Jelaskan penyesuaian model, dalam bahasa Inggris yang sederhana

14

Membaca tentang metode dan hasil analisis statistik, terutama dalam epidemiologi, saya sangat sering mendengar tentang penyesuaian atau pengendalian model.

Bagaimana Anda menjelaskan, kepada non-ahli statistik, tujuan dari hal itu? Bagaimana Anda menginterpretasikan hasil Anda setelah mengendalikan variabel tertentu?

Jalan-jalan kecil di Stata atau R, atau pointer ke online, akan menjadi permata sejati.

regression modeling epidemiology

— Radek
sumber

29

Cara termudah untuk dijelaskan dengan contoh:

Bayangkan studi menemukan bahwa orang-orang yang menonton final Piala Dunia lebih mungkin menderita serangan jantung selama pertandingan atau dalam 24 jam berikutnya daripada mereka yang tidak menontonnya. Haruskah pemerintah melarang sepakbola dari TV? Tetapi pria lebih cenderung menonton sepakbola daripada wanita, dan pria juga lebih mungkin mengalami serangan jantung daripada wanita. Jadi hubungan antara menonton sepak bola dan serangan jantung mungkin dijelaskan oleh faktor ketiga seperti seks yang mempengaruhi keduanya. (Sosiolog akan membedakan di sini antara gender , konstruksi budaya yang terkait dengan menonton sepak bola, dan seks, kategori biologis yang dikaitkan dengan kejadian serangan jantung, tetapi keduanya berkorelasi sangat kuat jadi saya akan mengabaikan perbedaan itu untuk kesederhanaan.)

Para ahli statistik, dan terutama ahli epidemiologi, menyebut faktor ketiga semacam itu sebagai perancu , dan fenomena itu membingungkan . Cara yang paling jelas untuk menghilangkan masalah adalah dengan melihat hubungan antara menonton sepak bola dan kejadian serangan jantung pada pria dan wanita secara terpisah, atau dalam jargon, untuk dikelompokkan berdasarkan jenis kelamin. Jika kami menemukan bahwa hubungan tersebut (jika masih ada satu) serupa pada kedua jenis kelamin, kami kemudian dapat memilih untuk menggabungkan dua perkiraan asosiasi di antara kedua jenis kelamin. Perkiraan yang dihasilkan dari hubungan antara menonton sepak bola dan kejadian serangan jantung kemudian dikatakan disesuaikan atau dikendalikan untuk seks.

Kami mungkin juga ingin mengendalikan faktor-faktor lain dengan cara yang sama. Usia adalah salah satu yang jelas (pada kenyataannya epidemiologis baik stratifikasi atau penyesuaian / kontrol hampir setiap hubungan berdasarkan usia dan jenis kelamin) Kelas sosial-ekonomi mungkin adalah yang lain. Orang lain dapat menjadi lebih rumit, misalnya apakah kita harus menyesuaikan konsumsi bir sambil menonton pertandingan? Mungkin ya, jika kita tertarik pada efek dari stres menonton pertandingan sendirian; tapi mungkin tidak, jika kita mempertimbangkan untuk melarang penyiaran sepak bola Piala Dunia dan itu juga akan mengurangi konsumsi bir. Apakah variabel yang diberikan adalah perancu atau tidak tergantung pada pertanyaan apa yang ingin kita atasi, dan ini bisa memerlukan pemikiran yang sangat hati-hati dan menjadi cukup rumit dan bahkan kontroversial.

Maka jelas, kita mungkin ingin menyesuaikan / mengendalikan untuk beberapa faktor, beberapa di antaranya dapat diukur dalam beberapa kategori (misalnya kelas sosial) sementara yang lain mungkin berkelanjutan (misalnya usia). Kita bisa berurusan dengan yang kontinu dengan memecah menjadi kelompok (usia), sehingga mengubahnya menjadi kelompok kategorikal. Jadi katakanlah kita memiliki 2 jenis kelamin, 5 kelompok kelas sosial dan 7 kelompok umur. Kita sekarang dapat melihat hubungan antara menonton sepak bola dan kejadian serangan jantung dalam 2 × 5 × 7 = 70 strata. Tetapi jika penelitian kami cukup kecil, sehingga beberapa strata itu mengandung sangat sedikit orang, kita akan mengalami masalah dengan pendekatan ini. Dan dalam praktiknya kita mungkin ingin menyesuaikan untuk selusin atau lebih variabel. Cara alternatif untuk menyesuaikan / mengendalikan variabel yang sangat berguna ketika ada banyak dari mereka disediakan oleh analisis regresidengan beberapa variabel dependen, kadang-kadang dikenal sebagai analisis regresi multivariabel . (Ada berbagai jenis model regresi tergantung pada jenis variabel hasil: regresi kuadrat terkecil, regresi logistik, bahaya proporsional (Cox) regresi ...). Dalam penelitian observasional, sebagai lawan dari eksperimen, kami hampir selalu ingin menyesuaikan banyak pembaur potensial, sehingga dalam praktik penyesuaian / kontrol untuk pembaur sering dilakukan dengan analisis regresi, meskipun ada alternatif lain juga, seperti standardisasi, pembobotan, kecenderungan pencocokan skor ...

— onestop
sumber

3

+1 (meskipun setidaknya +3 layak) - sangat menyeluruh dan komprehensif. Membuat seluruh masalah menjadi lebih jelas bagi saya. Terima kasih!

— radek

"Cara alternatif penyesuaian / pengendalian untuk variabel yang sangat berguna ketika ada banyak dari mereka disediakan oleh analisis regresi dengan beberapa variabel dependen, kadang-kadang dikenal sebagai analisis regresi multivariabel." apakah itu seharusnya "independen" atau saya salah paham? dan apakah jargon yang lebih umum untuk ini, "regresi berganda"? (saya tahu itu bisa diperdebatkan)

— Richard DiSalvo

10

Onestop menjelaskannya dengan cukup baik, saya hanya akan memberikan contoh R sederhana dengan membuat data. Katakanlah x adalah berat dan y adalah tinggi, dan kami ingin mengetahui apakah ada perbedaan antara pria dan wanita:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

Anda dapat melihat bahwa tanpa mengontrol berat badan (dalam anova (lm1)) ada sedikit perbedaan antara kedua jenis kelamin, tetapi ketika berat badan dimasukkan sebagai kovariat (dikontrol dalam lm2) maka perbedaannya menjadi lebih jelas.

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)

— Matt Albrecht
sumber