Bagaimana menafsirkan koefisien yang ditransformasikan secara logaritma dalam regresi linier?

10

Situasi saya adalah:

Saya memiliki 1 variabel dependen kontinu dan 1 kontinu yang telah saya ubah secara logaritma untuk menormalkan residu mereka untuk regresi linier sederhana.

Saya akan menghargai bantuan apa pun tentang bagaimana saya bisa menghubungkan variabel-variabel yang diubah ini dengan konteks aslinya.

Saya ingin menggunakan regresi linier untuk memprediksi jumlah hari siswa tidak masuk sekolah pada tahun 2011 berdasarkan jumlah hari yang mereka lewatkan pada tahun 2010. Kebanyakan siswa ketinggalan 0 hari atau hanya beberapa hari data miring positif ke kiri. Oleh karena itu, diperlukan transformasi untuk menggunakan regresi linier.

Saya telah menggunakan log10 (var + 1) untuk kedua variabel (saya menggunakan +1 untuk siswa yang telah melewatkan 0 hari sekolah). Saya menggunakan regresi karena saya ingin menambahkan faktor kategori - jenis kelamin / etnis dll juga.

Masalah saya adalah:

Audiens yang ingin saya beri umpan balik tidak akan mengerti log10 (y) = log (konstan) + log (var2) x (dan terus terang saya juga tidak).

Pertanyaan saya adalah:

a) Apakah ada cara yang lebih baik untuk menafsirkan variabel yang berubah dalam regresi? Yaitu selama 1 hari tidak terjawab pada tahun 2010 mereka akan kehilangan 2 hari pada tahun 2011 sebagai lawan dari perubahan 1 unit log pada tahun 2010 akan ada perubahan unit log x pada tahun 2011?

b) Secara khusus, diberikan kutipan kutipan dari sumber ini sebagai berikut:

"Ini adalah estimasi regresi binomial negatif untuk peningkatan satu unit dalam nilai tes standar matematika, mengingat variabel lain tetap konstan dalam model. Jika seorang siswa meningkatkan skor tes matematika dengan satu poin, perbedaan dalam log dari jumlah yang diharapkan akan diperkirakan menurun sebesar 0,0016 unit, sambil memegang variabel lain dalam model konstan. "

Saya ingin tahu:

Apakah bacaan ini mengatakan bahwa untuk setiap kenaikan satu satuan dalam skor UNTRANSFORMEDvariabel matematika mengarah ke penurunan 0,0016 dari konstanta (a), jadi jika UNTRANSFORMEDskor matematika naik dua poin, saya kurangi 0,0016 * 2 dari konstanta a?
Apakah itu berarti bahwa saya mendapatkan mean geometrik dengan menggunakan eksponensial (a)) dan eksponensial (a + beta * 2) dan, bahwa saya perlu menghitung perbedaan persentase antara keduanya untuk mengatakan apa pengaruh variabel prediktor memiliki / miliki pada variabel dependen?
Atau salah saya?

Saya menggunakan SPSS v20. Maaf karena membingkai ini dalam pertanyaan panjang.

— JimBob
sumber

8

Sudahkah Anda berpikir untuk menggunakan regresi Poisson? Secara alami ditunjukkan dengan data jumlah dependen dan kesuksesan Anda dengan transformasi log konsisten dengan distribusi Poisson. Koefisien akan ditafsirkan dalam hal peningkatan proporsional dalam probabilitas yang diharapkan untuk kehilangan satu hari sekolah. Salah satu keuntungannya adalah tidak diperlukan perlakuan khusus terhadap nol (walaupun masih merupakan ide yang sangat bagus untuk melihat model alternatif nol-inflasi).

— Whuber

Hai Whuber, Ya, saya sedang berpikir tentang regresi Poisson tetapi tidak yakin tentang ini atau memilih untuk regresi binomial negatif. Saya kira binomial negatif karena data lebih tersebar - yaitu rata-rata lebih rendah daripada varian dalam dataset (karenanya condong positif). Juga, benar-benar, ada batasan atas jumlah sesi sekolah di tahun tersebut, sedangkan Poisson mengasumsikan penyebut tanpa batas? Atau apakah Anda masih menganggap Poisson lebih tepat? Sayangnya SPSS tidak mendukung model nol meningkat sejauh yang saya lihat ...) Terima kasih Whuber :)

— JimBob

3

Saya tidak melihat masalah dengan dukungan tak terbatas dari distribusi Poisson: ini mirip dengan menggunakan distribusi Normal untuk memodelkan, katakanlah, nilai-nilai yang harus non-negatif. Asalkan peluang yang terkait dengan nilai-nilai tidak mungkin kecil, itu bisa menjadi model yang baik. Binomial negatif adalah alternatif standar untuk Poisson yang digunakan untuk menguji goodness of fit dan overdispersion; itu ide yang bagus. Jika SPSS terlalu terbatas, gunakan sesuatu yang lain! ( Rmemiliki paket untuk model nol-inflasi; cari situs ini .)

— whuber

2

Saya setuju dengan @whuber saya pikir Anda mungkin menginginkan model ZIP atau ZINB. Saya baru saja menambahkan bahwa mereka juga tersedia di SAS melalui PROC COUNTREG (dalam ETS) dan, dimulai dengan SAS 9.2, dalam PROC GENMOD (dalam STAT)

— Peter Flom - Reinstate Monica

2

Ada info yang sangat bagus di stats.stackexchange.com/questions/18480/… .

— rolando2

7

Saya pikir poin yang lebih penting disarankan dalam komentar @ whuber. Seluruh pendekatan Anda keliru karena dengan mengambil logaritma Anda secara efektif membuang dataset yang tidak ada siswa yang hilang pada 2010 atau 2011. Sepertinya ada cukup banyak dari orang-orang ini yang menjadi masalah, dan saya yakin hasil Anda akan salah berdasarkan pendekatan yang Anda ambil.

Sebagai gantinya, Anda harus menyesuaikan model linier umum dengan respons poisson. SPSS tidak dapat melakukan ini kecuali Anda telah membayar untuk modul yang sesuai, jadi saya sarankan untuk meningkatkan ke R.

Anda masih akan memiliki masalah menafsirkan koefisien, tetapi ini adalah sekunder untuk pentingnya memiliki model yang pada dasarnya sesuai.

— Peter Ellis
sumber

x \mapsto \log (x + 1)

$x\mapsto\log(x + 1)$

3

Saya setuju dengan responden lain, terutama berkenaan dengan bentuk model. Namun, jika saya memahami motivasi pertanyaan Anda, Anda sedang berbicara kepada khalayak umum dan ingin menyampaikan yang substantif(teoritis) arti analisis Anda. Untuk tujuan ini saya membandingkan nilai prediksi (mis. Perkiraan hari yang terlewat) di bawah berbagai "skenario". Berdasarkan model yang Anda pilih, Anda dapat membandingkan jumlah atau nilai yang diharapkan dari variabel dependen ketika prediktor berada pada beberapa nilai tetap tertentu (median atau nol, misalnya) dan kemudian menunjukkan bagaimana perubahan yang "bermakna" pada prediktor. mempengaruhi prediksi. Tentu saja, Anda harus mengubah data kembali ke skala asli, yang dapat dimengerti yang Anda mulai. Saya mengatakan "perubahan yang berarti" karena sering kali standar "perubahan satu unit dalam X" tidak menyampaikan impor nyata atau ketiadaan variabel independen. Dengan "data kehadiran," saya tidak yakin perubahan seperti apa yang akan terjadi. (Jika seorang siswa tidak melewatkan hari di 2010, dan satu hari di 2011, Saya tidak yakin kita akan belajar sesuatu. Tapi saya tidak tahu.)

— karena itu dapat menjadi agresif
sumber

2

$Y = bX$ $X$ $Y = b \log(X)$ $X$ $b\log(1.01)$

Edit: whoops, tidak menyadari bahwa variabel dependen Anda juga diubah log. Berikut ini tautan dengan contoh bagus yang menggambarkan ketiga situasi:

1) hanya Y ditransformasikan 2) hanya prediktor ditransformasikan 3) baik Y dan prediktor ditransformasikan

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regress.htm

— JCWong
sumber

1

Hai JC, Terima kasih atas balasan Anda. Saya telah mengambil pendekatan untuk mentransformasikan variabel dependen dan independen saya untuk konsistensi, tetapi saya telah membaca bahwa hanya DV yang benar-benar perlu mentransformasikan normalitas dibandingkan dengan infusnya.

— JimBob

Saya sebenarnya telah melihat tautan yang Anda sarankan (terima kasih tho) tetapi tidak jelas pada beberapa poin, terutama mengenai membandingkan mean geometrik dengan 'kehidupan nyata', tapi saya kira menggunakan mean geometrik lebih berkaitan dengan pemodelan pengaruh perubahan x pada y daripada hasil y per perubahan unit x? Saya rasa saya harus kembali dan membacanya lagi ...

— JimBob

2

$Y$ $X_1$ $X_2$ $X_3$ $\{0,1\}$

$log(Y) \approxeq log(C) + X_1W_1 + X_2W_2$

Anda cukup menunjukkan:

$Y \approxeq C \ M_1^{X_1}\ M_2^{X_2}\ M_3^{X_3}$ ,

di mana: , dan adalah pengganda. Dengan kata lain, setiap kali kovariat sama dengan 1, prediksi dikalikan dengan . Misalnya, jika , dan , prediksi Anda adalah: $M_1=e^{W_1}$ $M_2=e^{W_2}$ $M_3=e^{W_3}$ $X_i$ $M_i$ $X_1=0$ $X_2=1$ $X_3=1$

$Y \approxeq C \ M_2\ M_3$ .

Saya menggunakan karena ini bukan prediksi rata-rata : parameter rata-rata dari distribusi log-normal tidak secara umum rata-rata dari variabel acak (seperti halnya untuk regresi linier klasik tanpa log-transform). Saya tidak memiliki referensi yang tepat di sini, tetapi saya pikir ini adalah alasan langsung. $\approxeq$ $Y$

— Guillaume
sumber

3

Anda tidak perlu khawatir tentang masalah lognormal: pengganda sudah benar. (Akan ada masalah dengan model heteroskedastik.) Ini karena mana adalah varian dari . BTW, silakan pindai definisi Anda tentang untuk kesalahan ketik.

E [Y] = C e^{σ^{2} / 2} e^{(X_{1} W_{1} + X_{2} W_{2} + X_{3} W_{3})}

$E[Y]=C e^{\sigma^2/2}e^{(X_1W_1+X_2W_2+X_3W_3)}$

σ^{2}

$\sigma^2$

\log (Y)

$\log(Y)$

M_{i}

$M_i$

— Whuber