Transformasi kembali koefisien regresi

Saya melakukan regresi linier dengan variabel dependen berubah. Transformasi berikut dilakukan sehingga asumsi normalitas residual akan berlaku. Variabel dependen yang tidak ditransformasi miring secara negatif, dan transformasi berikut membuatnya mendekati normal:

Y = \sqrt{50 - Y_{o r i g}}

$Y=\sqrt{50-Y_{orig}}$

di mana adalah variabel dependen pada skala asli. $Y_{orig}$

Saya pikir masuk akal untuk menggunakan beberapa transformasi pada koefisien untuk kembali ke skala semula. Menggunakan persamaan regresi berikut, $\beta$

Y = \sqrt{50 - Y_{o r i g}} = α + β \cdot X

$Y=\sqrt{50-Y_{orig}}=\alpha+\beta \cdot X$

dan dengan memperbaiki , yang kita miliki $X=0$

α = \sqrt{50 - Y_{o r i g}} = \sqrt{50 - α_{o r i g}}

$\alpha=\sqrt{50-Y_{orig}}=\sqrt{50-\alpha_{orig}}$

Dan akhirnya,

α_{o r i g} = 50 - α^{2}

$\alpha_{orig}=50-\alpha^2$

Menggunakan logika yang sama, saya temukan

β_{o r i g} = α (α - 2 β) + β^{2} + α_{o r i g} - 50

$\beta_{orig}=\alpha\space(\alpha-2\beta)+\beta^2+\alpha_{orig}-50$

Sekarang semuanya bekerja sangat baik untuk model dengan 1 atau 2 prediktor; koefisien back-transformed menyerupai yang asli, hanya sekarang saya dapat mempercayai kesalahan standar. Masalahnya muncul saat menyertakan istilah interaksi, seperti

Y = α + X_{1} β_{X_{1}} + X_{2} β_{X_{2}} + X_{1} X_{2} β_{X_{1} X_{2}}

$Y=\alpha+X_1\beta_{X_1}+X_2\beta_{X_2}+X_1X_2\beta_{X_1X_2}$

Kemudian transformasi balik untuk $\beta$ s tidak begitu dekat dengan yang dari skala asli, dan saya tidak yakin mengapa itu terjadi. Saya juga tidak yakin apakah rumus yang ditemukan untuk mentransformasikan kembali koefisien beta dapat digunakan seperti untuk 3 $\beta$ (untuk istilah interaksi). Sebelum masuk ke aljabar gila, saya pikir saya akan meminta saran ...

regression data-transformation

— Dominic Comtois
sumber

Bagaimana Anda mendefinisikan dan ?

α_{o r i g}

$\alpha_{orig}$

β_{o r i g}

$\beta_{orig}$

— mark999

Sebagai nilai alfa dan beta pada skala asli

— Dominic Comtois

Tapi apa artinya itu?

— mark999

Saya akan mempertaruhkan sesuatu seperti: perkiraan yang akan kami dapatkan adalah data asli yang cocok untuk regresi linier.

— Dominic Comtois

Bagi saya itu sepertinya konsep yang tidak berarti. Saya setuju dengan jawaban gung.

— mark999

Jawaban:

Satu masalah adalah Anda sudah menulis

Y = α + β \cdot X

$Y=α+β⋅X$

Itu adalah model deterministik sederhana (yaitu non-acak). Dalam hal ini, Anda dapat kembali mengubah koefisien pada skala asli, karena itu hanya masalah beberapa aljabar sederhana. Tetapi, dalam regresi biasa Anda hanya memiliki ; Anda telah meninggalkan istilah kesalahan dari model Anda. Jika transformasi dari kembali ke non-linear, Anda mungkin memiliki masalah karena , secara umum. Saya pikir itu mungkin ada hubungannya dengan perbedaan yang Anda lihat. $E(Y|X)=α+β⋅X$ $Y$ $Y_{orig}$ $E\big(f(X)\big)≠f\big(E(X)\big)$

Sunting: Perhatikan bahwa jika transformasi itu linier, Anda dapat kembali mentransformasikannya untuk mendapatkan estimasi koefisien pada skala asli, karena ekspektasinya linier.

— Makro
sumber

+1 untuk menjelaskan mengapa kami tidak dapat kembali mengubah beta.

— gung - Reinstate Monica

Saya salut atas upaya Anda di sini, tetapi Anda menggonggong pohon yang salah. Anda tidak kembali mengubah beta. Model Anda berlaku di dunia data yang diubah. Jika Anda ingin membuat prediksi, misalnya, Anda kembali mengubah , tapi hanya itu. Tentu saja, Anda juga bisa mendapatkan interval prediksi dengan menghitung nilai batas tinggi dan rendah, dan kemudian mengubahnya kembali, tetapi dalam kasus apa pun Anda tidak mengubah beta. $\hat{y}_i$

— gung - Reinstate Monica
sumber

Apa yang membuat fakta bahwa koefisien transformasi-kembali menjadi sangat dekat dengan yang diperoleh ketika memodelkan variabel yang tidak ditransformasi? Bukankah itu memungkinkan untuk beberapa kesimpulan pada skala asli?

— Dominic Comtois

Saya tidak tahu persis. Itu bisa tergantung sejumlah hal. Dugaan pertama saya adalah bahwa Anda mendapatkan keberuntungan dengan pasangan pertama Anda, tetapi kemudian keberuntungan Anda habis. Saya harus menyetujui w / @ mark999 bahwa "perkiraan yang akan kami dapatkan adalah data asli yang cocok untuk regresi linier" sebenarnya tidak masuk akal; Saya berharap itu terjadi & sepertinya pada awalnya memerah, tapi sayangnya tidak. Dan itu tidak melisensikan kesimpulan apa pun pada skala asli.

— gung - Reinstate Monica

@ung untuk transformasi non linier (katakanlah box cox): Saya dapat kembali mengubah nilai yang dipasang serta interval prediksi, tetapi saya tidak dapat mengubah beta atau interval koefisien untuk beta. Apakah ada batasan tambahan yang harus saya perhatikan? btw, ini adalah topik yang sangat menarik, di mana saya bisa mendapatkan pemahaman yang lebih baik?

— mugen

@mugen, sulit untuk mengatakan apa lagi yang harus Anda ketahui. Satu hal yang perlu diingat adalah bahwa transformasi kembali y-hat memberi Anda median kondisional sedangkan y-hat un-back-transformed (bleck) adalah mean bersyarat. Selain itu, materi ini harus dicakup dalam buku teks regresi yang baik.

— gung - Reinstate Monica

@Mugen, sama-sama. Jangan ragu untuk mengajukan lebih banyak pertanyaan melalui mekanisme normal (mengklik ASK QUESTION); akan ada lebih banyak sumber daya untuk menjawab, Anda akan mendapatkan perhatian lebih banyak CVer, & informasi akan lebih mudah diakses untuk anak cucu.

— gung - Reinstate Monica