Bagaimana jika interaksi menghapus efek langsung saya dalam regresi?

25

Dalam regresi, istilah interaksi menghapus kedua efek langsung terkait. Apakah saya menghentikan interaksi atau melaporkan hasilnya? Interaksi itu bukan bagian dari hipotesis asli.

regression interaction

— Jen
sumber

6

Anda mungkin bisa mendapatkan jawaban yang lebih baik jika Anda memberikan rincian lebih lanjut tentang desain eksperimental, pertanyaan penelitian, dan model statistik Anda.

— David LeBauer

Saya memiliki data survei, v1 dan v2 memprediksi hasilnya, seperti yang saya harapkan; Namun, interaksi antara v1 (dikotomis) dan v2 (5 kelompok) tidak signifikan - dan (pertanyaan saya) itu membuat efek langsung v1 dan v2 saya juga tidak signifikan. Saya tidak dapat menemukan contoh tentang melaporkan ini dalam literatur.

— Jen

Jika interaksi v1: v2 tidak signifikan, apakah Anda perlu memasukkannya ke dalam model?

— Christopher Aden

Mungkin pertanyaan ini relevan? stats.stackexchange.com/questions/5184/...

— Glen

Kemungkinan lain adalah pembauran paradoks: Contoh 1: epm.sagepub.com/content/56/3/430.abstract Contoh 2: optimalprediction.com/files/pdf/V1A19.pdf

— user31256

24

Saya pikir ini rumit; seperti yang Anda beri petunjuk, ada 'bahaya moral' di sini: jika Anda tidak melihat interaksi sama sekali, Anda akan bebas dan jelas, tetapi sekarang Anda memiliki ada kecurigaan pengerukan data jika Anda menjatuhkannya.

Kuncinya mungkin adalah perubahan makna efek Anda ketika Anda beralih dari efek utama hanya ke model interaksi. Apa yang Anda dapatkan untuk 'efek utama' sangat tergantung pada bagaimana perawatan dan kontras Anda dikodekan. Dalam R, standarnya adalah kontras pengobatan dengan tingkat faktor pertama (yang dengan nama pertama dalam urutan abjad kecuali Anda telah keluar dari cara Anda untuk kode mereka secara berbeda) sebagai tingkat dasar.

Katakan (untuk kesederhanaan) bahwa Anda memiliki dua level, 'kontrol' dan 'trt', untuk setiap faktor. Tanpa interaksi, arti dari parameter 'v1.trt' (dengan asumsi kontras pengobatan sebagai default dalam R) adalah "perbedaan rata-rata antara 'v1.control' dan 'v1.trt' group"; arti dari parameter 'v2.trt' adalah "perbedaan rata-rata antara 'v2.control' dan 'v2.trt'".

Dengan interaksi, 'v1.trt' adalah perbedaan rata-rata antara 'v1.control' dan 'v1.trt' dalam grup 'v2.control' , dan demikian pula 'v2.trt' adalah perbedaan rata-rata antara grup v2 dalam grup 'v1.control'. Jadi, jika Anda memiliki efek perawatan yang cukup kecil di masing-masing kelompok kontrol, tetapi efek yang besar pada kelompok perlakuan, Anda dapat dengan mudah melihat apa yang Anda lihat.

Satu-satunya cara saya bisa melihat ini terjadi tanpa istilah interaksi yang signifikan, bagaimanapun, adalah jika semua efek cukup lemah (sehingga apa yang Anda maksud dengan "efek menghilang" adalah bahwa Anda beralih dari p = 0,06 ke p = 0,04, melintasi garis signifikansi ajaib).

Kemungkinan lain adalah bahwa Anda 'menggunakan terlalu banyak derajat kebebasan' - yaitu, perkiraan parameter tidak benar-benar berubah banyak, tetapi istilah kesalahan residual cukup meningkat dengan harus memperkirakan 4 lainnya [= (2- 1) * (5-1)] parameter yang istilah penting Anda menjadi tidak signifikan. Sekali lagi, saya hanya berharap ini dengan set data kecil / efek yang relatif lemah.

Salah satu solusi yang mungkin adalah pindah ke jumlah kontras, meskipun ini juga rumit - Anda harus yakin bahwa 'efek rata-rata' bermakna dalam kasus Anda. Hal terbaik adalah memplot data Anda dan melihat koefisien dan memahami apa yang terjadi dalam hal estimasi parameter.

Semoga itu bisa membantu.

— Ben Bolker
sumber

4

Tidak ada bahaya moral. Perhitungan efek utama dengan interaksi termasuk sangat berbeda dari perhitungan tanpa itu. Anda harus melakukan model aditif untuk melaporkan efek utama dan kemudian memasukkan interaksi dalam model terpisah. Anda mengabaikan efek utama dalam model yang menyertakan interaksi karena mereka tidak benar-benar efek utama, mereka efek pada tingkat spesifik dari prediktor lain (termasuk interaksi).

— John

John: akankah seseorang, dengan logika itu, juga mengabaikan istilah interaksi dalam model yang menilai interaksi kuadrat / efek moderasi (yaitu, termasuk (1) efek utama, (2) interaksi di antara efek-efek utama, dan (3) istilah kuadratik untuk salah satu efek utama dan efek interaksi lengkung (moderasi))?

— Bento

11

Apakah Anda yakin variabel telah dinyatakan dengan tepat? Pertimbangkan dua variabel bebas dan . Pernyataan masalah menyatakan bahwa Anda mendapatkan formulir yang sesuai $X_1$ $X_2$

Y = β_{0} + β_{12} X_{1} X_{2} + ϵ

$Y = \beta_0 + \beta_{12} X_1 X_2 + \epsilon$

$Y$

Y = β_{0} + (β_{12} X_{1} X_{2}) δ

$Y = \beta_0 + \left( \beta_{12} X_1 X_2 \right) \delta$

Ini dapat ditulis ulang

\log (Y - β_{0}) = \log (β_{12}) + \log (X_{1}) + \log (X_{2}) + \log (δ);

$\log(Y - \beta_0) = \log(\beta_{12}) + \log(X_1) + \log(X_2) + \log(\delta);$

yaitu, jika Anda mengekspresikan kembali variabel Anda di formulir

\begin{aligned} η = & \log (Y - β_{0}) \\ ξ_{1} = & \log (X_{1}) \\ ξ_{2} = & \log (X_{2}) \\ ζ = & \log (δ) \sim N (0, σ^{2}) \end{aligned}

$\eqalign{ \eta =& \log(Y - \beta_0) \cr \xi_1 =& \log(X_1)\cr \xi_2 =& \log(X_2)\cr \zeta =& \log(\delta) \sim N(0, \sigma^2) }$

maka modelnya linier dan kemungkinan memiliki residu homoseksual:

η = γ_{0} + γ_{1} ξ_{1} + γ_{2} ξ_{2} + ζ,

$\eta = \gamma_0 + \gamma_1 \xi_1 + \gamma_2 \xi_2 + \zeta,$

$\gamma_1$ $\gamma_2$

$\beta_0$ $Y$

$\beta_0$ $\sqrt{\beta_0}$

Y = (θ_{1} + X_{1}) (θ_{2} + X_{2}) + ϵ

$Y = (\theta_1 + X_1) (\theta_2 + X_2) + \epsilon$

$\theta_1 \theta_2 = \beta_0$ $\theta_1$ $\theta_2$ $\theta_1 X_2$ $\theta_2 X_1$ $\epsilon$

Analisis ini menunjukkan bagaimana mungkin - bahkan mungkin di beberapa aplikasi - untuk memiliki model di mana satu-satunya efek tampaknya interaksi. Ini muncul ketika variabel (independen, dependen, atau keduanya) disajikan kepada Anda dalam bentuk yang tidak sesuai dan logaritma mereka adalah target yang lebih efektif untuk pemodelan. Distribusi variabel dan residu awal memberikan petunjuk yang diperlukan untuk menentukan apakah ini masalahnya: distribusi variabel yang miring dan heteroskedastisitas residual (khususnya, yang memiliki varian yang sebanding dengan nilai prediksi) adalah indikator.

— whuber
sumber

Hmmm. Ini semua tampaknya masuk akal tetapi lebih kompleks daripada solusi saya (komentar pada pertanyaan awal menunjukkan bahwa kedua prediktor bersifat kategoris). Tapi seperti biasa, jawabannya adalah "lihat data" (atau residu).

— Ben Bolker

1

@Ben Saya setuju tapi saya tidak mengerti dari mana persepsi "lebih kompleks" berasal, karena analisis distribusi univariat dan analisis residual pasca-hoc sangat penting dalam setiap latihan regresi. Satu-satunya pekerjaan tambahan yang diperlukan di sini adalah untuk memikirkan apa arti analisis ini.

— whuber

1

Mungkin dengan "lebih kompleks" Maksud saya "Dalam pengalaman saya, saya telah melihat masalah yang saya sebutkan dalam jawaban saya (pengkodean kontras) muncul lebih sering daripada yang Anda sebut (non-additivity)" - tetapi ini benar-benar sebuah pernyataan tentang jenis data / orang yang bekerja dengan saya dan bukan tentang dunia.

— Ben Bolker

5

$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 (X_1 \cdot X_2) = (b_0 + b_2 X_2) + (b_1 + b_3 X_2) X_1$

Ini biasanya memperkenalkan multikolinieritas tinggi karena produk akan sangat berkorelasi dengan kedua variabel asli. Dengan multikolinieritas, estimasi parameter individual sangat bergantung pada variabel lain mana yang dipertimbangkan - seperti dalam kasus Anda. Sebagai tindakan balasan, memusatkan variabel sering mengurangi multikolinieritas ketika interaksi dipertimbangkan.

Saya tidak yakin apakah ini secara langsung berlaku untuk kasus Anda karena Anda tampaknya memiliki prediktor kategori tetapi menggunakan istilah "regresi" alih-alih "ANOVA". Tentu saja kasus terakhir pada dasarnya adalah model yang sama, tetapi hanya setelah memilih skema pengkodean kontras seperti yang dijelaskan Ben.

— caracal
sumber

5

Ini mungkin masalah interpretasi, kesalahpahaman tentang apa yang disebut koefisien "efek langsung" sebenarnya.

Dalam model regresi dengan variabel prediktor kontinu dan tanpa istilah interaksi - yaitu, tanpa istilah yang dikonstruksikan sebagai produk istilah lain - koefisien masing-masing variabel adalah kemiringan permukaan regresi ke arah variabel itu. Itu konstan, terlepas dari nilai-nilai variabel, dan jelas merupakan ukuran pengaruh variabel itu.

Dalam model dengan interaksi - yaitu, dengan istilah yang dikonstruksikan sebagai produk istilah lain - interpretasi itu dapat dibuat tanpa kualifikasi lebih lanjut hanya untuk variabel yang tidak terlibat dalam interaksi apa pun. Koefisien variabel yang yang terlibat dalam interaksi adalah kemiringan permukaan regresi ke arah variabel yang ketika nilai-nilai semua variabel yang berinteraksi dengan variabel yang dimaksud adalah nol , dan uji signifikansi koefisien mengacu pada kemiringan permukaan regresi hanya di wilayah ruang prediksi. Karena tidak ada persyaratan bahwa sebenarnya ada data di wilayah ruang tersebut, koefisien efek langsung yang terlihat mungkin memiliki sedikit kemiripan dengan kemiringan permukaan regresi di wilayah ruang prediktor tempat data sebenarnya diamati. Tidak ada "efek langsung" yang sebenarnya dalam kasus-kasus seperti itu; pengganti terbaik mungkin adalah "efek rata-rata": kemiringan permukaan regresi ke arah variabel yang dipertanyakan, diambil pada setiap titik data dan dirata-rata di atas semua titik data. Untuk lebih lanjut tentang ini, lihat Mengapa memusatkan variabel independen mengubah efek utama dengan moderasi?

— Ray Koopman
sumber