Pengkodean Dummy untuk kontras: 0,1 vs 1, -1

Saya mencari bantuan Anda dalam memahami perbedaan antara dua kontras yang berbeda untuk variabel dikotomis.

Pada halaman ini: http://www.psychstat.missouristate.edu/multibook/mlt08.htm di bawah "Variabel Prediktor Dichotomous", ada dua cara untuk mengkode prediktor dikotomis: menggunakan kontras 0,1 atau kontras 1, -1 . Saya agak mengerti perbedaannya di sini (0,1 adalah pengkodean dummy dan 1, -1 menambah satu kelompok dan mengurangi dari yang lain) tetapi tidak mengerti yang harus digunakan dalam regresi saya.

Sebagai contoh, jika saya memiliki dua prediktor dikotomis, jenis kelamin (m / f) dan atlet (y / n), saya bisa menggunakan kontras 0,1 pada keduanya atau 1, -1 pada keduanya. Apa yang akan menjadi interpretasi dari efek utama atau efek interaksi ketika menggunakan dua kontras yang berbeda? Apakah itu tergantung pada apakah sel saya memiliki ukuran yang berbeda?

multiple-regression categorical-data categorical-encoding

— Dan
sumber

"Variabel Prediktor Dichotomous", ada dua cara untuk mengkodekan prediktor dikotomis: menggunakan kontras 0,1 atau kontras 1, -1.

Ini sebenarnya salah. Tidak ada batasan jumlah cara mereka dapat dikodekan. Keduanya hanyalah yang paling umum (memang di antara mereka, hampir di mana-mana), dan mungkin yang paling mudah untuk dihadapi.

Saya agak mengerti perbedaannya di sini (0,1 adalah pengkodean dummy dan 1, -1 menambah satu kelompok dan mengurangi dari yang lain) tetapi tidak mengerti yang harus digunakan dalam regresi saya.

Mana yang lebih nyaman / sesuai. Jika Anda memiliki percobaan yang dirancang dengan angka yang sama di masing-masing, ada beberapa aspek yang bagus untuk pendekatan kedua; jika Anda tidak melakukan yang pertama mungkin lebih mudah dalam beberapa cara.

Sebagai contoh, jika saya memiliki dua prediktor dikotomis, jenis kelamin (m / f) dan atlet (y / n), saya bisa menggunakan kontras 0,1 pada keduanya atau 1, -1 pada keduanya.

Apa yang akan menjadi interpretasi dari efek utama atau efek interaksi ketika menggunakan dua kontras yang berbeda?

a) (i) Pertimbangkan efek utama gender (tanpa interaksi untuk kesederhanaan) {m = 0, f = 1} - maka koefisien yang sesuai dengan boneka itu akan mengukur perbedaan rata-rata antara wanita dan pria (dan intersep akan menjadi rata-rata laki-laki).

(ii) Untuk {m = -1, f = 1} efek utama gender adalah setengah perbedaan dalam rata-rata, dan intersep adalah rata-rata dari rata-rata (jika desain seimbang, itu juga rata-rata dari semua data) . Secara ekuivalen, efek utama adalah perbedaan rata-rata setiap kelompok dari intersep.

b) (i) mempertimbangkan interaksi antara jenis kelamin {m = 0, f = 1} dan atlet {n = 0, y = 1}

Sekarang intersep mewakili rata-rata non-atlet pria (0,0), efek utama gender adalah perbedaan antara rata-rata non-atlet wanita dan non-atlet pria, efek utama atlet mewakili perbedaan antara rata-rata atlet laki-laki dan non-atlet laki-laki dan interaksi adalah perbedaan dua perbedaan - itu perbedaan rata-rata atlet / non-atlet untuk perempuan dikurangi perbedaan rata-rata atlet / non-atlet untuk merek.

(ii) pertimbangkan interaksi antara jenis kelamin {m = -1, f = -1} dan atlet {n = -1, y = 1}

Sekarang mencegat mewakili rata-rata dari empat kelompok-cara (dan jika desain itu benar-benar seimbang itu juga akan menjadi rata-rata keseluruhan). Pencegatan adalah seperempat dari yang sebelumnya.

Efek utama adalah rata-rata efek perbedaan - efek gender adalah rata-rata perbedaan perempuan-laki-laki dalam atlet dan perbedaan perempuan-laki-laki dalam non-atlet. Efek utama atlet adalah rata-rata perbedaan atlet / non-atlet pada wanita dan perbedaan atlet / non-atlet pada pria.

Apakah itu tergantung pada apakah sel saya memiliki ukuran yang berbeda?

Apa yang Anda maksud dengan 'berbagai ukuran'? Apakah maksud Anda bahwa jumlah pengamatan di setiap sel berbeda? (Jika demikian, saya membahas sebagian besar di atas - jumlah sel yang sama memberikan arti tambahan / menyederhanakan interpretasi, seperti membuat intersepsi nilai tengah data, bukan hanya rata-rata rata-rata kelompok.)

— Glen_b -Reinstate Monica
sumber

Jawabannya sangat komprehensif. Saya akan menambahkan bahwa saya benar-benar tidak melihat alasan untuk mengkontraskan kode dengan format -1, 1 untuk level. Ini tidak hanya memberikan ukuran efek yang tidak memiliki interpretasi langsung (seperti "perbedaan berlipat ganda terkait dalam hasil membandingkan perbedaan unit dalam prediktor"), tetapi juga menjadikan interpretasi intersep sebagai kuantitas fiktif (bukan dari hasil yang diharapkan untuk semua variabel sama dengan nol). Saya akan menganjurkan selalu menggunakan 0/1 coding untuk variabel dummy.

— AdamO

@ AdamO saya tidak setuju. 1) Jika Anda khawatir bahwa -1, +1 kode tidak memiliki interpretasi "langsung", maka gunakan saja -5, +. 5. 2) Seperti dicatat oleh Glen_b, intersep di bawah kode tersebut mewakili rata-rata dari rata-rata grup; sama sekali tidak jelas bagaimana ini lebih atau kurang merupakan "jumlah fiktif" daripada arti kelompok itu sendiri (yang mungkin atau mungkin tidak sama dengan APAPUN dari pengamatan dalam dataset!). 3) Interaksi antara faktor-faktor dummy-kode hampir selalu membuat efek sederhana batal dari interpretasi yang menarik / bermakna; kode kontras menawarkan interpretasi yang jauh lebih alami di sini

— Jake Westfall

Terima kasih semuanya. Memang, saya mengalami kesulitan menafsirkan efek utama di hadapan interaksi saat menggunakan dummy coding. Saya menyadari bahwa efek utama gender hanya untuk non-atlet (bukan jenis efek gender yang dirata-ratakan baik untuk atlet maupun non-atlet yang saya dapatkan dengan kontras). Dan

— Dan

"intersep di bawah kode tersebut mewakili rata-rata dari kelompok berarti": Mean dari rata-rata bukan rata-rata marginal, yang merupakan satu-satunya parameter yang saya pikir akan kita pedulikan. Hanya di bawah desain yang seimbang kita akan nyaris memilikinya, dan anggapan itu terlalu tidak praktis untuk tujuan kita.

— AdamO

@JakeWestfall Seperti yang Anda tahu interpretasi intersep adalah sebagai nilai rata-rata dalam respons ketika semua nilai regresi diatur ke 0. Jika nilai ini tidak mungkin atau lebih buruk bahkan tidak mungkin, intersep menjadi kuantitas fiktif. Bahkan untuk 0/1 binari, anggaplah saya menunjukkan dua regresi- (0: hamil, 1: tidak hamil) (0: laki-laki 1: perempuan) untuk FEV. Intersep dalam model ini adalah FEV rata-rata pada pria hamil. Sekarang jika saya kode, -1: pria 1: wanita, intersep sama sekali tidak memiliki interpretasi sama sekali kecuali untuk "rata-rata respons rata-rata pada pria dan wanita".

— AdamO