Variabel indikator untuk data biner: {-1,1} vs {0,1}

Saya tertarik pada interaksi perlakuan-kovariat dalam konteks eksperimen / percobaan terkontrol acak, dengan perawatan tugas indikator biner . $T$

Bergantung pada metode / sumber spesifik, saya telah melihat masing-masing dan masing-masing untuk subjek yang dirawat dan yang tidak diobati. $T=\{1,0\}$ $T=\{1, -1\}$

Apakah ada aturan praktis kapan harus menggunakan atau ? $\{1,0\}$ $\{1, -1\}$

Apa perbedaan penafsirannya?

binary-data categorical-encoding

— cecefuss
sumber

FWIW ... Tautan pertama ini memberikan ikhtisar yang cukup komprehensif dari berbagai skema pengkodean ... ats.ucla.edu/stat/r/library/contrast_coding.htm Tautan kedua ini membahas indikator (dummy) indikator, dummy, efek dan ortogonal (kontras) pengkodean ... fakultas.cas.usf.edu/mbrannick/regress/anova1.html

— Mike Hunter

Jawaban:

Interpretasi penaksir variabel indikator dan intersep berbeda. Mari kita mulai dengan : $\{1,0\}$

Katakanlah Anda memiliki model berikut

y_{i} = β_{0} + t r e a t m e n t \cdot β_{1}

$y_i = \beta_0 + treatment\cdot\beta_1$

dimana

t r e a t m e n t = {\begin{cases} 0 & if placebo \\ 1 & if drug \end{cases}

$treatment = \begin{cases} 0 & \text{if placebo} \\ 1 & \text{if drug} \end{cases}$

Jika demikian, Anda berakhir dengan rumus berikut untuk : $y_i$

y_{i} = {\begin{cases} β_{0} + 0 \cdot β_{1} = β_{0} & if placebo \\ β_{0} + 1 \cdot β_{1} = β_{0} + β_{1} & if drug \end{cases}

$y_i = \begin{cases} \beta_0 + 0\cdot\beta_1 = \beta_0 & \text{if placebo} \\ \beta_0 + 1\cdot\beta_1 = \beta_0 + \beta_1 & \text{if drug} \end{cases}$

Jadi interpretasi adalah efek dari plasebo dan interpretasi adalah perbedaan antara efek plasebo dan efek obat. Akibatnya, Anda dapat menafsirkan sebagai peningkatan yang ditawarkan obat. $\beta_0$ $\beta_1$ $\beta_1$

Sekarang mari kita lihat : $\{-1,1\}$

Anda kemudian memiliki model berikut (lagi):

y_{i} = β_{0} + t r e a t m e n t \cdot β_{1}

$y_i = \beta_0 + treatment\cdot\beta_1$

tetapi dimana

t r e a t m e n t = {\begin{cases} - 1 & if placebo \\ 1 & if drug \end{cases}

$treatment = \begin{cases} -1 & \text{if placebo} \\ 1 & \text{if drug} \end{cases}$

Jika demikian, Anda berakhir dengan rumus berikut untuk : $y_i$

y_{i} = {\begin{cases} β_{0} + - 1 \cdot β_{1} = β_{0} - β_{1} & if placebo \\ β_{0} + 1 \cdot β_{1} = β_{0} + β_{1} & if drug \end{cases}

$y_i = \begin{cases} \beta_0 + -1\cdot\beta_1 = \beta_0 - \beta_1& \text{if placebo} \\ \beta_0 + 1\cdot\beta_1 = \beta_0 + \beta_1 & \text{if drug} \end{cases}$

Interpretasi di sini adalah bahwa adalah rata-rata dari efek placebo dan efek obat, dan adalah perbedaan dari dua perawatan dengan rata-rata itu. $\beta_0$ $\beta_1$

Jadi, yang mana yang Anda gunakan?

Interpretasi dalam pada dasarnya adalah garis dasar. Anda menetapkan beberapa perawatan standar dan semua perawatan lainnya (mungkin ada beberapa) dibandingkan dengan standar / baseline tersebut. Terutama ketika Anda mulai menambahkan dalam kovariat lain, ini tetap mudah untuk ditafsirkan sehubungan dengan pertanyaan medis standar: bagaimana obat ini dibandingkan dengan plasebo atau obat yang sudah ada? $\beta_0$ $\{0,1\}$

Tetapi pada akhirnya itu semua masalah interpretasi, yang saya jelaskan di atas. Jadi, Anda harus mengevaluasi hipotesis Anda dan memeriksa interpretasi mana yang membuat gambar kesimpulan yang paling mudah.

— JAD
sumber

Konstanta ketika menggunakan -1, 1 pengkodean adalah rata-rata jika jumlah responden dalam kelompok perlakuan sama dengan jumlah responden dalam kelompok kontrol.

— Maarten Buis

@ MaartenBuis Ini adalah rata-rata dari jika desainnya seimbang, tetapi selain itu masih berarti rata-rata dari dua kelompok, yang adalah apa yang saya maksud. Saya mengubah kata-kata untuk mencerminkan hal ini.

y

$y$

— JAD

Bermanfaat. Saya selalu berusaha mendorong penggunaan indikator kata daripada dummy (seperti pada pertanyaan awal!) Untuk setidaknya dua alasan. Pertama, saya telah mendengar terlalu banyak cerita di mana presentasi turun dengan sangat buruk karena istilah-istilah seperti "boneka gender" secara liar disalahartikan sebagai meremehkan atau menyinggung oleh orang-orang yang kurang teknis. Kedua, istilah dummy membuat seluruh perangkat tampak sedikit seperti fudge atau dodge, sedangkan itu adalah metode yang sangat bersih dan elegan. Saya tidak punya banyak kesempatan untuk mengubah praktik yang sudah berurat berakar di beberapa bidang, tapi inilah yang coba.

— Nick Cox

Setuju, itu terdengar lebih profesional juga. Plus itu adalah deskripsi yang lebih baik tentang apa yang sebenarnya dilakukannya.

— JAD

Senang kamu setuju. Berikut adalah cara sederhana untuk menjelaskan: ini disebut indikator karena ini menunjukkan!

— Nick Cox

Dalam konteks regresi linier, adalah metode yang lebih alami (dan standar) untuk mengkodekan variabel biner (apakah menempatkannya di sisi kiri dari sisi kanan dari regresi). Seperti @Jarko Dubbeldam menjelaskan, Anda tentu saja dapat menggunakan interpretasi lain dan arti dari koefisien akan berbeda. $x_i \in \{0, 1\}$

Untuk memberikan contoh dengan cara lain, pengkodean variabel keluaran adalah standar ketika memprogram atau menurunkan matematika yang mendasari mesin vektor dukungan . (Saat memanggil pustaka, Anda ingin meneruskan data dalam format yang diharapkan pustaka, yang mungkin merupakan formulasi 0, 1.) $y_i \in \{-1, 1\}$

Cobalah untuk menggunakan notasi yang merupakan standar untuk apa pun yang Anda lakukan / gunakan.

Untuk segala jenis model linier dengan istilah intersep, kedua metode akan setara dalam arti bahwa mereka terkait oleh transformasi linear sederhana. Secara matematis, tidak masalah apakah Anda menggunakan matriks data atau matriks data mana adalah peringkat penuh. Dalam model linier umum, koefisien estimasi Anda bagaimanapun akan terkait dengan transformasi linear dan nilai-nilai yang dipasang akan sama. $X$ $\tilde{X} = XA$ $A$ $A$ $\hat{y}$

— Matthew Gunn
sumber

+1, saya tidak dapat memikirkan pengaturan tempat digunakan.

{- 1, 1}

$\{-1,1\}$

— JAD

AdaBoost adalah contoh lain yang menggunakan

y_{i} \in {- 1, 1}

$y_i\in\{-1,1\}$

— Francis

Secara umum, Anda bisa mengatakan bahwa digunakan terutama dalam klasifikasi, karena itu membuat menerapkan fungsi tanda cara yang layak untuk mengklasifikasikan.

{- 1, 1}

$\{-1,1\}$

— JAD

@matthewgunn Penulis sedang membicarakan kovariat, yaitu input bukan output. {-1, 1} masuk akal untuk vektor dukungan untuk output tetapi tidak masalah untuk input. Lihat di sini: en.wikipedia.org/wiki/Support_vector_machine#Linear_SVM

— Francisco Arceo

@FranciscoArceo Point diambil; Saya telah mengeditnya agar lebih tepat.

— Matthew Gunn

Ini lebih abstrak (dan mungkin tidak berguna), tetapi saya akan perhatikan bahwa dua representasi ini, dalam arti matematika, sebenarnya representasi kelompok, dan ada isomorfisme di antara mereka.

Arti dari variabel indikator , pada dasarnya boolean, adalah "faktor benar" atau "faktor salah". Dengan dua kejadian dan , Anda mungkin bertanya "apakah faktor-faktor dari kedua peristiwa ini setara, misalnya apakah keduanya benar atau keduanya salah?" Dalam logika boolean, ini adalah . Ini mendefinisikan struktur grup . Sekarang, dan keduanya merupakan representasi dari grup ini, dengan operasi grup dan , masing-masing. Isomorfisme dari representasi pertama ke yang kedua diberikan oleh $T$ $T_1$ $T_2$ $T_1 \Leftrightarrow T_2$ $\mathbb{Z}_2$ ${1,0}$ ${1,-1}$ $a \Leftrightarrow b = 1 - (a+b)$ $a \Leftrightarrow b = ab$ $\phi(a) = 2*a-1$ .

Representasi ini juga meluas ke variabel indikator berkelanjutan, yaitu probabilitas. Jika adalah probabilitas untuk untuk menjadi benar, maka probabilitas untuk menjadi benar adalah . Di bawah isomorfisme , ini adalah . Kuantitas adalah indikator yang ditandatangani antara -1 dan 1. Jadi, perhitungan tentang probabilitas operasi boolean seringkali lebih sederhana dalam basis ini. $p$ $T$ $T \Leftrightarrow T'$ $p' \Leftrightarrow p = pp' + (1-p)(1-p')$ $t(p) = 2p-1$ $t \Leftrightarrow t' = tt'$ $t$

— jwimberley
sumber

Ini mengesankan, tetapi saya merasa cukup untuk berkomentar bahwa setiap korespondensi yang valid antara {-1, 1} dan {0, 1} harus satu banding satu: tidak perlu untuk meminta apapun selain matematika SMA. Kami tentu berbicara tentang informasi yang sama, hanya kode yang berbeda.

— Nick Cox