Haruskah Anda membakukan variabel biner?


25

Saya memiliki satu set data dengan serangkaian fitur. Beberapa dari mereka adalah biner aktif atau dipecat, tidak aktif atau aktif), dan sisanya bernilai nyata, misalnya .0 = 4564.342(1=0=4564.342

Saya ingin mengumpankan data ini ke algoritme pembelajaran mesin, jadi saya -score semua fitur bernilai nyata. Saya mendapatkannya antara rentang dan sekitar. Sekarang nilai-nilai biner juga bernilai- , oleh karena itu nol menjadi dan yang menjadi .3 - 2 z - 0,222 0,5555z32z0.2220.5555

Apakah standardisasi variabel biner seperti ini masuk akal?

Jawaban:


14

Membakukan variabel biner tidak masuk akal. Nilai-nilainya arbitrer; mereka tidak berarti apa-apa di dalam dan tentang diri mereka sendiri. Mungkin ada alasan untuk memilih beberapa nilai seperti 0 & 1, sehubungan dengan masalah stabilitas numerik, tapi hanya itu.


bagaimana jika mereka berada di antara 0-100. Seperti yang saya katakan, mereka berarti hal-hal seperti "wajah yang dikenal" dan "wajah yang tidak dikenali", dan 0-100 berarti tingkat kepercayaan diri. Apakah masuk akal untuk skor-z itu?
siamii

Contoh 0-100 Anda terdengar seperti peringkat ordinal. Ada sedikit detail tentang bagaimana menangani terbaik dengan situasi itu & sudah dibahas di CV sedikit. Cari pada tag ordinal untuk mempelajari lebih lanjut.
gung - Reinstate Monica

baik, masalahnya adalah bahwa hanya beberapa variabel yang 0-100. Yang lain misalnya -400 - +400
siamii

Apa masalahnya dengan itu? Apakah ini masalah stabilitas numerik?
gung - Reinstate Monica

mungkin, apakah Anda menyarankan saya tidak mencetak skor?
siamii

14

Variabel biner dengan nilai 0, 1 dapat (biasanya) diskalakan ke (nilai - rata) / SD, yang mungkin merupakan skor z Anda.

Kendala yang paling jelas tentang itu adalah bahwa jika Anda mendapatkan semua nol atau semua yang kemudian memasukkan SD secara membabi buta akan berarti bahwa skor-z tidak pasti. Ada kasus untuk menetapkan nol juga sejauh nilai - rata sama dengan nol. Tetapi banyak hal statistik tidak masuk akal jika suatu variabel benar-benar konstan. Namun, secara umum, jika SD kecil, ada risiko lebih besar bahwa skor tidak stabil dan / atau tidak ditentukan dengan baik.

Masalah dalam memberikan jawaban yang lebih baik untuk pertanyaan Anda adalah apa yang sedang dipertimbangkan oleh "algoritma pembelajaran mesin". Kedengarannya seperti suatu algoritma yang menggabungkan data untuk beberapa variabel, dan biasanya masuk akal untuk menyediakannya pada skala yang sama.

(KEMUDIAN) Ketika poster asli menambahkan komentar satu per satu, pertanyaan mereka adalah morphing. Saya masih menganggap bahwa (nilai - mean) / SD masuk akal (yaitu tidak masuk akal) untuk variabel biner selama SD positif. Namun, regresi logistik kemudian dinamai sebagai aplikasi dan untuk ini tidak ada keuntungan teoritis atau praktis (dan memang beberapa kehilangan kesederhanaan) untuk apa pun selain memberi makan dalam variabel biner sebagai 0, 1. Perangkat lunak Anda harus dapat mengatasi dengan baik dengan bahwa; jika tidak, tinggalkan perangkat lunak yang mendukung program yang bisa. Dalam hal pertanyaan judul: bisa, ya; seharusnya, tidak.


3
Jawaban singkatnya adalah tidak ada bedanya dan saya tidak melihat alasan mengapa mengubah 0, 1 menjadi z-skor akan membantu apa pun dalam situasi ini. Untuk meyakinkan diri sendiri, cobalah dua arah dan lihat tidak ada perubahan penting.
Nick Cox

3
Sebaliknya, saya pikir kebanyakan orang akan menggunakan 0, 1 di sini.
Nick Cox

1
Ketika Anda melakukan regresi logistik, perangkat lunak hampir pasti akan melakukan standarisasi di bawah tenda (untuk mencapai sifat numerik yang lebih baik). Maka itu adalah ide yang baik untuk menjaga indikator biner diekspresikan dengan cara yang bermakna. Membakukannya tidak terdengar baik atau berguna.
Whuber

1
Metode pembelajaran mesin yang mengharuskan Anda untuk "membakukan" prediktor biner dicurigai.
Frank Harrell

2
Karena ini implementasi Anda sendiri, maka tidak ada orang lain yang memiliki dasar untuk memberi Anda jawaban yang objektif! Anda perlu memeriksa bagaimana perangkat lunak Anda memperlakukan data untuk memutuskan apakah standardisasi sebelumnya masuk akal.
whuber

3

Salah satu contoh yang baik di mana dapat berguna untuk melakukan standarisasi dengan cara yang sedikit berbeda diberikan dalam bagian 4.2 dari Gelman dan Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Ini sebagian besar ketika interpretasi koefisien menarik, dan mungkin ketika tidak ada banyak prediktor.

Di sana, mereka membakukan variabel biner (dengan proporsi yang sama 0 dan 1) dengan bukannyaσnormal. Kemudian koefisien terstandarisasi ini mengambil nilai±0,5dan kemudian koefisien tersebut mencerminkan perbandingan antarax=0danx=1secara langsung. Jika skala olehσbukan maka koefisien akan sesuai dengan setengah perbedaan antara nilai yang mungkin darix.

x-μx2σx,
σ±0,5x=0x=1σx

Tolong jelaskan "dengan proporsi yang sama dengan 0 dan 1" karena variabel biner yang saya lihat jarang seperti itu.
Nick Cox

Saya tidak berpikir proporsi sebenarnya akan membuat perbedaan, mereka hanya menggunakannya untuk menjadikan contoh lebih bersih.
Siswa Gosset

1

Apa yang ingin Anda standarisasi, variabel acak biner, atau proporsi?

Y:SRY{0,1}

X[0,1]xR+


0

Dalam regresi logistik, variabel biner dapat distandarisasi untuk menggabungkannya dengan continuous vars ketika Anda ingin memberikan semuanya non-informatif sebelumnya seperti N ~ (0,5) atau Cauchy ~ (0,5). Standarisasi disarankan sebagai berikut: Ambil jumlah total dan berikan

1 = proporsi 1

0 = 1 - proporsi 1.

-----

Sunting: Sebenarnya saya tidak benar sama sekali, itu bukan standardisasi tetapi pergeseran untuk dipusatkan pada 0 dan berbeda dengan 1 dalam kondisi bawah dan atas, katakanlah bahwa populasi adalah 30% dengan perusahaan A dan 70% lainnya, kita dapat mendefinisikan variabel "Perusahaan A" terpusat untuk mengambil nilai -0,3 dan 0,7.


Tidak dapat memahaminya sebagai standardisasi.
Michael R. Chernick
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.