Pertanyaan yang diberi tag «categorical-encoding»

Merupakan variabel kategori sebagai set variabel numerik. Diperlukan dalam banyak jenis analisis bagi mereka untuk memproses data kategorikal. Contoh umum adalah menggunakan prediktor kategori dalam regresi / ANOVA melalui pengkodean dummy, pengkodean efek, pengkodean Helmert, kontras yang ditentukan pengguna, dll.

4
Apa itu matriks kontras?
Apa sebenarnya matriks kontras (istilah, yang berkaitan dengan analisis dengan prediktor kategoris) dan bagaimana tepatnya matriks kontras ditentukan? Yaitu apa kolom, apa baris, apa kendala pada matriks itu dan apa arti angka dalam kolom jdan baris i? Saya mencoba melihat ke dalam dokumen dan web tetapi tampaknya semua orang menggunakannya …



1
Menjatuhkan salah satu kolom saat menggunakan pengkodean satu-panas
Pemahaman saya adalah bahwa dalam pembelajaran mesin itu bisa menjadi masalah jika dataset Anda memiliki fitur yang sangat berkorelasi, karena mereka secara efektif menyandikan informasi yang sama. Baru-baru ini seseorang menunjukkan bahwa ketika Anda melakukan enkode satu-panas pada variabel kategori Anda berakhir dengan fitur yang berkorelasi, jadi Anda harus membuang …

3
Kapan seseorang harus menggunakan regresi berganda dengan coding dummy vs. ANCOVA?
Saya baru-baru ini menganalisis percobaan yang memanipulasi 2 variabel kategori dan satu variabel kontinu menggunakan ANCOVA. Namun, peninjau menyarankan bahwa regresi berganda dengan variabel kategori dikodekan sebagai variabel dummy adalah tes yang lebih tepat untuk eksperimen dengan variabel kategorikal dan kontinu. Kapan sebaiknya menggunakan ANCOVA vs regresi berganda dengan variabel …


5
Cara mengkode ulang variabel kategori menjadi variabel numerik saat menggunakan SVM atau Neural Network
Untuk menggunakan SVM atau Neural Network perlu mengubah (menyandikan) variabel kategorikal menjadi variabel numerik, metode normal dalam hal ini adalah dengan menggunakan nilai biner 0-1 dengan nilai k-th kategori ditransformasikan menjadi (0,0, .. ., 1,0, ... 0) (1 ada di posisi k-th). Apakah ada metode lain untuk melakukan ini, terutama …

1
Bagaimana memperlakukan prediktor kategoris di LASSO
Saya menjalankan LASSO yang memiliki beberapa prediktor variabel variabel dan beberapa yang kontinu. Saya punya pertanyaan tentang variabel kategori. Langkah pertama yang saya mengerti adalah memecah mereka masing-masing menjadi boneka, membakukan mereka untuk hukuman yang adil, dan kemudian mundur. Beberapa opsi muncul untuk merawat variabel dummy: Masukkan semua kecuali satu …

2
Pengodean variabel kualitatif dalam regresi mengarah ke "singularitas"
Saya memiliki variabel independen yang disebut "kualitas"; variabel ini memiliki 3 modalitas respons (kualitas buruk; kualitas sedang; kualitas tinggi). Saya ingin memperkenalkan variabel independen ini ke dalam regresi linier berganda. Ketika saya memiliki variabel independen biner (variabel dummy, saya dapat kode 0/ 1) mudah untuk memperkenalkannya ke dalam model regresi …

2
“Variabel Dummy” versus “variabel indikator” untuk data nominal / kategorikal
"Variabel Dummy" dan "variabel indikator" adalah label yang sering digunakan istilah untuk menggambarkan keanggotaan dalam kategori dengan pengkodean 0/1; biasanya 0: Bukan anggota kategori, 1: Anggota kategori. Pada 11/26/2014 pencarian cepat di scholar.google.com (dengan kutipan terlampir) mengungkapkan "variabel dummy" digunakan di sekitar 318.000 artikel, dan "variabel indikator" digunakan di sekitar …

2
Bagaimana melakukan regresi dengan efek pengkodean alih-alih pengkodean dummy dalam R?
Saat ini saya sedang mengerjakan model regresi di mana saya hanya memiliki variabel kategori / faktor sebagai variabel independen. Variabel dependen saya adalah rasio transformasi logit. Cukup mudah hanya untuk menjalankan regresi normal dalam R, karena R secara otomatis tahu cara mengkodekan boneka begitu mereka adalah tipe "faktor". Namun jenis …

1
Apa saja jenis kode yang tersedia untuk variabel kategorikal (dalam R) dan kapan Anda akan menggunakannya?
Jika Anda cocok dengan model linier atau model campuran ada berbagai jenis pengkodean yang tersedia untuk mengubah varibale kategori atau nominal menjadi sejumlah variabel yang diperkirakan paramaters, seperti dummy conding (standar R) dan pengkodean efek. Saya mendengar bahwa efek pengkodean (kadang-kadang disebut penyimpangan atau pengkodean kontras) lebih disukai ketika Anda …

2
Memahami pembuatan variabel dummy (manual atau otomatis) di GLM
Jika variabel faktor (misalnya jenis kelamin dengan level M dan F) digunakan dalam rumus glm, variabel dummy dibuat, dan dapat ditemukan dalam ringkasan model glm bersama dengan koefisien yang terkait (misalnya genderM) Jika, alih-alih mengandalkan R untuk membagi faktor dengan cara ini, faktor tersebut dikodekan dalam serangkaian variabel 0/1 numerik …

3
Algoritma apa yang membutuhkan pengodean satu-panas?
Saya tidak pernah yakin kapan harus menggunakan pengodean satu-panas untuk variabel kategori yang tidak dipesan dan kapan tidak. Saya menggunakannya setiap kali algoritma menggunakan metrik jarak untuk menghitung kesamaan. Adakah yang bisa memberikan aturan umum tentang apa jenis algoritma akan membutuhkan fitur kategorikal non-teratur menjadi satu-hot-encoded dan mana yang tidak?


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.