Bisakah kita menggunakan variabel independen kategori dalam analisis diskriminan?


Jawaban:


14

Analisis diskriminan mengasumsikan distribusi normal multivariat karena apa yang biasanya kita anggap sebagai prediktor sebenarnya adalah variabel dependen multivariat, dan variabel pengelompokan dianggap sebagai prediktor. Ini berarti bahwa variabel kategori yang harus diperlakukan sebagai prediktor dalam arti yang Anda inginkan tidak ditangani dengan baik. Ini adalah salah satu alasan yang banyak, termasuk saya, menganggap analisis diskriminan telah menjadi usang oleh regresi logistik. Regresi logistik tidak membuat asumsi distribusi dalam bentuk apa pun, di sisi kiri atau kanan model. Regresi logistik adalah model probabilitas langsung dan tidak mengharuskan seseorang untuk menggunakan aturan Bayes untuk mengkonversi hasil menjadi probabilitas seperti halnya analisis diskriminan.


Terima kasih, Tn. Frank Harrell atas tanggapan Anda. Sebenarnya saya ingin membandingkan hasil analisis diskriminat dan regresi logistik (model logit) menggunakan set variabel yang sama. Jadi, untuk tujuan itu jika saya harus menggunakan variabel kategori dalam analisis diskriminan sebagai variabel independen, lalu adakah cara lain?
kuwoli

6

Jawaban singkatnya bukan tidak dari ya.

Satu catatan pendahuluan. Sulit untuk mengatakan apakah variabel yang menghasilkan fungsi diskriminan harus disebut "independen" atau "tergantung". LDA pada dasarnya adalah kasus spesifik dari analisis korelasi Canonical, dan oleh karena itu bersifat ambidirectional. Ini dapat dilihat sebagai MANOVA (dengan variabel kelas sebagai faktor independen) atau, ketika kelas dikotomis, sebagai regresi linier kelas sebagai variabel dependen. Karena itu, tidak cukup legal untuk selalu menentang LDA dengan regresi satu arah seperti logistik.

LDA mengasumsikan bahwa variabel (yang Anda sebut "independen") berasal dari distribusi normal multivariat, karenanya - semuanya kontinu. Asumsi ini penting untuk (1) tahap klasifikasi LDA dan (2) menguji signifikansi diskriminan yang dihasilkan pada tahap ekstraksi. Ekstraksi para diskriminan itu sendiri tidak perlu asumsi.

Namun LDA cukup kuat untuk pelanggaran asumsi yang kadang-kadang dianggap sebagai jaminan untuk melakukannya pada data biner . Bahkan, beberapa orang melakukannya. Korelasi kanonik (yang LDA merupakan kasus khusus) dapat dilakukan di mana kedua set terdiri dari variabel biner atau bahkan biner. Sekali lagi, tidak ada masalah dengan ekstraksi fungsi laten; masalah dengan aplikasi seperti itu berpotensi muncul ketika nilai-p atau objek klasifikasi dipanggil.

Dari variabel biner / ordinal seseorang dapat menghitung korelasi tetrachoric / polychoric dan mengirimkannya ke LDA (jika program memungkinkan untuk memasukkan matriks korelasi sebagai pengganti data); tetapi perhitungan skor diskriminan pada tingkat kasus akan bermasalah.

Pendekatan yang lebih fleksibel adalah mengubah variabel kategori (ordinal, nominal) menjadi kontinu dengan penskalaan / kuantifikasi yang optimal . Analisis korelasi kanonik nonlinier (OVERAL). Ini akan melakukannya di bawah tugas untuk memaksimalkan korelasi kanonik antara kedua belah pihak (variabel kelas dan "prediktor" kategoris). Anda kemudian dapat mencoba LDA dengan variabel yang diubah.

(Multinomial atau binary) regresi logistik dapat menjadi alternatif lain untuk LDA.


Ini jauh lebih terlibat daripada hanya menggunakan model yang dimaksudkan untuk situasi (regresi logistik). Analisis diskriminatif tidak sekuat yang dipikirkan sebagian orang. Sangat mudah untuk menunjukkan dengan prediktor kategori tunggal yang bersifat biner bahwa probabilitas posterior dari da tidak terlalu akurat (misalnya, memprediksi probabilitas suatu peristiwa karena jenis kelamin subjek).
Frank Harrell
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.