Pemeringkatan variabel kategori dalam regresi logistik


8

Saya sedang melakukan penelitian menggunakan regresi logistik. 10 variabel mempengaruhi variabel dependen. Salah satu yang disebutkan di atas adalah kategorikal (mis., Pengiriman ekspres, pengiriman standar, dll.). Sekarang saya ingin peringkat kategori-kategori tersebut berdasarkan "kekuatan" efeknya pada variabel dependen.

Mereka semua signifikan (nilai p kecil), tapi saya pikir saya tidak bisa hanya menggunakan nilai peluang untuk tujuan peringkat. Entah bagaimana saya perlu mencari tahu, jika masing-masing kategori juga berbeda secara signifikan dari kategori lainnya. Apakah ini benar?

Saya membaca tentang kemungkinan memusatkan variabel. Apakah ini benar-benar pilihan? Saya tidak ingin sisa model saya terpengaruh.


Output stata untuk mendukung komentar saya ke pos @ subra:

Average marginal effects                          Number of obs   =     124773
Model VCE    : OIM

Expression   : Pr(return), predict()
dy/dx w.r.t. : ExpDel

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel |   .1054605   .0147972     7.36   0.000     .0798584    .1378626
------------------------------------------------------------------------------

Jawaban:


1

Karena Anda tertarik untuk memberi peringkat pada kategori, Anda mungkin ingin membuat kode ulang variabel kategorikal menjadi sejumlah variabel biner yang terpisah.

Contoh: Buat variabel biner untuk pengiriman ekspres - yang akan mengambil nilai 1 untuk kasus pengiriman ekspres dan 0 sebaliknya. Demikian pula, variabel biner untuk pengiriman standar.

Untuk masing-masing variabel biner yang direkode ulang ini, Anda dapat menghitung efek marginal seperti yang ditunjukkan di bawah ini:

Rumus

Izinkan saya menjelaskan sedikit tentang persamaan di atas: katakanlah d adalah variabel biner ulang kode untuk pengiriman ekspres

Rumus adalah probabilitas kejadian dievaluasi pada rata-rata ketika d = 1

Rumus adalah probabilitas kejadian dievaluasi pada rata-rata ketika d = 0

Setelah Anda menghitung efek marginal untuk semua kategori (variabel biner yang dikodekan ulang), Anda dapat memeringkatnya.


Terima kasih banyak atas kiriman Anda, subra. Saya mencoba untuk tetap berpegang pada instruksi Anda dan menyelesaikan perintah ". Margin, dydx (ExpDel)" di stata. Anda menemukan output di posting asli saya. Apakah saya perlu menjalankan perintah ini di atas semua variabel kategorikal (dan sekarang biner) saya ingin memberi peringkat dan kemudian hanya perlu membandingkan nilai dy / dx? Semakin tinggi pengaruh pada variabel dependen saya? Terima kasih banyak!
Lukas

@ Lukas: Ya, Anda benar. Dalam Stata, untuk data diskrit, 'margin' sebenarnya menghitung efek perubahan diskrit dari co-variate. Oleh karena itu, Anda hanya perlu membandingkan dy / dx (dari margin) untuk semua kategori (sekarang biner). Semakin tinggi nilainya semakin besar pengaruhnya.
subra

@ subra: Terima kasih telah mengklarifikasi. Prosedur yang disebutkan di atas mengarah ke peringkat yang sama seolah-olah saya hanya akan memeringkat koefisien logit masing-masing. Saya masih tidak yakin tentang mengapa saya bisa merujuk pada efek marginal untuk tujuan pemeringkatan dan bukan pada koefisien logit. Apakah Anda memiliki sumber yang dapat Anda rekomendasikan untuk bacaan lebih lanjut? Selain itu, saya tidak yakin mengapa saya harus menggunakan perintah stata yang disebutkan di atas dan tidak menambahkan, misalnya, "berarti" untuk menggunakan sarana variabel lain untuk tujuan perbandingan. Terima kasih banyak.
Lukas

@ Lucas: Ya, Anda ritus. Jika Anda hanya ingin memberi peringkat pada prediktor, maka koefisien logit sudah cukup. Saya tidak jelas dengan bagian kedua dari pertanyaan Anda. jika Anda bertanya mengapa kami harus mengevaluasi efek marginal, silakan periksa pos berikut: stats.stackexchange.com/questions/167811/…
subra

-2

Anda dapat menyesuaikan model regresi logistik hanya menggunakan 1 variabel pada saat itu dan memeriksa R2 yang disesuaikan.

Yang menjelaskan sebagian besar varians harus memiliki dampak lebih pada model ...

Saya hanya menebak, tidak yakin bahwa itu adalah solusi yang ketat ...


4
Tidak ada yang hanya akan memberikan langkah-langkah asosiasi marjinal.
Frank Harrell

-2

Ini adalah pertanyaan umum dengan banyak jawaban. Yang paling sederhana adalah dengan menggunakan fitur standar; nilai absolut dari koefisien yang kembali kemudian dapat secara longgar ditafsirkan sebagai 'lebih tinggi' = 'lebih banyak pengaruh' pada log (peluang). Untuk sebagian besar, menggunakan skor standar seharusnya tidak mempengaruhi hasil keseluruhan Anda (kurva ROC harus sama; matriks kebingungan harus sama dengan asumsi Anda memilih ambang keputusan yang sebanding). Saya biasanya menghitung regresi dua arah; sekali menggunakan skor mentah (untuk mendapatkan persamaan prediksi yang akan saya gunakan) dan kedua kalinya menggunakan skor standar untuk melihat mana yang terbesar.

Sedangkan untuk prediktor kategori, saya berasumsi (tetapi belum memeriksa) bahwa hal yang sama berlaku ketika menggunakan prediktor dinormalisasi.

Jika Anda belum melakukannya, Anda juga harus mempertimbangkan menggunakan regularisasi: Lasso / ridge / elastic net. Ini akan membantu fitur yang lemah, tidak relevan atau berlebihan untuk keluar, meninggalkan Anda dengan model yang lebih pelit.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.