Jawaban:
@ Scortchi memberi Anda jawaban tentang Coding untuk kovariat yang dipesan . Saya telah mengulangi rekomendasi pada jawaban saya untuk Pengaruh dua IV demografis pada jawaban survei (skala Likert) . Secara khusus, rekomendasinya adalah menggunakan Gertheiss' (2013) ordPens paket , dan untuk merujuk Gertheiss dan Tutz (2009a) untuk latar belakang teoritis dan studi simulasi.
Fungsi spesifik yang mungkin Anda inginkan adalah ordSmooth
* . Ini pada dasarnya menghaluskan koefisien boneka di seluruh level variabel ordinal menjadi kurang berbeda dari yang untuk peringkat yang berdekatan, yang mengurangi overfitting dan meningkatkan prediksi. Biasanya berkinerja sebaik atau (kadang-kadang jauh) lebih baik daripada kemungkinan maksimum (yaitu, kuadrat terkecil biasa dalam kasus ini) estimasi model regresi untuk data kontinu (atau dalam istilah mereka, metrik) ketika data sebenarnya ordinal. Tampaknya kompatibel dengan semua jenis model linier umum, dan memungkinkan Anda untuk memasukkan prediktor nominal dan kontinu sebagai matriks terpisah.
Beberapa referensi tambahan dari Gertheiss, Tutz, dan rekan tersedia dan terdaftar di bawah ini. Beberapa di antaranya mungkin berisi alternatif - bahkan Gertheiss dan Tutz (2009a) mendiskusikan reroughing ridge sebagai alternatif lain. Saya belum menggali semuanya sendiri, tetapi cukuplah untuk mengatakan ini memecahkan masalah @ Erik dari terlalu sedikit literatur tentang prediktor ordinal!
Referensi
- Gertheiss, J. (2013, 14 Juni). ordPens: Pemilihan dan / atau pemulusan prediktor ordinal , versi 0.2-1. Diperoleh dari http://cran.r-project.org/web/packages/ordPens/ordPens.pdf .
- Gertheiss, J., Hogger, S., Oberhauser, C., & Tutz, G. (2011). Pemilihan variabel independen berskala normal dengan aplikasi ke klasifikasi internasional set inti yang berfungsi. Jurnal Royal Statistics Society: Seri C (Statistik Terapan), 60 (3), 377–395.
- Gertheiss, J., & Tutz, G. (2009a). Regresi yang dihukum dengan prediktor ordinal. Tinjauan Statistik Internasional, 77 (3), 345–365. Diperoleh dari http://epub.ub.uni-muenchen.de/2100/1/tr015.pdf .
- Gertheiss, J., & Tutz, G. (2009b). Pemilihan fitur yang diawasi dalam profil proteomik berbasis spektrometri massa dengan penguat blockwise. Bioinformatika, 25 (8), 1076-1077.
- Gertheiss, J., & Tutz, G. (2009c). Penskalaan variabel dan metode tetangga terdekat. Jurnal Chemometrics, 23 (3), 149–151. - Gertheiss, J. & Tutz, G. (2010). Pemodelan variabel penjelas kategori yang jarang.
The Annals of Applied Statistics, 4 , 2150–2180.
- Hofner, B., Hothorn, T., Kneib, T., & Schmid, M. (2011). Kerangka kerja untuk pemilihan model yang tidak bias berdasarkan peningkatan. Jurnal Statistik Komputasi dan Grafis, 20 (4), 956–971. Diperoleh dari http://epub.ub.uni-muenchen.de/11243/1/TR072.pdf .
- Oelker, M.-R., Gertheiss, J., & Tutz, G. (2012). Regularisasi dan pemilihan model dengan prediktor kategororial dan pengubah efek dalam model linier umum. Departemen Statistik: Laporan Teknis, No. 122 . Diperoleh dari http://epub.ub.uni-muenchen.de/13082/1/tr.gvcm.cat.pdf .
- Oelker, M.-R., & Tutz, G. (2013). Keluarga umum hukuman untuk menggabungkan berbagai jenis hukuman dalam model terstruktur umum. Departemen Statistik: Laporan Teknis, No. 139 . Diperoleh dari http://epub.ub.uni-muenchen.de/17664/1/tr.pirls.pdf .
- Petry, S., Flexeder, C., & Tutz, G. (2011). Laso berpasangan berpasangan. Departemen Statistik: Laporan Teknis, No. 102. Diperoleh dari http://epub.ub.uni-muenchen.de/12164/1/petry_etal_TR102_2011.pdf .
- Rufibach, K. (2010). Algoritme set aktif untuk memperkirakan parameter dalam model linier umum dengan prediktor terurut. Statistik Komputasi & Analisis Data, 54 (6), 1442–1456. Diperoleh dari http://arxiv.org/pdf/0902.0240.pdf?origin=publication_detail .
- Tutz, G. (2011, Oktober). Metode pengaturan untuk data kategorikal. Munich: Ludwig-Maximilians-Universität. Diperoleh dari http://m.wu.ac.at/it/departments/statmath/resseminar/talktutz.pdf .
- Tutz, G., & Gertheiss, J. (2013). Penilaian berskala sebagai prediktor — Pertanyaan lama tentang tingkat skala dan beberapa jawaban.Psychometrika , 1-20.
Ketika ada banyak prediktor, dan prediktor minat adalah ordinal, seringkali sulit untuk memutuskan bagaimana kode variabel. Pengkodean sebagai kategoris kehilangan informasi pesanan, sementara koding sebagai numerik memaksakan linearitas pada efek dari kategori yang diurutkan yang mungkin jauh dari efek sebenarnya. Untuk yang pertama, regresi isotonik telah diusulkan sebagai cara untuk mengatasi non-monotonisitas, tetapi ini merupakan prosedur pemilihan model yang digerakkan oleh data, yang seperti banyak prosedur lainnya yang digerakkan oleh data, membutuhkan evaluasi yang teliti dari model yang dipasang akhir dan signifikansi parameternya. Untuk yang terakhir, splines mungkin sebagian mengurangi asumsi linearitas yang kaku, tetapi angka masih harus ditugaskan untuk kategori yang dipesan, dan hasilnya sensitif terhadap pilihan ini. Dalam makalah kami (Li dan Gembala, 2010, Pendahuluan, paragraf 3-5),
Membiarkan menjadi variabel hasil, menjadi penentu ketertarikan ordinal, dan jadilah kovariat lainnya. Kami telah mengusulkan agar sesuai dengan dua model regresi, satu untuk di Dan lainnya di , hitung residu untuk kedua model, dan evaluasi korelasi antara residu. Dalam Li dan Shepherd (2010), kami mempelajari pendekatan ini ketika adalah ordinal dan menunjukkan bahwa itu bisa menjadi pendekatan kuat yang sangat baik selama efek dari kategori adalah monoton. Kami saat ini mengevaluasi kinerja pendekatan ini pada jenis hasil lainnya.
Pendekatan ini membutuhkan residu yang sesuai untuk regresi ordinal di . Kami mengusulkan residu baru untuk hasil ordinal di Li dan Shepherd (2010) dan menggunakannya untuk membangun statistik uji. Kami selanjutnya mempelajari sifat-sifat dan kegunaan lain dari residu ini dalam kertas terpisah (Li dan Shepherd, 2012).
Kami telah mengembangkan paket R, PResidual , yang tersedia dari CRAN. Paket berisi fungsi untuk melakukan pendekatan kami untuk tipe hasil linear dan ordinal. Kami sedang berupaya untuk menambahkan jenis hasil lainnya (mis., Jumlah) dan fitur (misalnya, memungkinkan interaksi). Paket ini juga berisi fungsi untuk menghitung residu kami, yang merupakan residu skala probabilitas, untuk berbagai model regresi.
Referensi
Li, C. & Shepherd, BE (2010). Uji hubungan antara dua variabel ordinal sambil menyesuaikan untuk kovariat. JASA, 105, 612–620.
Li, C. & Shepherd, BE (2012). Sisa baru untuk hasil ordinal. Biometrika 99, 473-480.
Secara umum ada banyak literatur tentang variabel ordinal sebagai dependen dan sedikit tentang penggunaannya sebagai prediktor. Dalam praktik statistik mereka biasanya dianggap berkelanjutan atau kategorikal. Anda dapat memeriksa apakah model linier dengan prediktor sebagai variabel kontinu terlihat cocok, dengan memeriksa residu.
Mereka terkadang juga dikodekan secara kumulatif. Contohnya adalah untuk variabel ordinal x1 dengan level 1,2 dan 3 memiliki variabel biner d1 untuk x1> 1 dan variabel biner d2 untuk x1> 2. Maka koefisien untuk d1 adalah efek yang Anda dapatkan ketika Anda meningkatkan ordinal Anda menjadi 2 hingga 3 dan koefisien untuk d2 adalah efek yang Anda dapatkan ketika Anda ordinal dari 2 menjadi 3.
Hal ini membuat interpretasi seringkali lebih mudah, tetapi setara dengan menggunakannya sebagai variabel kategori untuk tujuan praktis.
Gelman bahkan menyarankan bahwa seseorang dapat menggunakan prediktor ordinal baik sebagai faktor kategoris (untuk efek utama) dan sebagai variabel kontinu (untuk interaksi) untuk meningkatkan fleksibilitas model.
Strategi pribadi saya biasanya untuk melihat apakah memperlakukan mereka sebagai terus-menerus masuk akal dan menghasilkan model yang masuk akal dan hanya menggunakannya sebagai kategoris jika diperlukan.