Regresi linier atau regresi logistik ordinal untuk memprediksi peringkat anggur (dari 0 dan 10)


18

Saya memiliki data anggur dari sini yang terdiri dari 11 variabel independen numerik dengan peringkat dependen terkait dengan setiap entri dengan nilai antara 0 dan 10. Ini membuatnya menjadi dataset yang bagus untuk menggunakan model regresi untuk menyelidiki hubungan antara variabel dan yang terkait peringkat. Namun, apakah regresi linier sesuai, atau lebih baik menggunakan regresi logistik multinomial / teratur?

Regresi logistik tampaknya lebih baik diberikan kategori tertentu, yaitu bukan variabel dependen kontinu tetapi (1) ada 11 kategori (agak terlalu banyak?) Dan (2) setelah diperiksa, hanya ada data untuk 6-7 dari kategori tersebut, yaitu sisanya 5-4 kategori tidak memiliki contoh dalam dataset.

Di sisi lain, regresi linier harus secara linear memperkirakan peringkat antara 0-10 yang tampaknya lebih dekat dengan apa yang saya coba cari tahu; namun variabel dependen tidak kontinu dalam dataset.

Mana pendekatan yang lebih baik? Catatan: Saya menggunakan R untuk analisis

Edit, alamat beberapa poin yang disebutkan dalam jawaban:

  • Tidak ada tujuan bisnis karena ini sebenarnya untuk kursus universitas. Tugasnya adalah untuk menganalisis dataset pilihan mana yang menurut saya cocok.
  • Distribusi peringkat tampak normal (histogram / qq-plot). Nilai aktual dalam dataset adalah antara 3-8 (meskipun secara teknis 0-10).

Jawaban:


9

Model logit yang dipesan lebih tepat karena Anda memiliki variabel dependen yang merupakan peringkat, 7 lebih baik daripada 4 misalnya. Jadi ada aturan yang jelas.

Ini memungkinkan Anda memperoleh probabilitas untuk setiap nampan. Ada beberapa asumsi yang perlu Anda perhitungkan. Anda dapat melihatnya di sini .

Salah satu asumsi yang mendasari regresi logistik ordinal (dan probit ordinal) adalah bahwa hubungan antara setiap pasangan kelompok hasil adalah sama. Dengan kata lain, regresi logistik ordinal mengasumsikan bahwa koefisien yang menggambarkan hubungan antara, katakanlah, yang terendah versus semua kategori yang lebih tinggi dari variabel respon adalah sama dengan yang menggambarkan hubungan antara kategori terendah berikutnya dan semua kategori yang lebih tinggi, dll. Ini disebut asumsi peluang proporsional atau asumsi regresi paralel.

Beberapa kode:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

Anda dapat memiliki penjelasan lebih lanjut di sini , di sini , di sini atau di sini .

Ingatlah bahwa Anda perlu mengubah koefisien Anda menjadi odds ratio dan kemudian ke probabilitas untuk memiliki interpretasi yang jelas dalam hal probabilitas.

Secara langsung (dan sederhana) Anda dapat menghitungnya dengan:

exhal(βsaya)=HAIddsRSebuahtsayaHai

exhal(β1)exhal(βsaya)=PrHaibSebuahbsayalsayaty

(Tidak ingin terlalu teknis)


4

Saya ingin memberikan pandangan lain tentang masalah: Di dunia nyata, kecil kemungkinannya untuk menghadapi pertanyaan ini, karena apa yang harus dilakukan tergantung pada kebutuhan bisnis .

Pertanyaan penting di dunia nyata adalah apa yang harus dilakukan setelah mendapatkan prediksi?

  • 2

  • Misalkan bisnis ingin memilih anggur berkualitas untuk dikirim ke tiga jenis restoran. Maka, klasifikasi multi-kelas akan dibutuhkan.

Singkatnya, saya ingin berdebat bahwa apa yang harus dilakukan benar-benar tergantung pada kebutuhan setelah mendapatkan prediksi, alih-alih hanya melihat atribut dari variabel respons.


1

Meskipun model logit yang dipesan (seperti yang dijelaskan oleh @ adrian1121) akan paling sesuai dalam hal asumsi model, saya pikir regresi linier berganda memiliki beberapa kelebihan juga.

  1. Kemudahan interpretasi . Model linear lebih mudah diinterpretasikan daripada model logit yang dipesan.
  2. Kenyamanan pemangku kepentingan . Pengguna model mungkin lebih nyaman dengan regresi linier karena mereka lebih cenderung mengetahui apa itu.
  3. Lebih pelit (lebih sederhana). Model yang lebih sederhana dapat melakukan juga, lihat topik terkait .

Fakta bahwa sebagian besar respons adalah antara 3-8, menunjukkan kepada saya bahwa model linier dapat bekerja sesuai dengan kebutuhan Anda. Saya tidak mengatakan itu "lebih baik", tetapi mungkin ini pendekatan yang lebih praktis.


0

Pada prinsipnya model logit yang dipesan tampaknya sesuai, tetapi 10 (atau bahkan 7) kategori cukup banyak.

1 / Akhirnya akan masuk akal untuk melakukan pengkodean ulang (misalnya, peringkat 1-4 akan digabung menjadi 1 modalitas tunggal, katakan "peringkat rendah")?

2 / Apa distribusi peringkat? Jika terdistribusi dengan cukup baik, maka regresi linier akan melakukan pekerjaan dengan baik (lihat model probabilitas linier ).

3 / Kalau tidak, saya akan pergi untuk sesuatu yang sama sekali berbeda yang disebut " regresi beta " - Skala peringkat 11 poin adalah sesuatu yang cukup rinci dibandingkan dengan skala 5 poin klasik - Saya pikir akan diterima untuk mempertimbangkan skala peringkat sebagai "intensitas" skala di mana 0 = Null dan 1 = Penuh / Sempurna - Dengan melakukan ini, Anda pada dasarnya akan menganggap bahwa skala Anda adalah tipe interval (bukan yang ordinal), tetapi bagi saya itu terdengar dapat diterima.


3
Mengapa 10 (atau 7) kategori banyak? Apakah ada beberapa alasan teknis mendasar mengapa 10 kategori tidak akan berperilaku sesuai dalam model logit yang dipesan, atau apakah Anda berbicara dari perspektif yang sepenuhnya praktis? (mis. pertimbangan serupa dengan jawaban yang diberikan hxd1011.)
RM

Tidak, tidak ada alasan teknis selama data memungkinkan memperkirakan logit yang dipesan (OL) dengan kategori "sangat banyak". Namun menentukan model OL dengan 11 kategori menyiratkan memperkirakan 10 istilah "konstan" (yaitu, parameter ambang batas) - Kedengarannya banyak bagi saya, terutama jika beberapa kategori tidak terwakili dengan baik dalam database - Perasaan saya adalah bahwa model OL untuk 11 kategori sedikit over-kill, saya akan memperlakukan peringkat sebagai variabel kontinu atau mencabut beberapa modalitas untuk menentukan model OL yang lebih pelit (dan mungkin lebih bermakna).
Umka

-1

Saya bukan spesialis regresi logistik, tetapi saya akan mengatakan bahwa Anda ingin menggunakan multinomial karena variabel dependen diskrit Anda.

Regresi linier dapat menghasilkan koefisien yang dapat diekstrapolasi dari batas-batas yang mungkin dari variabel dependen Anda (yaitu peningkatan variabel independen akan menyebabkan variabel dependen keluar dari batas Anda untuk koefisien regresi yang diberikan).

Regresi multinomial akan memberikan probabilitas yang berbeda untuk hasil yang berbeda dari variabel dependen Anda (yaitu koefisien regresi Anda akan memberi Anda bagaimana mereka meningkatkan probabilitas mereka untuk memberikan skor yang lebih baik, tanpa skor yang keluar dari batas).


3
Multinomial bagus untuk beberapa kategori tidak terurut. Logistik ordinal (apa yang diusulkan OP dalam pertanyaan) baik untuk beberapa kategori yang dipesan.
Gregor --reinstate Monica--

-1

Kemungkinan lain adalah menggunakan Hutan Acak. Ada dua cara untuk mengukur "pentingnya" variabel di bawah Hutan Acak:

  1. XjXjXjYX
  2. XjXj

Hutan Acak juga dapat menerima jenis visualisasi data yang disebut "plot ketergantungan sebagian". Lihat tutorial mendalam ini untuk detail lebih lanjut.

Ketergantungan sebagian dan kepentingan permutasi tidak khusus untuk model Hutan Acak, tetapi popularitas mereka tumbuh seiring dengan popularitas Hutan Acak karena seberapa efisiennya menghitungnya untuk model Hutan Acak.


1
Saya tahu ini adalah jawaban yang agak tangensial, tetapi saya ingin tahu mengapa ini diturunkan. Apakah itu salah?
shadowtalker
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.