Saya memiliki data anggur dari sini yang terdiri dari 11 variabel independen numerik dengan peringkat dependen terkait dengan setiap entri dengan nilai antara 0 dan 10. Ini membuatnya menjadi dataset yang bagus untuk menggunakan model regresi untuk menyelidiki hubungan antara variabel dan yang terkait peringkat. Namun, apakah regresi linier sesuai, atau lebih baik menggunakan regresi logistik multinomial / teratur?
Regresi logistik tampaknya lebih baik diberikan kategori tertentu, yaitu bukan variabel dependen kontinu tetapi (1) ada 11 kategori (agak terlalu banyak?) Dan (2) setelah diperiksa, hanya ada data untuk 6-7 dari kategori tersebut, yaitu sisanya 5-4 kategori tidak memiliki contoh dalam dataset.
Di sisi lain, regresi linier harus secara linear memperkirakan peringkat antara 0-10 yang tampaknya lebih dekat dengan apa yang saya coba cari tahu; namun variabel dependen tidak kontinu dalam dataset.
Mana pendekatan yang lebih baik? Catatan: Saya menggunakan R untuk analisis
Edit, alamat beberapa poin yang disebutkan dalam jawaban:
- Tidak ada tujuan bisnis karena ini sebenarnya untuk kursus universitas. Tugasnya adalah untuk menganalisis dataset pilihan mana yang menurut saya cocok.
- Distribusi peringkat tampak normal (histogram / qq-plot). Nilai aktual dalam dataset adalah antara 3-8 (meskipun secara teknis 0-10).