Menggunakan regresi logistik untuk variabel dependen kontinu


9

Saya mendapat revisi untuk makalah penelitian saya baru-baru ini dan berikut ini adalah komentar pengulas di makalah saya:

hasil yang diperoleh dari satu model tidak cukup meyakinkan terutama regresi linier biasanya memiliki kekurangan dalam menangani outlier. Saya menyarankan penulis juga mencoba regresi logistik dan membandingkan hasil yang sesuai dengan hasil saat ini. Jika pengamatan serupa diperoleh, hasilnya akan lebih solid.

Apakah komentar pengulas benar? Apakah regresi logistik lebih baik daripada regresi linier berganda?

Masalahnya adalah bahwa variabel dependen saya tidak kategorikal, ini adalah variabel skala. Apa yang bisa saya lakukan sekarang? Apa metode regresi lain yang Anda rekomendasikan untuk mengevaluasi model saya?

Skor adalah variabel dependen dalam tabel berikut. Kemutakhiran, frekuensi, masa kerja dan skor terakhir adalah variabel independen.

masukkan deskripsi gambar di sini

Saya sudah diekstrak variabel-variabel ini dari sebuah situs dan saya berhipotesis bahwa ini variabel independen memiliki pengaruh yang signifikan pada skor . Oleh karena itu, saya mewakili model-model berikut:

masukkan deskripsi gambar di sini


Omong-omong, nilai R kuadrat untuk model linier ini adalah 0,316! Peninjau juga mengomentari nilai ini juga:

maka hasilnya tidak meyakinkan karena tidak ada indikator pada kualitas koefisien yang dipelajari. R ^ 2 kecil tidak dapat menunjukkan kinerja yang baik karena modelnya mungkin terlalu pas.

Apakah 0,316 sangat rendah untuk R kuadrat? Dalam makalah sebelumnya saya sering melihat nilai yang sama.

masukkan deskripsi gambar di sini


Ini adalah poin kecil, tetapi memahami bagaimana skor dihitung dapat membantu dalam memberikan jawaban yang baik. Bisakah Anda mengedit pertanyaan Anda untuk memberi tahu kami tentang itu?
Whuber

Saya mengedit posting saya. pengetahuan statistik saya tidak bagus. Saya akan sangat berterima kasih jika Anda membantu.
PSS

1
apakah tidak ada ide tentang menjalankan regresi logistik pada variabel dependen terus menerus ???
PSS

1
Apakah skornya antara 0 dan 100? Dalam hal ini Anda bisa membaginya dengan 100 dan melakukan regresi logistik pada variabel yang dihasilkan, yang akan selalu antara 0 dan 1 ... terasa agak aneh melakukan hal-hal seperti itu, dan saya tidak yakin seberapa masuk akal itu, tetapi mungkin itu yang disarankan pengulas?
Sam Livingstone

2
Tidak, mengubah ke 0-1 atau membuang informasi berharga y mengkategorikan skor bukanlah solusi yang baik sama sekali.
Frank Harrell

Jawaban:


7

Yormrms


Saya menginstal R dan semua paket yang diperlukan. tolong beri beberapa contoh untuk fungsi orm? Saya tidak menemukan dengan mencari. Untuk model regresi saya, kode apa yang seharusnya?
PSS

1
Y

1

Anda juga dapat mencoba model probit / logit yang dipesan dengan menetapkan nilai 1, 2,3, dan 4 untuk skor pada 1, ....., 4 persentil masing-masing.


Variabel mana yang Anda usulkan dikurangi menjadi empat persentil terendah (dari 100)? Apa yang akan dicapai dan mengapa?
Whuber

-1

Anda dapat mendikotomise (mengkonversi ke variabel biner) skor. Jika skor dari 0 hingga 100 maka Anda dapat menetapkan 0 untuk skor apa pun yang kurang dari 50 dan 1 jika tidak. Saya belum pernah mendengar bahwa ini cara yang baik untuk berurusan dengan outlier. Ini mungkin hanya menyembunyikan outlier karena tidak mungkin membedakan skor yang sangat tinggi atau rendah. Ini tidak masuk akal bagi saya, tetapi Anda bisa mencobanya.

βR2

R2R2

Saya tidak akan berpura-pura tahu banyak tentang statistik tetapi menurut saya, berdasarkan komentarnya, resensi ini mungkin tahu lebih sedikit.


Terima kasih banyak atas balasan Anda. Karena semua variabel miring, jadi saya minta mereka log-transformed alami. Apakah saya benar? Terima kasih telah mengklarifikasi apa arti "overfitting"! Sebenarnya, saya tidak tahu apa artinya overfitting. Sekarang, saya dapat membalas resensi dan editor. Ngomong-ngomong, apa rekomendasi Anda untuk membuat evaluasi saya lebih solid? metode regresi apa yang menurut Anda lebih baik?
PSS

6
Y

Saya setuju dengan @FrankHarrell bahwa memilih ambang batas arbitrer untuk mendikotomasi data Anda tidak masuk akal. Apakah ini seluruh dataset Anda? Jika Anda memiliki begitu sedikit pengamatan, data Anda tidak akan pernah terlihat berdistribusi normal! Anda juga perlu memahami jenis data yang Anda hadapi juga. Rentang nilai apa yang dapat mereka ambil, apakah masuk akal untuk menganggap bahwa mereka seharusnya didistribusikan secara normal? Saya akan melihat saran Frank untuk menggunakan regresi logistik ordinal, tetapi tebakan saya adalah bahwa ia menggunakan urutan skor bukannya nilai mereka dalam regresi.
pontikos

@ PotentialScientist, tidak masalah jika distribusi Anda miring. Dalam regresi OLS (khas), hanya distribusi residu yang penting, lihat di sini: apa-jika-residual-yang-biasanya-didistribusikan-tetapi-y-bukan-tidak . Anda mungkin juga ingin membaca ini: interpretasi-of-log-transformed-predictor , untuk memahami apa yang terjadi pada model Anda sebagai hasil dari mengubah prediksi Anda.
gung - Reinstate Monica

@ PotentialScientist, bagaimana kabarmu? Jika Anda mengedit pertanyaan Anda untuk memberikan data dalam format CSV, saya dapat mencoba menjalankan fungsi orm yang disarankan oleh Prof Harrell dan kami dapat menganalisis hasilnya. Layak Anda mempelajari dasar-dasar R (cara membaca dalam file dan menjalankan regresi).
pontikos

-1

Dimungkinkan untuk menerapkan regresi logistik bahkan untuk variabel dependen kontinu. Masuk akal, jika Anda ingin memastikan bahwa prediksi scoreselalu ada di dalam [0, 100](saya menilai dari tangkapan layar Anda bahwa itu dalam skala 100 poin).

Untuk mencapainya, cukup bagi skor Anda dengan 100, dan jalankan regresi logistik dengan [0,1]variabel target berbasis ini, seperti dalam pertanyaan ini - Anda dapat melakukannya, misalnya, dengan R, menggunakan

glm(y~x, family="binomial", data=your.dataframe)

R2

R20.3R2R2

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.