Memilih antara regresi logistik dan Mann Whitney / uji-t


8

Saya memiliki variabel dikotomis , yang tidak memiliki proporsi yang ditentukan secara apriori dari 0 dan 1, dan variabel kontinu .Ab

Dalam skenario 1, saya memutuskan untuk menunjuk sebagai variabel independen , dan sebagai variabel dependen . Saya kemudian menguji terhadap menggunakan tes seperti Mann Whitney (bebas distribusi), uji-t (distribusi normal), dll.AXbyXy

Dalam skenario 2, saya memutuskan untuk menunjuk sebagai variabel dependen , dan sebagai variabel independen . Saya kemudian menguji terhadap menggunakan regresi logistik.AYbxxY

  1. Model mana yang harus saya pilih ketika saya tidak tahu arah hubungan antara dan , yaitu saya tidak bisa memutuskan apakah adalah variabel independen atau adalah variabel independen?AbAb

  2. Jika saya tidak yakin mana yang merupakan variabel dependen atau independen, apakah tidak valid bagi saya untuk menggunakan uji-t / Mann-Whitney pada contoh pertama sebagai semacam analisis univariat, dan kemudian menggunakan regresi logistik sebagai analisis multivariat?

Jawaban:


6

Jawaban untuk pertanyaan 1 akan tergantung pada pertanyaan penelitian Anda, dan siapa audiens untuk hasilnya.

Jika pertanyaan penelitian Anda menunjuk pada berbicara tentang perbedaan dalam b berdasarkan profil A, maka itu jelas akan membantu membingkai ringkasan Anda. Dalam sebuah studi epidemiologi, bahkan jika Anda tidak mengambil sampel berdasarkan A (variabel independen sebagai status terbuka / tidak terpajan) masih masuk akal untuk menggunakan klasifikasi ini sebagai variabel independen [paparan] dan variabel kontinu sebagai variabel dependen [hasil ] Sepertinya Anda sudah tahu jawabannya.

Anda juga harus mempertimbangkan bagaimana Anda dapat menafsirkan hasil dalam hal menyajikan hasil kepada orang lain (dan menafsirkannya sendiri). Model [hasil] variabel kontinyu sebagai variabel dependen akan memiliki perbedaan rata-rata (atau serupa) sebagai satu ringkasan; model dikotomus-variabel-sebagai-hasil akan memiliki rasio peluang (rasio peningkatan peluang per satu unit variabel kontinu, yang dapat diskalakan untuk memberikan misalnya peningkatan relatif per lima kilogram berat tambahan untuk kemungkinan diabetes tipe II.)

Pengalaman saya dari pengaturan konsultasi dan menjelaskan hal ini kepada orang-orang adalah bahwa yang pertama (perbedaan dalam rata-rata) umumnya lebih mudah dijelaskan kepada orang lain daripada yang terakhir (rasio odds per satu unit perbedaan dari variabel independen kontinu.)

Untuk pertanyaan Anda 2 , jika Anda ingin menjalankan model multivariabel, di mana Anda mengendalikan kovariat, maka akan membantu untuk memilih variabel dependen / independen di awal. Mungkin lebih baik untuk tetap dengan metode yang sama dari analisis univariat ke multivariabel, daripada mengubah antara dua pendekatan, hanya dari kemudahan penjelasan.

Catatan akhir pada poin terakhir ini: dari perspektif pengujian hipotesis, regresi logistik dengan variabel independen kontinu [eksposur] dan variabel dependen dikotomis tunggal harus mengembalikan nilai-p yang sama dengan uji-t tidak berpasangan dengan asumsi perbedaan tidak sama dengan variabel. terbalik (dari memori - saya tidak sepenuhnya yakin apakah ini selalu benar.)


2
Menjawab pertanyaan ini ( stats.stackexchange.com/questions/48381/... ) Saya menemukan makalah berikut yang secara resmi membahas kesetaraan daya antara regresi logistik biner dan uji-t ncbi.nlm.nih.gov/pubmed/9699234
James Stanley

6

Tes Wilcoxon-Mann-Whitney adalah kasus khusus dari model logistik ordinal odds proporsional sehingga Anda bisa mengatakan tidak perlu mengubah model untuk menggunakan regresi logistik. Tetapi masalah mendasar dalam memilih model adalah menentukan variabel mana yang masuk akal untuk disesuaikan.


2
Milik Anda adalah gagasan yang sangat menarik dan tajam, @ jujur, tetapi tidak terperinci. Tolong jelaskan untuk saya: apa 'kasus khusus' ini ketika regresi logistik ordinal dari variabel kuantitatif pada variabel dikotomis persis sama dengan tes Mann-Whitney?
ttnphns

1
Model odds proporsional dengan hanya serangkaian variabel dummy sebagai prediktor, mewakili kelompok k, setara dengan ANOVA peringkat Kruskal-Wallis dengan kelompok k (k = 2 -> Wilcoxon). Pembilang statistik skor adalah statistik peringkat ANOVA (Wilcoxon).
Frank Harrell

1
Tolong, @Jujur, dapatkah Anda menemukan waktu untuk menunjukkan (membuktikan) kesetaraan pada beberapa data kecil tepat dalam jawaban Anda? Itu akan menarik dan penting. Referensi, jika ada, mungkin bagus juga. Terimakasih banyak.
ttnphns

1
Lihat Whitehead, John: Perhitungan ukuran sampel untuk data kategorikal yang diurutkan. Statistik dalam Kedokteran 12 : 2257-2271; 1993. Lihat surat kepada editor SM 15: 1065-6 untuk kasus biner, lihat errata di SM 13: 871 1994
Frank Harrell

2
Bisakah Anda mengembangkan kalimat terakhir dalam jawabannya? Terima kasih.
jetistat001

1

Itu merupakan upaya jawaban parsial:

Saya akan menggunakan tes Mann Whitney karena lebih sedikit membuat asumsi. Regresi logistik mengasumsikan bentuk dekat (yaitu logit) untuk hubungan antara dua variabel ini). Selain itu, regresi logistik mengasumsikan bahwa adalah Bernoulli diberikan : jika ini bukan kasusnya (misalnya, jumlah sampel apriori dengan dan seperti dalam studi kasus-kontrol) dipilih, saya tidak yakin apakah hasilnya (seperti nilai-p) akan tetap bertahan. Namun, saya sudah melihat banyak orang melakukan ini.YXY=1Y=0

Di sisi lain, Mann Whitney tampaknya tidak memiliki masalah dengan ini, yaitu, ia memegang atau tidak itu adalah studi kasus-kontrol.


1
1 ulang apriori konstitusi . Ini poin penting dan saya seharusnya menyebutkan bahwa tidak ada jumlah sampel apriori dalam skenario yang saya gambarkan, dan memang mengikuti Bernoulli. Dalam mendukung LR, dapat dikatakan bahwa LR menawarkan analisis multivariat. Adakah gagasan tentang penggunaan keduanya secara berurutan? YY
jetistat001

Nah, regresi logistik secara khusus dirancang untuk bekerja dengan studi kasus-kontrol, lihat stats.stackexchange.com/questions/67903/…
kjetil b halvorsen

0

Seperti halnya banyak pertanyaan, jawabannya tergantung pada tujuan mendasar Anda dalam melakukan analisis. Jika Anda tertarik untuk tidak hanya menunjukkan bahwa ada hubungan yang signifikan antara variabel dikotomis A dan variabel kontinu b, tetapi juga mampu menghitung kemungkinan yang diharapkan dari peristiwa yang dicatat dalam variabel A, maka Anda ingin menggunakan logistik regresi, karena pendekatan ini memberi Anda persamaan regresi. Selain itu, regresi logistik dalam kasus bivariat A dan b dapat diperluas ke kasus multivariat dalam memprediksi A dari b dan banyak variabel independen lainnya untuk tujuan mengendalikan kovariat, menguji model mediasional, memeriksa interaksi, dan semua hal baik lain yang bisa kita lakukan dengan regresi berganda. Setelah mengatakan itu, Anda mungkin harus mempertimbangkan fungsi tautan yang menghubungkan variabel dikotomis A dengan variabel kontinu B. Regresi logistik menggunakan tautan logit, yang lebih tepat ketika probabilitas hasilnya sangat tinggi atau rendah, sementara tautan probit mungkin lebih tepat ketika kemungkinan acara lebih dekat dengan .5 Memilih fungsi tautan yang sesuai untuk data Anda adalah penting untuk membangun model regresi yang baik. Beberapa informasi lebih lanjut tentang fungsi tautan dapat ditemukan di tautan berikut: 5 Memilih fungsi tautan yang sesuai untuk data Anda adalah penting untuk membangun model regresi yang baik. Beberapa informasi lebih lanjut tentang fungsi tautan dapat ditemukan di tautan berikut: 5 Memilih fungsi tautan yang sesuai untuk data Anda adalah penting untuk membangun model regresi yang baik. Beberapa informasi lebih lanjut tentang fungsi tautan dapat ditemukan di tautan berikut:

http://www.stat.ufl.edu/CourseINFO/STA6167/logistregSFLM.pdf

http://www.norusis.com/pdf/ASPC_v13.pdf


2
Saya tidak berpikir pilihan antara menggunakan tautan logit & probit memiliki banyak hal untuk dilakukan w / apakah probabilitasnya mendekati 0,5. Saya telah menulis tentang pilihan tautan di sini: model selisih antara logit dan probit . Saya telah mendengar orang menyarankan cloglogketika kategori respons tidak seimbang, tetapi ada opsi lain.
gung - Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.