Apa cara terbaik untuk memvisualisasikan efek kategori & prevalensinya dalam regresi logistik?


11

Saya perlu memberikan informasi tentang prediktor utama pemilihan kandidat menggunakan data survei opini publik. Saya telah menjalankan regresi logistik menggunakan semua variabel yang saya pedulikan, tetapi saya tidak dapat menemukan cara yang baik untuk menyajikan informasi ini.

Klien saya tidak peduli tentang ukuran efek saja, tetapi tentang interaksi antara ukuran efek dan ukuran populasi dengan atribut tersebut.

Bagaimana saya bisa mengatasinya dalam grafik? Ada saran?

Berikut ini sebuah contoh:

The dari variabel SEX (Laki-laki = 1) ketika variabel dependen adalah Vote / Tidak dalam kandidat 2.3, yang merupakan jumlah yang besar setelah telah exponentiated dan diperlakukan sebagai rasio odds atau probabilitas. Namun, masyarakat di mana survei ini dijalankan hanya memiliki 30% pria. Oleh karena itu, walaupun pria sangat mendukung kandidat ini, jumlah mereka tidak signifikan bagi seorang kandidat yang mencoba untuk memenangkan pemilihan umum.β


FWIW, penggunaan istilah "interaksi" tidak benar (lihat, misalnya di sini atau di sini ). Saya akan mengatakan sesuatu seperti, '... tetapi tentang mengidentifikasi situasi di mana ukuran efeknya besar dan ukuran populasi dengan atribut seperti itu juga besar'.
gung - Reinstate Monica

Jawaban:


10

Saya setuju dengan @PeterFlom bahwa contohnya aneh, tetapi mengesampingkannya, saya perhatikan bahwa variabel penjelasnya adalah kategorikal. Jika itu benar secara konsisten, ini sangat menyederhanakan ini. Saya akan menggunakan plot mosaik untuk menyajikan efek ini. Plot mosaik menampilkan proporsi bersyarat secara vertikal, tetapi lebar setiap kategori diskalakan relatif terhadap proporsi marginalnya (yaitu, tanpa syarat) dalam sampel.

Berikut adalah contoh dengan data dari bencana Titanic, dibuat menggunakan R:

data(Titanic)

sex.table   = margin.table(Titanic, margin=c(2,4))
class.table = margin.table(Titanic, margin=c(1,4))
round(prop.table(t(sex.table), margin=2), digits=3)
#          Sex
# Survived  Male Female
#      No  0.788  0.268
#      Yes 0.212  0.732
round(prop.table(t(class.table), margin=2), digits=3)
#           Class
# Survived   1st   2nd   3rd  Crew
#      No  0.375 0.586 0.748 0.760
#      Yes 0.625 0.414 0.252 0.240

windows(height=3, width=6)
  par(mai=c(.5,.4,.1,0), mfrow=c(1,2))
  mosaicplot(sex.table,   main="")
  mosaicplot(class.table, main="")

masukkan deskripsi gambar di sini

Di sebelah kiri, kita melihat bahwa perempuan jauh lebih mungkin untuk bertahan hidup, tetapi laki-laki menyumbang sekitar 80% dari orang-orang yang ada di dalamnya. Jadi meningkatkan persentase pria yang selamat akan berarti lebih banyak nyawa yang diselamatkan daripada peningkatan yang lebih besar dalam persentase pria yang selamat. Ini agak analog dengan contoh Anda. Ada contoh lain di sebelah kanan di mana kru dan pengawalan merupakan proporsi terbesar orang, tetapi memiliki kemungkinan terendah untuk bertahan hidup. (Untuk apa nilainya, ini bukan analisis lengkap dari data ini, karena kelas dan jenis kelamin juga tidak independen di Titanic, tetapi cukup untuk menggambarkan ide untuk pertanyaan ini.)


5

Saya sedikit penasaran dengan apa masyarakat hanya memiliki 10% laki-laki ... tapi ...

Satu hal yang dapat Anda lakukan adalah plot odds rasio dan beri label masing-masing dengan ukuran sampel.

Jika Anda ingin kedua variabel direpresentasikan secara grafis, Anda dapat membuat bagan gelembung, dengan posisi setiap gelembung pada sumbu y yang cocok dengan ukuran rasio odds dan luas gelembung yang proporsional dengan ukuran sampel.


7
Mungkin yang ini .
Andre Silva
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.