Alternatif untuk saringan / mosaik plot untuk tabel kontingensi


17

Saya pernah menemukan jenis plot untuk data kategorikal (yaitu, tabel kontingensi) di internet, yang sangat saya sukai, tetapi saya tidak pernah menemukannya lagi, dan saya bahkan tidak tahu apa namanya. Itu pada dasarnya seperti plot saringan, di mana ketinggian baris dan lebar kolom diskalakan relatif terhadap probabilitas marginal. Dengan demikian, setiap kotak diskalakan ke frekuensi relatif yang diharapkan di bawah kemerdekaan. Namun, itu berbeda dari plot saringan dalam hal itu, daripada merencanakan cross-hatching dalam setiap kotak, itu merencanakan titik (seperti di scatterplot) di lokasi yang dipilih secara acak dari seragam bivariat untuk setiap pengamatan. Dengan cara ini, kepadatan titik mencerminkan seberapa baik penghitungan yang diamati cocok dengan penghitungan yang diharapkan. Artinya, jika kepadatannya sama di setiap kotak, model nolnya masuk akal,saya,j ) mungkin sangat tidak mungkin di bawah model nol. Karena titik diplot alih-alih penetasan silang, ada korespondensi sederhana dan intuitif antara elemen yang diplot dan jumlah yang diamati, yang tidak selalu benar untuk plot ayakan (lihat di bawah). Selain itu, penempatan titik-titik secara acak memberikan plot rasa 'organik'. Selain itu, warna dapat digunakan untuk menyoroti kotak / sel yang sangat berbeda dari model nol, dan matriks plot dapat digunakan untuk memeriksa hubungan berpasangan antara banyak variabel yang berbeda, sehingga dapat menggabungkan keuntungan dari plot yang sama.

  • Adakah yang tahu apa sebutan plot ini?
  • Apakah ada paket / fungsi yang akan melakukan ini dengan mudah di R, atau perangkat lunak lain (katakanlah, Mondrian)? Saya tidak dapat menemukan yang seperti itu di vcd . Tentu saja, itu bisa berupa kode yang sulit dari awal, tetapi itu akan menyebalkan.

Berikut ini adalah contoh sederhana dari plot saringan, perhatikan bahwa mudah untuk melihat bagaimana penghitungan yang diharapkan untuk berbagai kategori harus dimainkan di bawah model nol, tetapi sulit untuk merekonsiliasi penetasan silang dengan angka aktual, menghasilkan plot yang tidak cukup mudah dibaca dan mengerikan secara estetika:

    B ~B
 A 38  4
~A  3 19

masukkan deskripsi gambar di sini
Untuk apa nilainya, plot mosaik memiliki masalah yang berlawanan: meskipun lebih mudah untuk melihat sel mana yang memiliki jumlah 'terlalu banyak' atau 'terlalu sedikit' (relatif terhadap model nol), lebih sulit untuk mengenali apa hubungan antara perhitungan yang diharapkan akan terjadi. Secara khusus, lebar kolom diskalakan relatif terhadap probabilitas marjinal, tetapi ketinggian baris tidak, membuat potongan informasi itu hampir mustahil untuk diekstraksi.
masukkan deskripsi gambar di sini
dan sekarang untuk sesuatu yang sama sekali berbeda ...

  • Adakah yang tahu dari mana konvensi untuk menggunakan biru untuk 'terlalu banyak' dan merah untuk 'terlalu sedikit' berasal? Ini selalu berlawanan dengan intuisi bagi saya. Bagi saya kelihatannya kerapatan sangat tinggi (atau terlalu banyak pengamatan) cocok dengan panas , dan kerapatan rendah cocok dengan dingin , dan bahwa (setidaknya dalam pencahayaan panggung) merah adalah hangat dan biru adalah dingin .

Pembaruan: Jika saya ingat dengan benar, plot yang saya lihat ada di pdf sebuah bab (pengantar atau ch1) dari sebuah buku yang tersedia secara online secara gratis sebagai pemikat pemasaran. Ini adalah versi kasar dari ide yang saya kodekan dari awal:
masukkan deskripsi gambar di sini
Bahkan dengan versi kasar ini, saya pikir lebih mudah dibaca daripada plot saringan, dan dalam beberapa hal lebih mudah daripada plot mosaik (misalnya, lebih mudah untuk mengenali apa hubungannya antara frekuensi sel akan berada di bawah independensi). Akan menyenangkan memiliki fungsi yang: a. akan melakukan ini secara otomatis dengan tabel kontingensi, b. dapat digunakan sebagai blok pembangun matriks plot, dan c. akan memiliki fitur bagus yang datang dengan plot di atas (seperti legenda residual standar pada plot mosaik).


Jadi, Anda pada dasarnya menginginkan plot mosaik dengan jenis isian yang berbeda? Apakah Rfungsinya assocplotmendekati apa yang Anda maksud? Jika tidak, saya yakin seorang Rprogrammer dapat memodifikasi itu atau mosaicplotmelakukan apa yang Anda inginkan.
Peter Flom - Reinstate Monica

1
Referensi terkait yang menarik, Shadings berbasis Residual untuk Visualisasi (Kondisional) Kemerdekaan ( Zeileis et al. 2007 ), PDF di sini , dan utas lain di sini tentang memvisualisasikan tabel kontingensi dengan beberapa referensi. Saya percaya artikel Zeileis memiliki diskusi yang bagus tentang warna yang dapat menjawab pertanyaan terakhir Anda (mungkin baik untuk membaca dengan teliti referensi untuk melihat apakah mereka mengutip grafik yang Anda bicarakan juga).
Andy W

Ini kebalikannya, @PeterFlom, saya ingin dasarnya saringan dengan jenis isi yang berbeda. Atau, Anda bisa mengatakan saya ingin plot mosaik di mana kotak-kotak yang ditampilkan diskalakan relatif terhadap frekuensi yang diharapkan di bawah kemerdekaan (& mungkin juga jenis isi yang berbeda).
gung - Reinstate Monica

"Apakah ada yang tahu dari mana konvensi untuk menggunakan biru untuk 'terlalu banyak' dan merah untuk 'terlalu sedikit' berasal? Ini selalu berlawanan dengan intuisi bagi saya." Poin bagus. Ini memang kontra-intuitif. The spektrum cahaya berjalan kira-kira dari biru di kiri (terkait dengan panjang gelombang yang lebih kecil) untuk merah di sebelah kanan (yang berhubungan dengan panjang gelombang yang lebih besar). Pajangan mosaik tampaknya membalikkan ini di kepalanya ...
landroni

Gagasan diagram ayakan adalah bahwa jumlah kotak di setiap sel sebanding dengan frekuensi yang diamati, sehingga kepadatan relatif menunjukkan frekuensi yang lebih besar atau lebih kecil dari yang diharapkan. Jika Anda tidak suka warna, Anda dapat dengan mudah mengubahnya dari default. Jika Anda tidak menyukai fungsi naungan saringan default, Anda dapat dengan mudah menulis sendiri, misalnya, shading.points()untuk melakukan apa yang Anda inginkan, dalam kerangka strucplot yang dikutip di atas dan tersedia sebagai sketsa dalam vcdpaket.
user101089

Jawaban:


15

Buku yang Anda gambarkan terdengar seperti, 'Visualisasi Data Kategori,' Michael Friendly. Plot yang dijelaskan dalam bab 1 yang tampaknya cocok dengan permintaan Anda digambarkan sebagai jenis model konseptual untuk memvisualisasikan data tabel kontingensi (secara longgar digambarkan oleh penulis sebagai model tekanan dinamis dengan kepadatan pengamatan), dan dapat dilihat di pratinjau google untuk Ch 1. Buku ini ditujukan untuk pengguna SAS.

Makalah tentang topik ini dirujuk di sini: www.datavis.ca/papers/koln/kolnpapr.pdf

'Model Konseptual untuk Memvisualisasikan Data Tabel Kontinjensi,' Michael Friendly.

http://i47.tinypic.com/148n5n7.jpg

masukkan deskripsi gambar di sini

* kebetulan, penulis juga terdaftar sebagai salah satu penulis paket vcd (seperti yang secara khusus terinspirasi oleh bukunya yang disebutkan di atas) - mungkin Anda bisa bertanya langsung kepadanya apakah ada modifikasi sederhana untuk salah satu fungsi bawaan yang tidak mudah terlihat.

** Skema pewarnaan tampaknya menghubungkan warna biru dengan deviasi positif dari independensi, dan merah untuk deviasi negatif. Meskipun skema merah masuk akal dalam konteks itu, mungkin akan lebih tepat untuk menggunakan hijau untuk mewakili penyimpangan positif.

http://www.datavis.ca/papers/asa92.html


2
Kerja bagus, misteri terpecahkan! Saya harus benar-benar membeli buku itu daripada mempratinjau dalam berbagai tid-bit dan memiliki perpustakaan saya mengirim saya bab setiap sekarang dan kemudian. IMO bentuk visualisasi ini mengingatkan saya pada banyak hal yang oleh para pembuat peta disebut "peta titik", dan orang dapat memanfaatkan literatur dari sana untuk membenarkan bagaimana titik-titik merupakan alat visualisasi yang lebih baik daripada garis dan penetasan silang. Ini juga merupakan literatur yang baik dalam hal penempatan titik-titik preferensial.
Andy W

Ini memberi saya awal yang baik. Terima kasih atas bantuan Anda.
gung - Reinstate Monica

1

Mungkin bukan apa yang Anda lihat, tetapi untuk visualisasi keberangkatan yang diharapkan di bawah plot korespondensi kemerdekaan termotivasi dengan baik.

http://www.jstatsoft.org/v20/i03/

(Selain itu, buku SAS dan M Friendly keliru tentang penyesuaian yang disarankan dan banyak plot memiliki artefak di dalamnya dan ini mungkin telah mengalihkan perhatian dari nilainya yang dirasakan.)


Terima kasih atas bantuan Anda, saya suka bidang korespondensi. Bisakah Anda mengatakan lebih banyak tentang penyesuaian yang disarankan ini yang salah? Penyesuaian apa itu? Bagaimana itu tidak akurat? Dan apa yang salah dengan plotnya?
gung - Reinstate Monica

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.