Apa grafik yang sesuai untuk menggambarkan hubungan antara dua variabel ordinal?
Beberapa opsi yang dapat saya pikirkan:
- Scatter plot dengan menambahkan jitter acak untuk menghentikan titik persembunyian satu sama lain. Rupanya grafik standar - Minitab menyebutnya sebagai "plot nilai individu". Menurut pendapat saya itu mungkin menyesatkan karena secara visual mendorong semacam interpolasi linier antara tingkat ordinal, seolah-olah data berasal dari skala interval.
- Plot sebar diadaptasi sehingga ukuran (area) titik mewakili frekuensi kombinasi level tersebut, daripada menggambar satu titik untuk setiap unit sampling. Saya kadang-kadang melihat plot seperti itu dalam praktik. Mereka mungkin sulit dibaca, tetapi poin-poinnya terletak pada kisi-kisi yang ditempatkan secara teratur, yang agak mengatasi kritik dari plot scatter yang gugup sehingga secara visual "menskala" data.
- Khususnya jika salah satu variabel diperlakukan sebagai dependen, plot kotak dikelompokkan berdasarkan level variabel independen. Kemungkinan terlihat mengerikan jika jumlah level variabel dependen tidak cukup tinggi (sangat "datar" dengan kumis yang hilang atau kuartil yang runtuh lebih buruk yang membuat identifikasi visual median menjadi tidak mungkin), tetapi setidaknya menarik perhatian median dan kuartil yang statistik deskriptif yang relevan untuk variabel ordinal.
- Tabel nilai atau kotak kosong sel dengan peta panas untuk menunjukkan frekuensi. Berbeda secara visual tetapi secara konsep mirip dengan sebaran plot dengan area titik menunjukkan frekuensi.
Apakah ada ide lain, atau pemikiran tentang plot mana yang lebih disukai? Apakah ada bidang penelitian di mana plot ordinal-vs-ordinal tertentu dianggap sebagai standar? (Sepertinya saya ingat frekuensi peta panas tersebar luas dalam genomik tetapi menduga itu lebih sering untuk nominal-vs-nominal.) Saran untuk referensi standar yang baik juga akan sangat disambut, saya menebak sesuatu dari Agresti.
Jika ada yang ingin mengilustrasikannya dengan plot, kode R untuk data sampel palsu berikut.
"Seberapa pentingkah olahraga untukmu?" 1 = sama sekali tidak penting, 2 = agak tidak penting, 3 = tidak penting atau tidak penting, 4 = agak penting, 5 = sangat penting.
"Seberapa teratur Anda berlari 10 menit atau lebih lama?" 1 = tidak pernah, 2 = kurang dari sekali per dua minggu, 3 = sekali setiap satu atau dua minggu, 4 = dua atau tiga kali per minggu, 5 = empat atau lebih kali per minggu.
Jika itu wajar untuk memperlakukan "sering" sebagai variabel dependen dan "kepentingan" sebagai variabel independen, jika plot membedakan keduanya.
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
Pertanyaan terkait untuk variabel kontinu yang saya temukan bermanfaat, mungkin titik awal yang berguna: Apa alternatif untuk scatterplots saat mempelajari hubungan antara dua variabel numerik?