Patut diperjelas dengan maksud plot Anda. Secara umum, ada dua jenis tujuan: Anda dapat membuat plot untuk diri sendiri untuk menilai asumsi yang Anda buat dan memandu proses analisis data, atau Anda dapat membuat plot untuk mengkomunikasikan hasil kepada orang lain. Ini tidak sama; misalnya, banyak pemirsa / pembaca plot / analisis Anda mungkin secara statistik tidak canggih, dan mungkin tidak terbiasa dengan gagasan, katakanlah, varians yang sama dan perannya dalam uji-t. Anda ingin plot Anda menyampaikan informasi penting tentang data Anda, bahkan kepada konsumen seperti mereka. Mereka secara implisit percaya bahwa Anda telah melakukan sesuatu dengan benar. Dari pengaturan pertanyaan Anda, saya mengumpulkan Anda setelah jenis yang terakhir.
Secara realistis, plot yang paling umum dan diterima untuk mengkomunikasikan hasil uji-t 1 kepada orang lain (sisihkan apakah itu benar-benar paling tepat) adalah bagan batang sarana dengan bar kesalahan standar. Ini cocok dengan uji-t dengan sangat baik karena uji-t membandingkan dua cara menggunakan kesalahan standar mereka. Ketika Anda memiliki dua grup independen, ini akan menghasilkan gambar yang intuitif, bahkan untuk yang tidak canggih secara statistik, dan (orang yang bersedia) dapat "segera melihat bahwa mereka mungkin berasal dari dua populasi yang berbeda". Berikut adalah contoh sederhana menggunakan data @ Tim:
nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se = c(sd(nonsmokers)/sqrt(length(nonsmokers)),
sd(smokers)/sqrt(length(smokers)))
windows()
bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
box()
arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)
Yang mengatakan, spesialis visualisasi data biasanya meremehkan plot ini. Mereka sering dicemooh sebagai "plot dinamit" (lih, Mengapa plot dinamit buruk ). Khususnya, jika Anda hanya memiliki sedikit data, sering disarankan agar Anda hanya menampilkan data itu sendiri . Jika poin tumpang tindih, Anda dapat men-jitter mereka secara horizontal (tambahkan sedikit noise acak) sehingga tidak lagi tumpang tindih. Karena uji-t pada dasarnya tentang kesalahan rata-rata dan standar, yang terbaik adalah overlay rata-rata dan standar kesalahan ke plot tersebut. Ini adalah versi yang berbeda:
set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE,
xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)
Jika Anda memiliki banyak data, boxplots mungkin merupakan pilihan yang lebih baik untuk mendapatkan gambaran umum singkat tentang distribusi, dan Anda dapat menaburkan alat dan UK di sana juga.
data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see
Plot sederhana data, dan plot box, cukup sederhana sehingga sebagian besar orang akan dapat memahaminya bahkan jika mereka tidak mengerti secara statistik. Ingatlah, bahwa tidak satu pun dari ini yang memudahkan untuk menilai validitas menggunakan uji-t untuk membandingkan grup Anda. Sasaran-sasaran itu paling baik dilayani oleh berbagai jenis plot.
1. Perhatikan bahwa diskusi ini mengasumsikan uji-t sampel independen. Plot-plot ini dapat digunakan dengan uji-t sampel dependen, tetapi juga bisa menyesatkan dalam konteks itu (lih., Apakah menggunakan bilah galat untuk sarana dalam studi subjek yang salah? ).