Mungkin Anda akan mendapat manfaat dari alat eksplorasi. Memisahkan data menjadi desil dari koordinat x tampaknya telah dilakukan dengan semangat itu. Dengan modifikasi yang dijelaskan di bawah ini, ini merupakan pendekatan yang sangat bagus.
Banyak metode eksplorasi bivariat telah ditemukan. Yang sederhana yang diusulkan oleh John Tukey ( EDA , Addison-Wesley 1977) adalah "plot skematik pengembaraannya". Anda mengiris koordinat x ke dalam nampan, membangun plot kotak vertikal dari data y terkait di median masing-masing nampan, dan menghubungkan bagian-bagian kunci dari plot kotak (median, engsel, dll.) Ke dalam kurva (opsional menghaluskan mereka). "Jejak penjelajahan" ini memberikan gambaran distribusi bivariat data dan memungkinkan penilaian visual langsung dari korelasi, linieritas hubungan, pencilan, dan distribusi marjinal, serta estimasi yang kuat dan evaluasi yang sesuai untuk setiap fungsi regresi nonlinier .
2−k1−2−kk=1,2,3,…
Untuk menampilkan populasi bin yang bervariasi, kita dapat membuat lebar setiap kotak box sebanding dengan jumlah data yang diwakilinya.
Skema pengembara yang dihasilkan akan terlihat seperti ini. Data, sebagaimana dikembangkan dari ringkasan data, ditampilkan sebagai titik abu-abu di latar belakang. Lebih dari ini, plot skematik yang berkelana telah digambar, dengan lima jejak warna dan plot kotak (termasuk setiap outlier yang ditampilkan) dalam warna hitam dan putih.
x=−4x=4−0.074untuk data ini) mendekati nol. Namun, bersikeras menafsirkan bahwa "hampir tidak ada korelasi" atau "korelasi signifikan tetapi rendah" akan menjadi kesalahan yang sama dengan lelucon lama tentang ahli statistik yang senang dengan kepalanya di oven dan kaki di lemari es karena rata-rata suhunya nyaman. Kadang-kadang satu angka saja tidak bisa menjelaskan situasi.
Alat eksplorasi alternatif dengan tujuan yang sama termasuk smooth yang kuat dari jendela kuantil data dan cocok dari regresi kuantil menggunakan berbagai kuantil. Dengan ketersediaan perangkat lunak untuk melakukan perhitungan ini, mereka mungkin menjadi lebih mudah dieksekusi daripada jejak skematik yang berkelana, tetapi mereka tidak menikmati kesederhanaan konstruksi yang sama, kemudahan interpretasi, dan penerapan yang luas.
R
Kode berikut menghasilkan angka dan dapat diterapkan ke data asli dengan sedikit atau tanpa perubahan. (Abaikan peringatan yang dihasilkan oleh bplt
(dipanggil oleh bxp
): ia mengeluh ketika tidak memiliki outlier untuk menggambar.)
#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010",
main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
n=b$n[i],
conf=b$conf[,i, drop=FALSE],
out=b$out[b$group==i],
group=1,
names=b$names[i]), add=TRUE,
boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins,
at=x.binmed[i]))
}
colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,],
method="natural"), col=colors[i], lwd=2))