Apa artinya ini kabur di sekitar garis dalam grafik ini?


8

Saya bermain-main dengan ggplot2 menggunakan perintah berikut ini agar sesuai dengan baris ke data saya:

ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + 
stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + 
stat_sum_single(median) + 
stat_sum_single(mean, colour="blue") + 
geom_smooth(level = 0.95, aes(group=1), method="lm")

Titik merah adalah nilai median, biru berarti dan garis merah vertikal menunjukkan bar kesalahan. Sebagai langkah terakhir, saya biasa geom_smoothmemasang garis menggunakan smoothing linier jadi saya gunakan method="lm". Seiring dengan garis, warna kusam dihasilkan juga di sekitar garis. Sementara saya menemukan cara menghapusnya dari dokumentasi, opsi yang saya gunakan untuk mematikannya adalah:

se: display confidence interval around smooth? 

Bisakah seseorang tolong beri tahu saya apa yang seharusnya saya pahami dari bayangan di sekitar garis? Secara khusus, saya mencoba memahami bagaimana menafsirkannya. Mungkin ada baiknya untuk saluran mungkin, tetapi informasi tambahan apa pun bisa sangat berguna bagi saya. Ada saran?

masukkan deskripsi gambar di sini

Jawaban:


6

Saya menduga itu sangat sedikit artinya dalam angka Anda yang sebenarnya; Anda telah menggambar bentuk stripplot / bagan. Tetapi karena kita tidak memiliki data atau contoh yang dapat direproduksi, saya hanya akan menjelaskan apa yang ditampilkan garis / wilayah ini secara umum.

Secara umum, garis adalah model linier pas yang menggambarkan hubungan

vSebuahl^=β0+β1Nkamum
Pita yang diarsir adalah interval kepercayaan 95% pointwise pada nilai yang dipasang (garis). Interval kepercayaan ini berisi garis populasi, garis regresi yang benar dengan probabilitas 0,95. Atau, dengan kata lain, ada kepercayaan 95% bahwa garis regresi sebenarnya terletak di dalam wilayah yang diarsir. Ini menunjukkan kepada kita ketidakpastian yang melekat dalam perkiraan kami tentang hubungan sebenarnya antara respons Anda dan variabel prediktor.

Terima kasih atas tanggapan dan waktu Anda. Saya akan meluangkan waktu memahami komentar pertama Anda tentang mengapa itu berarti sedikit di bagan saya. Alih-alih menggambar plot bar dengan nilai rata-rata, saya menggambar bagan garis untuk melihat sekilas berapa banyak poin yang digunakan juga. Tapi tolong perbaiki saya jika saya salah. Pertanyaan terakhir saya adalah apakah ada hubungan antara interval kepercayaan 95% ini dan interval kepercayaan 95% yang ditunjukkan oleh baris kesalahan. Secara khusus, apa artinya garis pas dipasang di atas atau di bawah bilah kesalahan? Atau apakah mereka benar-benar independen dan harus ditafsirkan secara terpisah?
Legenda

Jika x variate adalah kategoris, mungkin tidak masuk akal untuk memperlakukannya sebagai 1 derajat kebebasan, istilah linier, yang mana itu telah diperlakukan dalam perhitungan garis pas. Selain itu, data Anda tampaknya tidak memperlihatkan asumsi varian konstan untuk residual model. Stripchart bukan masalah, itu adalah apakah regresi data ini masuk akal. Garis yang dipasang akan dekat dengan (atau bahkan mungkin, seseorang dapat mengoreksi saya) garis paling cocok melalui sarana kelompok.
Gavin Simpson

Terima kasih banyak atas wawasan Anda. Saya akan membaca lebih lanjut tentang asumsi varian konstan untuk residual.
Legenda

2
Hmmm. Saya tidak sepenuhnya yakin penjelasan Anda benar - defaultnya adalah menggambar 95% interval kepercayaan titik- bijaksana. Saya tidak berpikir itu hal yang sama dengan mengatakan ada kemungkinan 95% garis regresi sejati terletak di wilayah yang diarsir.
hadley

@adley menampar kepala ya, itu akan menjadi interval kepercayaan simultan. Akan diperbarui.
Gavin Simpson
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.