Apakah pantas untuk memplot rata-rata dalam histogram?


13

Apakah "boleh" untuk menambahkan garis vertikal ke histogram untuk memvisualisasikan nilai rata-rata?

Sepertinya tidak apa-apa bagi saya, tetapi saya belum pernah melihat ini di buku pelajaran dan sejenisnya, jadi saya bertanya-tanya apakah ada semacam konvensi untuk tidak melakukan itu?

Grafik ini untuk makalah, saya hanya ingin memastikan saya tidak sengaja melanggar beberapa aturan statistik tak terucapkan yang sangat penting. :)


Kenapa tidak. Hanya dengan menambahkan komentar. Mean adalah nilai ringkasan seperti histogramnya. Anda dapat memvariasikan tingkat informasi yang disediakan dengan memvariasikan ukuran ember histogram misalnya. Namun, biasanya histogram memberikan lebih banyak informasi daripada hanya rata-rata. Anda benar-benar dapat memperkirakan nilai rata-rata dari histogram. Saya pikir itu sebabnya mereka biasanya tidak disediakan bersama.
Simone

Orang kadang-kadang melihat histogram dengan distribusi overlay (mis. Paling umum dalam pengalaman saya, distribusi normal diplot menggunakan mean sampel dan standar deviasi.) Yang melakukan hal yang sama (dan sedikit lebih) sebagai menggambar garis vertikal (menunjukkan di mana sampel maksud adalah dengan puncak kurva.)
James Stanley

Jawaban:


30

Tentu saja, mengapa tidak?

histogram dengan rata-rata

Ini sebuah contoh (satu dari belasan yang saya temukan dengan pencarian google sederhana):

hist dengan mean dan median

(Sumber gambar adalah blog kegunaan mengukur, di sini .)

Saya telah melihat cara, berarti plus atau minus deviasi standar, berbagai kuantil (seperti median, kuartil, persentil ke-10 dan ke-90) semuanya ditampilkan dalam berbagai cara.

Alih-alih menggambar garis tepat di seberang plot, Anda dapat menandai informasi di bagian bawahnya - seperti:

histogram dengan boxplot marginal

Ada contoh (salah satu dari banyak yang dapat ditemukan) dengan sebuah kotak di atas, bukan di bawah, di sini .

Terkadang orang menandai data:

rugplot histogram dengan jitter
(Saya sedikit gugup lokasi data karena nilainya dibulatkan menjadi bilangan bulat dan Anda tidak dapat melihat kerapatan relatif dengan baik.)

Ada contoh semacam ini, dilakukan di Stata, di halaman ini (lihat yang ketiga di sini )

Histogram lebih baik dengan sedikit informasi tambahan - mereka bisa menyesatkan sendiri

Anda hanya perlu berhati-hati untuk menjelaskan dari apa plot Anda! (Anda ingin judul dan label sumbu x lebih baik daripada yang saya gunakan di sini, sebagai permulaan. Ditambah penjelasan dalam keterangan gambar yang menjelaskan apa yang telah Anda tandai di atasnya.)

-

Satu plot terakhir:

histogram dengan stripchart

-

Plot saya dihasilkan dalam R.

Edit:

Sebagai @gung menduga, abline(v=mean...digunakan untuk menggambar garis-mean di plot dan rugdigunakan untuk menggambar nilai data (meskipun saya benar-benar digunakan rug(jitter(...karena data itu dibulatkan menjadi bilangan bulat).

Inilah cara untuk melakukan boxplot di antara histogram dan sumbu:

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

Saya tidak akan mencantumkan apa yang ada untuk semua, tetapi Anda dapat memeriksa argumen dalam bantuan ( ?boxplot) untuk mencari tahu untuk apa mereka, dan bermain dengan mereka sendiri.

Namun, ini bukan solusi umum - saya tidak menjamin itu akan selalu berfungsi sebaik di sini (perhatikan saya sudah mengubah atdanboxwex opsi *). Jika Anda tidak menulis fungsi cerdas untuk mengurus semuanya, perlu memperhatikan apa yang dilakukan semuanya untuk memastikan itu melakukan apa yang Anda inginkan.

Inilah cara membuat data yang saya gunakan (saya mencoba menunjukkan bagaimana regresi Theil benar-benar mampu menangani beberapa pencilan berpengaruh). Kebetulan itu adalah data yang saya mainkan ketika saya pertama kali menjawab pertanyaan ini.

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

* - nilai yang sesuai atadalah sekitar -0,5 kali dari nilai boxwex; itu akan menjadi standar yang baik jika Anda menulis fungsi untuk melakukannya; boxwexperlu ditingkatkan dengan cara yang berhubungan dengan skala-y (tinggi) dari plot kotak; Saya menyarankan 0,04 hingga 0,05 kali batas atas y mungkin sering baik-baik saja.

Kode untuk stripchart marginal:

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')

+1, ini bagus; mau menambahkan kode? abline(v=mean(Davis2[,2]))& rug(Davis2[,2])Saya kira, tapi bagaimana Anda mengganjal kotak di sana?
gung - Reinstate Monica

1
@ gung Lihat hasil edit untuk detail singkat, termasuk contoh yang dapat direproduksi mirip dengan yang ada di boxplot. Ini benar-benar melakukan tidak lebih pintar daripada memanfaatkan beberapa argumen untuk boxplotfungsi. Antara boxplotdan boxpAnda dapat melakukan beberapa hal yang agak bagus dengan sedikit usaha.
Glen_b -Reinstate Monica

Kebijaksanaan selama berabad-abad: "Jika Anda tidak menulis fungsi cerdas untuk mengurus semuanya, perlu memperhatikan apa yang dilakukan semuanya untuk memastikan itu melakukan apa yang Anda inginkan" ;-).
gung - Reinstate Monica

Ya. Saya bahkan berpikir untuk menulis sesuatu yang pintar untuk diatur atdan boxwexseterusnya ... tetapi yang terbaik saya hanya melakukan beberapa plot seperti itu setahun, dan dibutuhkan beberapa detik setiap kali untuk mengetik? Boxplot dan mengatur opsi yang tepat. Saya pikir lebih mudah untuk hanya memperhatikan apa yang saya lakukan.
Glen_b -Reinstate Monica

@ung saya diedit untuk memberikan kode untuk membuat data Davis2 yang saya gunakan. Semoga itu bisa membantu.
Glen_b -Reinstate Monica

3

Tentu saja Anda bisa. Pastikan untuk memberi label dengan jelas / menunjukkan apa artinya garis, dan menghindari membuat plot terlalu 'sibuk'.

Tidak ada yang lebih buruk daripada grafik yang menyampaikan terlalu banyak informasi sehingga mudah dimengerti. Tabel ini adalah cara yang sering diabaikan untuk menampilkan statistik ringkasan dalam masalah yang jelas dan singkat.


2

Jawaban sebelumnya memberikan poin yang sangat baik, tetapi ini adalah salah satu yang mendasar untuk ditambahkan.

Mean adalah pusat gravitasi dari suatu distribusi dan juga titik pivot dari histogram. Di sinilah distribusi akan seimbang. Jadi, ada hubungan timbal balik: tidak hanya dapat membantu Anda berpikir tentang histogram, juga histogram dapat membantu Anda berpikir tentang rata-rata. Ini bahkan mungkin lebih bermanfaat ketika distribusi miring dan rata-rata distribusi belum tentu di tengah.


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.