Membuat sampel kecil

13

Saya memiliki kumpulan data kecil 14 kali terpisah untuk menyelesaikan tugas. Namun saya mengalami kesulitan menemukan grafik yang sesuai untuk digunakan untuk membuat grafik data. Jika sampel lebih besar saya akan menggunakan plot kotak atau histogram tetapi saya tidak yakin apakah itu akan sesuai untuk digunakan dalam kasus ini ketika sampel sangat kecil.

Pembaruan: Waktunya adalah 5,2,3,9,5,6,4,2,3,8,4,1,6,0,5,6,4,4,4,5,4,9,4,5,4,9,4,2

data-visualization descriptive-statistics small-sample

— Eamonn
sumber

4

Tidak ada yang mengalahkan yang menunjukkan data nyata yang Anda pedulikan sebagai contoh nyata untuk mendorong orang mengirim solusi yang berbeda. Di muka saya sarankan dot atau stripplot dan plot kuantil dengan kotak yang ditimpa.

— Nick Cox

16

Saya pikir prinsip utama di sini adalah Anda dapat dan harus menunjukkan semua nilai individual. Sekalipun detailnya jelas tidak menarik atau bermanfaat, tidak ada alasan untuk tidak memperlihatkannya, atau mewajibkan pembaca untuk memecahkan kode (katakanlah) histogram di mana bilah mungkin mewakili hanya satu atau dua nilai.

Di sini saya menawarkan komposit kecil. Kiri atas adalah plot titik atau strip (setidaknya dua puluh nama lain telah digunakan untuk ide yang sama) disajikan secara horizontal dan kanan atas ide yang sama disajikan secara vertikal. Contoh dengan nilai yang sama dicocokkan dengan menumpuk.

Di bagian bawah adalah plot kotak-kuantil, dalam arti Parzen, di mana skala horizontal diam-diam adalah probabilitas kumulatif (posisi plot, dalam jargon umum) dan kotak median-dan-kuartil konvensional dapat ditarik sedemikian rupa sehingga (pada prinsipnya) setengah nilai ada di dalam kotak, seperti yang selalu diiklankan, dan setengah dari nilai di luar. Garis horizontal ekstra di sini mewakili nilai tengah. Beberapa orang menambahkan cara ke kotak plot sebagai titik tambahan atau simbol penanda; Saya menemukan bahwa dapat berbenturan dengan menampilkan data sendiri, dan saya lebih suka garis tambahan. Jika garis untuk median dan garis untuk mean muncul bersamaan, Anda perlu memikirkan apa yang harus dilakukan. Hampir selalu rata-rata dan median berbeda secara nyata.

Bisa dibilang itu adalah standar untuk membuat satuan pengukuran eksplisit pada grafik, tapi saya tidak melihat apa itu.

(Saya sengaja mendorong poin tambahan di sini, yaitu grafik bisa sangat kecil tapi masih informatif. Dalam praktiknya, saya tidak akan membuat mereka sekecil ini.)

EDIT:

Referensi silang ditambahkan ke plot kotak kuantil secara luas dalam pengertian Parzen (referensi lebih lanjut di urutan kedua di bawah ini; ada penggunaan lain "plot kotak kuantil")

Bagaimana saya bisa mengukur perbedaan antara data non-parametrik dengan banyak nol?

Bagaimana cara menggunakan boxplots untuk menemukan titik di mana nilai lebih cenderung berasal dari kondisi yang berbeda?

Bagaimana memvisualisasikan uji-t dua sampel independen?

Bagaimana cara saya mendapatkan eksperimen yang lebih baik menggunakan Uji U-Whitney?

Shera, DM 1991. Beberapa penggunaan plot kuantil untuk meningkatkan presentasi data. Ilmu Komputer dan Statistik 23: 50-53.

Militký, J. dan M. Meloun. 1993. Beberapa alat bantu grafis untuk analisis data eksplorasi univariat. Analytica Chimica Acta 277: 215-221.

Meloun, M. dan J. Militky. 1994. Perawatan data berbantuan komputer dalam chemometrics analitik. I. Analisis eksplorasi data univariat. Makalah Kimia 48: 151-157.

EDIT 2:

Poin utama utas-utas ini bukan hanya untuk menjawab pertanyaan langsung, tetapi untuk menyentuh pertanyaan-pertanyaan serupa yang mungkin menarik minat orang lain.

Beberapa desain grafik lain dalam jawaban lain di sini menunjukkan pengidentifikasi, diberi label agnostik 1 ... 14 tanpa adanya detail lainnya. Andaikata ini dan pengidentifikasi lainnya digunakan dalam interpretasi, desain sederhana untuk menunjukkan kepada mereka adalah grafik titik (Cleveland). Berikut adalah dua di antara beberapa kemungkinan, di mana urutan pengidentifikasi dihormati secara harfiah (kiri) dan di mana nilainya diurutkan (kanan). Ada banyak ruang untuk label yang lebih panjang jika diperlukan.

Keuntungan dari desain ini daripada grafik batang adalah bahwa sumbu respons atau hasil dapat dimulai pada nilai bukan nol jika itu tampaknya pilihan yang lebih baik.

Memutar grafik sehingga sumbu respons vertikal dapat dibayangkan dengan mudah juga.

— Nick Cox
sumber

(+1) Saya kadang-kadang melihat plot titik atau strip, terutama jika berorientasi vertikal, dengan titik "ditumpuk" disejajarkan secara terpusat daripada rata-rata kiri (yaitu jika ada tiga titik bertumpuk maka yang di tengah akan sejalan dengan poin tidak ditumpuk). Ini memberikan garis simetri yang menyenangkan secara estetika, tetapi saya tidak yakin seberapa bermanfaat itu secara praktis. Mungkin itu membuatnya lebih mudah untuk menempatkan kotak. Apakah ini memiliki nama yang terpisah, tahukah Anda? Dan adakah saran untuk menghindarinya?

— Silverfish

1

Juga, apakah ada kemungkinan Anda bisa memberikan referensi untuk Parzen? Saya selalu menyukai plot ini tetapi tidak pernah benar-benar membaca referensi yang tepat untuk mereka.

— Silverfish

Varian @Silverfish Centered (tengah) tentu saja populer dan sering dibahas. Masalah kecil tampaknya keinginan untuk simetri, seperti yang Anda sebutkan, versus desain yang menyerupai gaya histogram, yang saya cenderung lebih suka sedikit, tetapi ini masalah selera dan keadaan. Saya telah menambahkan referensi silang dan pada gilirannya akan menyambut orang lain.

— Nick Cox

3

@Nick Cox telah memberikan beberapa contoh yang baik, dua opsi lain yang sering saya gunakan adalah plot kotak dengan poin overlay, atau sedikit gugup,

Dengan Kode R

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

EDIT: Anda juga bisa menggunakan plot biola jika diinginkan

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

— aeongrail
sumber

1

Terima kasih banyak atas balasannya. Saya enggan menggunakan plot kotak dalam analisis saya awalnya karena ukuran sampel. Tetapi setelah melihat berbagai buku teks, tampaknya ukuran sampel saya cukup.

— Eamonn

1

Pertanyaan Anda mengingatkan saya pada teknik yang dijelaskan dalam posting blog ini . Ini tentang visualisasi peristiwa diskrit.

Trik intinya adalah merencanakan the time before an event x the time after an event.

Data Anda divisualisasikan [1]

Ini mungkin kebetulan, tetapi ke atas area tengah tidak mengandung data. Jadi ada beberapa struktur yang terlihat.

Kode cepat dan kotor R.

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

— Harald Thomson
sumber

OP mengatakan 14 waktu terpisah. Saya membaca bahwa ini menyiratkan bahwa ini bukan seri. Jika mereka seri, ide Anda tentu relevan.

— Nick Cox

Kamu mungkin benar. Namun, bahkan jika mereka bukan seri, grafik akan menunjukkan ketergantungan antar waktu. Jelas label sumbu salah saat itu.

— Harald Thomson

2

Hanya OP yang dapat mengklarifikasi dengan tepat data apa yang ada, tetapi saya rasa grafik ini tidak menang. Jika data adalah waktu yang terpisah, maka grafik tidak ada artinya kecuali ada makna pada urutan nilai yang diberikan.

— Nick Cox

fyi textmengambil argumen vektor - text(x, y, 1:12)harus bekerja.

— MichaelChirico

1

Gagasan lain, karena Anda menggunakan waktu.

Plot arena pacuan kuda - barplot dengan koordinat kutub - memberikan efek yang sama seperti stopwatch:

Idealnya label pengamatan akan ditumpangkan di bar atau setidaknya di ujung lainnya. Saat ini pemirsa memiliki tekanan ekstra untuk melacak pengamatan mana yang (naik / turun) saat melakukan perbandingan.

— neerajt
sumber

2

Saya harus menganggap itu sebagai teknik grafik yang eksentrik, jujur. Mata bahkan melihat panjang busur, tetapi area yang harus didekodekan seperti itu, tetapi otak harus mengintervensi dan menggarisbawahi bahwa hanya sudut rotasi yang informatif. Ini adalah kerja keras bahkan untuk melihat dengan tepat nilai mana yang kurang dari, sama dengan, atau lebih besar dari satu sama lain, yang langsung dalam gaya grafik yang dapat diterima.

— Nick Cox

Satu-satunya nilai tambah yang dapat saya lihat untuk desain ini, kecuali penilaiannya adalah untuk desain yang tidak biasa, adalah bahwa pengidentifikasi # 1 hingga # 14 langsung ada dalam desain ini. Saya telah mengambil poin ini dalam edit untuk jawaban saya sendiri.

— Nick Cox