Bagaimana memvisualisasikan uji-t dua sampel independen?


11

Apa cara yang paling diterima untuk memvisualisasikan hasil uji-dua sampel independen? Apakah tabel numerik lebih sering digunakan atau semacam plot? Tujuannya adalah agar pengamat biasa melihat sosok itu dan segera melihat bahwa mereka mungkin berasal dari dua populasi yang berbeda.


"Diterima" oleh siapa, dalam konteks apa? "Lebih sering digunakan" di mana?
Glen_b -Reinstate Monica

Jawaban:


18

Patut diperjelas dengan maksud plot Anda. Secara umum, ada dua jenis tujuan: Anda dapat membuat plot untuk diri sendiri untuk menilai asumsi yang Anda buat dan memandu proses analisis data, atau Anda dapat membuat plot untuk mengkomunikasikan hasil kepada orang lain. Ini tidak sama; misalnya, banyak pemirsa / pembaca plot / analisis Anda mungkin secara statistik tidak canggih, dan mungkin tidak terbiasa dengan gagasan, katakanlah, varians yang sama dan perannya dalam uji-t. Anda ingin plot Anda menyampaikan informasi penting tentang data Anda, bahkan kepada konsumen seperti mereka. Mereka secara implisit percaya bahwa Anda telah melakukan sesuatu dengan benar. Dari pengaturan pertanyaan Anda, saya mengumpulkan Anda setelah jenis yang terakhir.

Secara realistis, plot yang paling umum dan diterima untuk mengkomunikasikan hasil uji-t 1 kepada orang lain (sisihkan apakah itu benar-benar paling tepat) adalah bagan batang sarana dengan bar kesalahan standar. Ini cocok dengan uji-t dengan sangat baik karena uji-t membandingkan dua cara menggunakan kesalahan standar mereka. Ketika Anda memiliki dua grup independen, ini akan menghasilkan gambar yang intuitif, bahkan untuk yang tidak canggih secara statistik, dan (orang yang bersedia) dapat "segera melihat bahwa mereka mungkin berasal dari dua populasi yang berbeda". Berikut adalah contoh sederhana menggunakan data @ Tim:

nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m        = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se       = c(sd(nonsmokers)/sqrt(length(nonsmokers)), 
             sd(smokers)/sqrt(length(smokers)))
windows()
  bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
  box()
  arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)

masukkan deskripsi gambar di sini

Yang mengatakan, spesialis visualisasi data biasanya meremehkan plot ini. Mereka sering dicemooh sebagai "plot dinamit" (lih, Mengapa plot dinamit buruk ). Khususnya, jika Anda hanya memiliki sedikit data, sering disarankan agar Anda hanya menampilkan data itu sendiri . Jika poin tumpang tindih, Anda dapat men-jitter mereka secara horizontal (tambahkan sedikit noise acak) sehingga tidak lagi tumpang tindih. Karena uji-t pada dasarnya tentang kesalahan rata-rata dan standar, yang terbaik adalah overlay rata-rata dan standar kesalahan ke plot tersebut. Ini adalah versi yang berbeda:

set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE, 
     xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)

masukkan deskripsi gambar di sini

Jika Anda memiliki banyak data, boxplots mungkin merupakan pilihan yang lebih baik untuk mendapatkan gambaran umum singkat tentang distribusi, dan Anda dapat menaburkan alat dan UK di sana juga.

data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m  = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see

masukkan deskripsi gambar di sini

Plot sederhana data, dan plot box, cukup sederhana sehingga sebagian besar orang akan dapat memahaminya bahkan jika mereka tidak mengerti secara statistik. Ingatlah, bahwa tidak satu pun dari ini yang memudahkan untuk menilai validitas menggunakan uji-t untuk membandingkan grup Anda. Sasaran-sasaran itu paling baik dilayani oleh berbagai jenis plot.

1. Perhatikan bahwa diskusi ini mengasumsikan uji-t sampel independen. Plot-plot ini dapat digunakan dengan uji-t sampel dependen, tetapi juga bisa menyesatkan dalam konteks itu (lih., Apakah menggunakan bilah galat untuk sarana dalam studi subjek yang salah? ).


Masalah besar dengan menggunakan plot bar + CI adalah bahwa kadang-kadang perbedaannya signifikan secara statistik, tetapi CI tumpang tindih . Mengingat bahwa plot bar + CI mencoba menarik minat khalayak umum, kami benar-benar tidak ingin menghabiskan waktu untuk menjelaskan kerutan ekstra ini.
Heisenberg

@ Heisenberg, saya tahu itu. Tidak ada plot tunggal yang sempurna untuk semua kesempatan dan tujuan. Saya juga tidak menyebutkan CI, hanya UK (meskipun itu akan setara dengan beberapa CI, tergantung pada df). Signifikansi secara umum disebutkan dalam keterangan gambar, & dibahas dalam teks. Jika Anda ingin itu ditampilkan dengan jelas dalam plot itu sendiri, Anda dapat menambahkan tanda kurung dan p-nilai (misalnya, di sini ).
gung - Reinstate Monica

Permintaan maaf saya jika nada terdengar agresif. Saya hanya sedikit jengkel bahwa pada akhirnya masih tidak ada cara yang elegan untuk memvisualisasikan uji-t kepada khalayak umum tanpa menjelaskan lebih lanjut. Mungkin turun ke plot: 2 plot bar menunjukkan rata-rata kelompok dengan SE dan plot ketiga menunjukkan perbedaan dan CI-nya (seperti tautan Anda ). Tetapi visualisasi seperti itu menunjukkan informasi yang berlebihan (kelompok berarti DAN perbedaan cara), yang juga dapat membingungkan penonton.
Heisenberg

@ Heisenberg, saya tidak akan menggunakan plot dari jawaban saya yang lain kecuali jika saya mencoba untuk menampilkan tes-dalam-pasien. Saya pikir itu mungkin sering baik-baik saja untuk menyajikan 2 bar w / SE untuk tes-t, w / keterangan gambar sederhana. Jika Anda perlu signifikansi dalam plot, Anda dapat menambahkan tanda kurung atau sesuatu seperti itu (saya biasanya merasa tidak perlu).
gung - Reinstate Monica

14

Cara yang paling umum digunakan untuk memvisualisasikan -test seperti perbandingan adalah dengan menggunakan boxplots . Di bawah ini saya memberikan contoh menggunakan dataset yang menggambarkan "hubungan antara merokok ganja dan defisit kinerja pada tugas mengukur memori jangka pendek" dari situs ini .t

> nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
> smokers <- c(16,20,14,21,20,18,13,15,17,21)
> 
> t.test(nonsmokers, smokers)

    Welch Two Sample t-test

data:  nonsmokers and smokers
t = 2.2573, df = 16.376, p-value = 0.03798
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.1628205 5.0371795
sample estimates:
mean of x mean of y 
     20.1      17.5 

masukkan deskripsi gambar di sini

Sebenarnya, boxplots umumnya digunakan untuk pengujian hipotesis "informal", misalnya seperti yang dijelaskan oleh Yoav Benjamini pada tahun 1988 makalah Membuka Box of a Boxplot :

Plot kotak reguler dilengkapi dengan interval kepercayaan perkiraan untuk median bets, ditampilkan sebagai sepasang irisan yang diambil dari sisi kotak. Interval kepercayaan ini dibangun sedemikian rupa sehingga ketika dua takik plot kotak yang berbeda tidak tumpang tindih mediannya sangat berbeda. (...) Karena rumus untuk interval kepercayaan adalah kali konstan kisaran interkuartil dibagi dengan akar kuadrat dari ukuran batch, yang terakhir dapat dirasakan dari panjang irisan relatif terhadap panjang kotak.

Lihat juga: Uji-T hanya menggunakan data ringkasan dalam plot kotak

Plot ini tidak menunjukkan jumlah yang terlibat langsung dalam uji- , seperti yang diperhatikan oleh @NickCox . Jika Anda ingin perbandingan langsung cara dengan interval kepercayaan, Anda dapat menggunakan plot batang dengan interval kepercayaan yang ditandai. Menggunakan sarana dan interval kepercayaan juga memungkinkan Anda untuk melakukan tes hipotesis (lihat di sini atau di sini ).t

masukkan deskripsi gambar di sini

Seperti yang dapat Anda lihat dari pos dan komentar lain di bawah utas ini, plot kotak dan plot dinamit adalah pilihan yang agak kontroversial, jadi izinkan saya memberi Anda satu alternatif lagi yang belum disebutkan. Pertama, ingat bahwa uji- dan regresi terkait . Anda dapat memplot perbandingan -test-like sebagai dua poin dengan errorbar (interval kepercayaan) yang terhubung dengan garis. Kemiringan garis sebanding dengan kemiringan regresi jika Anda menggunakan regresi linier daripadat tttt-menguji dalam situasi ini. Keuntungan utama plot tersebut adalah memungkinkan Anda untuk dengan mudah menilai besarnya perbedaan cara dengan melihat kemiringan garis. Kerugiannya mungkin menunjukkan bahwa ada beberapa "kontinuitas" antara rata-rata (yaitu bahwa Anda telah memasangkan sampel).

masukkan deskripsi gambar di sini

Boxplot tampaknya lebih umum digunakan karena mereka memberikan lebih banyak informasi tentang distribusi variabel yang divisualisasikan (membandingkan rata-rata dengan interval kepercayaan saja). Mereka juga melengkapi daripada menggandakan informasi dari uji- dan penggunaan plot seperti itu didorong oleh sebagian besar panduan gaya, misalnya oleh Manual Publikasi dari American Psychological Association :t

Pertimbangan pertama adalah nilai informasi gambar dalam teks makalah yang akan ditampilkan. Jika angka tersebut tidak secara substansial menambah pemahaman kertas atau menduplikasi elemen lain dari kertas, itu tidak boleh dimasukkan.


4
Ini memang umum, bahkan dalam teks yang membahas uji-t dan ANOVA, tetapi tetap saja ini merupakan pilihan yang luar biasa. Plot kotak tidak menunjukkan jumlah yang terlibat dalam uji-t secara langsung. Minimal, plot yang bersangkutan harus menunjukkan cara dan memberikan lebih banyak detail pada distribusi daripada plot kotak. Detail dalam buntut seringkali penting dalam menafsirkan tes.
Nick Cox

OK @NickCox, dataset dipilih hanya untuk visualisasi, tetapi sekarang saya mengubahnya menjadi contoh yang lebih tepat.
Tim

3
Plot bar (alias "plot dinamit") memiliki rasio tinta: informasi yang sangat tinggi.
Frank Harrell

Kutipan dari Manual APA (saya belum memeriksa konteksnya) adalah saran umum yang baik, tetapi tidak dengan sendirinya merupakan argumen langsung untuk menggunakan plot kotak yang sebagian relevan dalam konteks ini. Saya setuju, tentu saja, bahwa plot-plot kotak bisa sangat berguna dan seringkali saling melengkapi, dan bahwa mereka sangat sering digunakan, tetapi poin pertama saya tetap.
Nick Cox

@NickCox Saya tidak bisa mengatakan bahwa saya setuju dengan Anda, tetapi saya masih akan mempertimbangkan boxplot untuk memberikan informasi tambahan dan tidak menggandakan hasil uji-t walaupun itu tidak secara langsung berhubungan dengan uji-t. Ini sederhana, jelas, dan informatif.
Tim

8

Ini sebagian besar merupakan variasi pada jawaban yang bermanfaat oleh @Tim dan @gung, tetapi grafik tidak dapat dimasukkan ke dalam komentar.

Poin kecil tapi mungkin berguna:

  1. Strip plot atau dot plot seperti yang diilustrasikan oleh @gung perlu modifikasi jika ada ikatan, seperti yang ada dalam contoh data. Poin dapat ditumpuk atau dikelompokkan, atau seperti dalam contoh di bawah ini Anda dapat menggunakan plot kotak kuantil hibrida seperti yang disarankan oleh Emanuel Parzen (referensi yang paling mudah diakses mungkin 1979. Pemodelan data statistik nonparametrik. Jurnal, American Statistics Association74: 105-121). Ini juga memiliki kelebihan lain, dalam menggarisbawahi bahwa jika separuh data ada di dalam kotak, maka separuhnya juga ada di luar, dan pada dasarnya menunjukkan semua detail distribusi. Di mana hanya ada dua kelompok, seperti yang ada dalam konteks ini, jenis plot kotak yang lebih konvensional dapat menjadi tampilan yang minimal, bahkan kerangka. Beberapa akan menganggap itu sebagai kebajikan, tetapi ada ruang untuk menunjukkan lebih detail. Argumen sebaliknya adalah bahwa plot kotak menandai titik-titik tertentu, terutama yang lebih dari 1,5 IQR dari kuartil yang lebih dekat, adalah peringatan yang jelas bagi pengguna: hati-hati dengan uji-t, karena mungkin ada poin di bagian ekor yang harus Anda miliki khawatir tentang.

  2. Anda dapat secara alami menambahkan indikasi cara ke plot kotak, yang cukup sering dilakukan. Menambahkan penanda atau simbol titik yang berbeda adalah hal biasa. Di sini kita memilih garis referensi.

masukkan deskripsi gambar di sini

Plot kotak-kuantitas untuk perokok dan non-perokok. Kotak-kotak menunjukkan median dan kuartil. Garis horizontal dalam acara biru berarti.

Catatan. Grafik dibuat di Stata. Ini adalah kode untuk mereka yang tertarik. stripplotharus diinstal sebelumnya dengan ssc inst stripplot.

clear 
mat nonsmokers = (18,22,21,17,20,17,23,20,22,21)
mat smokers = (16,20,14,21,20,18,13,15,17,21)
local n = max(colsof(nonsmokers), colsof(smokers)) 
set obs `n' 
gen smokers = smokers[1, _n] 
gen nonsmokers = nonsmokers[1, _n] 
stripplot smokers nonsmokers, vertical cumul centre xla(, noticks) ///
xsc(ra(0.6 2.4)) refline(lcolor(blue)) height(0.5) box ///
ytitle(digit span score) yla(, ang(h)) mcolor(red) msize(medlarge) 

EDIT. Gagasan lebih lanjut ini sebagai jawaban atas jawaban oleh @ Frank Harrell menempatkan dua plot probabilitas normal (plot kuantil-kuantil). Garis horizontal menunjukkan sarana. Beberapa ingin menambahkan garis untuk setiap kelompok yang menunjukkan kesesuaian sempurna, misalnya melalui ( , rata-rata) dan ( , rata-rata SD-nya) atau alternatif yang tahan-kuat.1 +01+

masukkan deskripsi gambar di sini


1
+1, saya bermaksud mengguncang data, tetapi saya belum bisa mencapainya. Saya juga berpikir untuk menambahkan plot yang lebih maju, termasuk plot kotak kuantil, plot biola, & plot qq, tetapi saya akhirnya meninggalkan ide untuk mendaftarkan plot yang lebih banyak lagi.
gung - Reinstate Monica

@ung cukup adil; sayangnya atau untungnya, utas dapat dengan mudah berubah menjadi bagaimana membandingkan dua distribusi secara umum. Sebagai contoh data lainnya, histogram bisa menjadi pesaing serius, dll.
Nick Cox

5

Selain tujuan yang bagus untuk mempresentasikan hasil harus ada beberapa pertimbangan tentang grafik yang memeriksa asumsi dari dua sampel dengan varian yang sama -tes untuk itu untuk memiliki kinerja yang sangat baik. Itu akan menjadi fungsi terbalik normal dari dua fungsi distribusi kumulatif empiris. Untuk memenuhi asumsi pengujian, kedua kurva ini harus garis lurus paralel.t


Saya telah menambahkan satu dari berbagai kemungkinan pada jawaban saya sendiri.
Nick Cox
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.