Nilai p untuk uji-t dihitung dengan asumsi bahwa semua pengamatan independen. Probabilitas komputasi (seperti nilai p) jauh lebih sulit ketika Anda berurusan dengan variabel dependen, dan tidak selalu mudah untuk melihat secara matematis di mana ada yang salah dengan tes di hadapan ketergantungan. Namun kami dapat dengan mudah menggambarkan masalah dengan simulasi.
Misalnya, perhatikan kasus di mana ada 5 ruang kelas di masing-masing dua sekolah, dengan 10 siswa di setiap ruang kelas. Di bawah asumsi normalitas, nilai p tes harus didistribusikan secara merata pada interval jika tidak ada perbedaan dalam nilai tes rata-rata antara semua ruang kelas. Artinya, jika kami melakukan banyak penelitian seperti ini dan merencanakan histogram dari semua nilai-p, itu harus menyerupai distribusi seragam berbentuk kotak .( 0 , 1 )
Namun, jika ada suatu korelasi di dalam kelas antara hasil siswa, nilai-p tidak lagi berperilaku sebagaimana mestinya. Korelasi positif (seperti yang mungkin diharapkan di sini) akan sering mengarah pada nilai-p yang terlalu kecil, sehingga hipotesis nol akan ditolak terlalu sering padahal faktanya benar. Simulasi R menggambarkan ini dapat ditemukan di bawah. 1000 studi dari dua sekolah disimulasikan untuk korelasi dalam kelas yang berbeda. Nilai-p dari uji-t correpsonding ditunjukkan dalam histogram pada gambar. Mereka didistribusikan secara seragam ketika tidak ada korelasi, tetapi tidak sebaliknya. Dalam simulasi, diasumsikan bahwa tidak ada perbedaan rata-rata antara ruang kelas, dan bahwa semua ruang kelas memiliki korelasi dalam ruang kelas yang sama.
Konsekuensi dari fenomena ini adalah bahwa tingkat kesalahan tipe I dari uji-t akan jauh jika ada korelasi di dalam kelas. Sebagai contoh, uji-t pada tingkat 5% sebenarnya sekitar pada tingkat 25% jika korelasi di dalam kelas adalah 0,1! Dengan kata lain, risiko salah menolak hipotesis nol meningkat secara dramatis ketika pengamatan bergantung .
Perhatikan bahwa sumbu agak berbeda di antara histogram.
Kode R:
library(MASS)
B1<-1000
par(mfrow=c(3,2))
for(correlation in c(0,0.1,0.25,0.5,0.75,0.95))
{
# Create correlation/covariance matrix and mean vector
Sigma<-matrix(correlation,10,10)
diag(Sigma)<-1
mu<-rep(5,10)
# Simulate B1 studies of two schools A and B
p.value<-rep(NA,B1)
for(i in 1:B1)
{
# Generate observations of 50 students from school A
A<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
# Generate observations of 50 students from school B
B<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
p.value[i]<-t.test(A,B)$p.value
}
# Plot histogram
hist(p.value,main=paste("Within-classroom correlation:",correlation),xlab="p-value",cex.main=2,cex.lab=2,cex.axis=2)
}