Ketika saya belajar tentang kecukupan, saya menemukan pertanyaan Anda karena saya juga ingin memahami intuisi tentang Dari apa yang saya kumpulkan, inilah yang saya hasilkan (beri tahu saya apa yang Anda pikirkan, jika saya membuat kesalahan, dll).
Misalkan menjadi sampel acak dari distribusi Poisson dengan rata-rata θ > 0 .X1,…,Xnθ>0
Kita tahu bahwa adalah statistik cukup untuk θ , karena distribusi bersyarat dari X 1 , ... , X n diberikan T ( X ) adalah bebas dari θ , dengan kata lain, tidak tergantung pada θ .T(X)=∑ni=1XiθX1,…,XnT(X)θθ
Sekarang, ahli statistik tahu bahwa X 1 , ... , X n i . i . d ~ P o i s s o n ( 4 ) dan menciptakan n = 400 nilai acak dari distribusi ini:A X1,…,Xn∼i.i.dPoisson(4)n=400
n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)
freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)
Untuk nilai yang dibuat oleh ahli statistik , ia mengambil jumlahnya dan bertanya kepada ahli statistik B berikut ini:AB
"Saya telah nilai-nilai sampel ini diambil dari distribusi Poisson. Mengetahui bahwa Σ n i = 1 x i = y = 4068 , apa yang bisa Anda ceritakan tentang distribusi ini?"x1,…,xn∑ni=1xi=y=4068
Jadi, hanya mengetahui bahwa (dan fakta bahwa sampel muncul dari distribusi Poisson) sudah cukup bagi ahli statistik B untuk mengatakan sesuatu tentang θ ? Karena kita tahu bahwa ini adalah statistik yang cukup, kita tahu bahwa jawabannya adalah "ya".∑ni=1xi=y=4068Bθ
Untuk mendapatkan intution tentang makna ini, mari kita lakukan hal berikut (diambil dari "Pengantar Statistik Matematika" Hogg & Mckean & Craig, edisi ke-7, latihan 7.1.9):
" memutuskan untuk membuat beberapa pengamatan palsu, yang dia sebut z 1 , z 2 , ... , z n (karena dia tahu mereka mungkin tidak akan sama dengan nilai x- asli ) sebagai berikut. Dia mencatat bahwa probabilitas bersyarat Poisson independen variabel acak Z 1 , Z 2 ... , Z n yang sama dengan z 1 , z 2 , ... , z n , diberikan Σ z i = y , adalahBz1,z2,…,znxZ1,Z2…,Znz1,z2,…,zn∑zi=y
θz1e−θz1!θz2e−θz2!⋯θzne−θzn!nθye−nθy!=y!z1!z2!⋯zn!(1n)z1(1n)z2⋯(1n)zn
since Y=∑Zi has a Poisson distribution with mean nθ. The latter distribution is multinomial with y independent trials, each terminating in one of n mutually exclusive and exhaustive ways, each of which has the same probability 1/n. Accordingly, B runs such a multinomial experiment y independent trials and obtains z1,…,zn."
This is what the exercise states. So, let's do exactly that:
# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)
And let's see what Z looks like (I'm also plotting the real density of Poisson(4) for k=0,1,…,13 - anything above 13 is pratically zero -, for comparison):
# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"),
col = c("black","green"),pch=c(1,4))
So, knowing nothing about θ and knowing only the sufficient statistic Y=∑Xi we were able to recriate a "distribution" that looks a lot like a Poisson(4) distribution (as n increases, the two curves become more similar).
Now, comparing X and Z|y:
plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))
We see that they are pretty similar, as well (as expected)
Jadi, "untuk tujuan membuat keputusan statistik, kita dapat mengabaikan variabel acak individu Xsaya dan mendasarkan keputusan sepenuhnya pada Y= X1+ X2+ ⋯ + Xn"(Ash, R." Inferensi Statistik: Kursus singkat ", halaman 59).