Latar belakang: Saya punya sampel yang ingin saya modelkan dengan distribusi berekor berat. Saya memiliki beberapa nilai ekstrim, sehingga penyebaran pengamatannya relatif besar. Ide saya adalah memodelkan ini dengan distribusi Pareto umum, dan itulah yang saya lakukan. Sekarang, 0,975 kuantil dari data empiris saya (sekitar 100 titik data) lebih rendah daripada 0,975 kuantil dari distribusi Generalized Pareto yang saya paskan dengan data saya. Sekarang, saya pikir, apakah ada cara untuk memeriksa apakah perbedaan ini perlu dikhawatirkan?
Kita tahu bahwa distribusi asimtotik dari kuantil diberikan sebagai:
Jadi saya pikir itu akan menjadi ide yang bagus untuk menghibur rasa ingin tahu saya dengan mencoba untuk merencanakan 95% band kepercayaan di sekitar 0,975 kuantil dari distribusi Pareto umum dengan parameter yang sama seperti yang saya dapatkan dari pemasangan data saya.
Seperti yang Anda lihat, kami bekerja dengan beberapa nilai ekstrem di sini. Dan karena penyebarannya sangat besar, fungsi kerapatan memiliki nilai yang sangat kecil, membuat pita kepercayaan mencapai urutan menggunakan varian dari rumus normalitas asimptotik di atas:
Jadi, ini tidak masuk akal. Saya memiliki distribusi dengan hanya hasil positif, dan interval kepercayaan mencakup nilai negatif. Jadi ada sesuatu yang terjadi di sini. Jika saya menghitung band di sekitar 0,5 quantile, band-band itu tidak begitu besar, tetapi masih besar.
################################################
# Test at the 0.975 quantile
################################################
#normal(1,1)
#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.975)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
#################################################################3
# Test at the 0.5 quantile
#################################################################
#using lower quantile:
#normal(1,1)
#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.7)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
EDIT2 : Saya menarik kembali apa yang saya klaim di EDIT pertama di atas, seperti yang ditunjukkan dalam komentar oleh seorang pria yang membantu. Ini sebenarnya terlihat seperti CI ini bagus untuk distribusi normal.
Apakah normalitas asimptotik dari statistik urutan ini hanya ukuran yang sangat buruk untuk digunakan, jika seseorang ingin memeriksa apakah beberapa kuantil yang diamati kemungkinan diberikan dengan distribusi kandidat tertentu?
Secara intuitif, bagi saya sepertinya ada hubungan antara varian distribusi (yang orang pikir menciptakan data, atau dalam contoh R saya, yang kita tahu membuat data) dan jumlah pengamatan. Jika Anda memiliki 1000 pengamatan dan varian yang sangat besar, band-band ini buruk. Jika seseorang memiliki 1000 pengamatan dan varians kecil, band-band ini mungkin masuk akal.
Adakah yang mau membersihkan ini untukku?