Statistik normal urutan asimtotik dari distribusi ekor berat

Latar belakang: Saya punya sampel yang ingin saya modelkan dengan distribusi berekor berat. Saya memiliki beberapa nilai ekstrim, sehingga penyebaran pengamatannya relatif besar. Ide saya adalah memodelkan ini dengan distribusi Pareto umum, dan itulah yang saya lakukan. Sekarang, 0,975 kuantil dari data empiris saya (sekitar 100 titik data) lebih rendah daripada 0,975 kuantil dari distribusi Generalized Pareto yang saya paskan dengan data saya. Sekarang, saya pikir, apakah ada cara untuk memeriksa apakah perbedaan ini perlu dikhawatirkan?

Kita tahu bahwa distribusi asimtotik dari kuantil diberikan sebagai:

Jadi saya pikir itu akan menjadi ide yang bagus untuk menghibur rasa ingin tahu saya dengan mencoba untuk merencanakan 95% band kepercayaan di sekitar 0,975 kuantil dari distribusi Pareto umum dengan parameter yang sama seperti yang saya dapatkan dari pemasangan data saya.

Seperti yang Anda lihat, kami bekerja dengan beberapa nilai ekstrem di sini. Dan karena penyebarannya sangat besar, fungsi kerapatan memiliki nilai yang sangat kecil, membuat pita kepercayaan mencapai urutan menggunakan varian dari rumus normalitas asimptotik di atas: $\pm 10^{12}$

$\pm 1.96\frac{0.975*0.025}{n({f_{GPD}(q_{0.975})})^2}$

Jadi, ini tidak masuk akal. Saya memiliki distribusi dengan hanya hasil positif, dan interval kepercayaan mencakup nilai negatif. Jadi ada sesuatu yang terjadi di sini. Jika saya menghitung band di sekitar 0,5 quantile, band-band itu tidak begitu besar, tetapi masih besar.

$\mathcal{N}(1,1)$ $n=100$ $\mathcal{N}(1,1)$

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

$\sigma=1$ $\sigma=2$

EDIT2 : Saya menarik kembali apa yang saya klaim di EDIT pertama di atas, seperti yang ditunjukkan dalam komentar oleh seorang pria yang membantu. Ini sebenarnya terlihat seperti CI ini bagus untuk distribusi normal.

Apakah normalitas asimptotik dari statistik urutan ini hanya ukuran yang sangat buruk untuk digunakan, jika seseorang ingin memeriksa apakah beberapa kuantil yang diamati kemungkinan diberikan dengan distribusi kandidat tertentu?

Secara intuitif, bagi saya sepertinya ada hubungan antara varian distribusi (yang orang pikir menciptakan data, atau dalam contoh R saya, yang kita tahu membuat data) dan jumlah pengamatan. Jika Anda memiliki 1000 pengamatan dan varian yang sangat besar, band-band ini buruk. Jika seseorang memiliki 1000 pengamatan dan varians kecil, band-band ini mungkin masuk akal.

Adakah yang mau membersihkan ini untukku?

— Erosennin
sumber

Pita Anda didasarkan pada varian dari distribusi normal asimptotik, tetapi harus didasarkan pada standar deviasi dari distribusi normal asimptotik (pita = 1,96 * sqrt ((0,975 * 0,025) / (100 * (f_norm) ^ 2)), dan juga untuk Pareto dist'n umum.) Cobalah itu dan lihat apa yang terjadi.

— jbowman

@jbowman terima kasih telah menunjukkan itu! Saya akan memperbaikinya!

— Erosennin

@jbowman yang membuat band lebih kecil dan dalam contoh dengan R-code saya yang sebenarnya memberikan sedikit lebih sedikit hit. Itu juga kesalahan lain, yang membuat perhitungan salah, tapi saya memperbaikinya sekarang. Anda membimbing saya, jadi saya sangat menghargainya! Pita yang lebih kecil dalam hal GDP adalah berita yang sangat bagus, tapi saya khawatir mereka masih sangat besar sehingga tidak mungkin digunakan. Saya masih tidak bisa melihat takeaway lain selain itu bahwa ukuran sampel dan varians adalah apa yang harus besar, bukan ukuran sampel saja.

— Erosennin

\sqrt{(} n)

$\sqrt(n)$ band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))

σ = 2

$\sigma = 2$

Saya menganggap derivasi Anda berasal dari sesuatu seperti yang ada di halaman ini .

Saya memiliki distribusi dengan hanya hasil positif, dan interval kepercayaan mencakup nilai negatif.

Nah, mengingat perkiraan normal yang masuk akal. Tidak ada yang menghentikan perkiraan normal untuk memberi Anda nilai negatif, itulah sebabnya ini merupakan perkiraan buruk untuk nilai terikat ketika ukuran sampel kecil dan / atau variansnya besar. Jika Anda mendongkrak ukuran sampel, maka interval akan menyusut karena ukuran sampel dalam penyebut ekspresi untuk lebar interval. Varians memasuki masalah melalui kepadatan: untuk mean yang sama, varians yang lebih tinggi akan memiliki kepadatan yang berbeda, lebih tinggi pada margin dan lebih rendah di dekat pusat. Densitas yang lebih rendah berarti interval kepercayaan yang lebih luas karena densitasnya berada dalam penyebut ekspresi.

$nq$ $nq(1-q)$ $j = nq - 1.96 \sqrt{nq(1-q)}$ $k = nq - 1.96 \sqrt{nq(1-q)}$ $k > n$ $j < 1$

Dalam penulisan ulang kode Anda berikut ini, saya membuat batas kepercayaan pada data empiris dan menguji untuk melihat apakah kuantil teoretis termasuk di dalamnya. Itu lebih masuk akal bagi saya, karena kuantil dari kumpulan data yang diamati adalah variabel acak. Cakupan untuk n> 1000 adalah ~ 0,95. Untuk n = 100 lebih buruk di 0,85, tapi itu diharapkan untuk kuantil dekat ekor dengan ukuran sampel kecil.

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

Sejauh menentukan ukuran sampel "cukup besar", well, lebih besar lebih baik. Apakah sampel tertentu "cukup besar" sangat bergantung pada masalah yang dihadapi, dan seberapa cerewetnya Anda dalam hal-hal seperti cakupan batas kepercayaan Anda.

— atiretoo - mengembalikan monica
sumber

Terima kasih telah berkontribusi! Saya menunjukkan bahwa saya tidak melihat bagaimana ada sampel absolut "besar", dan kita harus memperhitungkan variansnya. Saya ingin tahu bagaimana ini berhubungan dengan cara saya membangun CI, tetapi juga secara umum. Mengenai derivasi, Anda dapat, misalnya, lihat di sini: math.mcgill.ca/ ~ dstephens / OldCourses / 556-2006/... CI yang saya buat mengikuti dari contoh di tautan itu. Anda menulis bahwa "Saya membuat batas kepercayaan pada data empiris ..." dan ini lebih masuk akal bagi Anda. Bisakah Anda menjelaskan lebih lanjut tentang ini CI saya?

— Erosennin

Ah, ya, Anda memiliki tautan derivasi yang tepat. Maaf, salah saya.

— Erosennin

OK, saya mengeditnya lagi untuk menggambarkan dengan benar bagaimana varians dari distribusi mempengaruhi perkiraan yang Anda gunakan, dan sedikit lebih banyak diskusi tentang apa arti sampel "besar". CI Anda terpusat pada nilai teoretis, sedangkan saya berpusat pada yang empiris. Saya pikir untuk membandingkan kuantil empiris dengan yang teoritis interval harus dibangun di atas kuantil empiris. Juga perkiraan yang saya gunakan membuat satu kurang "normal" perkiraan karena tidak ada banding ke teorema batas pusat untuk memulai.

— atiretoo - mengembalikan monica

Saya menghargai upaya ini, mungkin pertanyaan saya bisa lebih jelas. Saya telah menyadari bagaimana kerapatan dan ukuran sampel mempengaruhi varians, itulah poin saya di tempat pertama. Tapi, sekali lagi, salahku, aku bisa lebih jelas. Ini adalah "asimptotik" yang saya rasa harus diganti dengan sesuatu yang mempertimbangkan varians. Nah, Anda juga telah memusatkan CI Anda di sekitar nilai-nilai teoritis. n * q persis dengan nilai teoretis Anda. Dalam membangun band Anda, pada dasarnya Anda telah melakukan hal yang sama seperti saya, hanya dengan metode yang berbeda.

— Erosennin