Dapatkah seseorang tolong berikan penjelasan sederhana (orang awam) tentang hubungan antara distribusi Pareto dan Teorema Limit Pusat (misalnya apakah itu berlaku? Mengapa / mengapa tidak?)? Saya mencoba memahami pernyataan berikut:
Dapatkah seseorang tolong berikan penjelasan sederhana (orang awam) tentang hubungan antara distribusi Pareto dan Teorema Limit Pusat (misalnya apakah itu berlaku? Mengapa / mengapa tidak?)? Saya mencoba memahami pernyataan berikut:
Jawaban:
Pernyataan ini tidak benar secara umum - distribusi Pareto memang memiliki mean yang terbatas jika parameter bentuknya ( pada tautan) lebih besar dari 1.
Ketika mean dan varians ada ( ), bentuk biasa dari teorema limit pusat - misalnya klasik, Lyapunov, Lindeberg akan berlaku
Lihat deskripsi teorema limit sentral klasik di sini
Kutipan ini agak aneh, karena teorema batas pusat (dalam bentuk apa pun di atas) tidak berlaku untuk sampel mean itu sendiri, tetapi untuk mean standar (dan jika kita mencoba menerapkannya pada sesuatu yang mean dan variansnya) tidak terbatas kita perlu menjelaskan dengan sangat hati-hati apa yang sebenarnya kita bicarakan, karena pembilang dan penyebut melibatkan hal-hal yang tidak memiliki batas terbatas).
Namun demikian (meskipun tidak secara tepat diekspresikan untuk berbicara tentang teorema limit pusat) ia memang memiliki sesuatu yang mendasarinya - mean sampel tidak akan menyatu dengan rata-rata populasi ( hukum lemah dalam jumlah besar tidak berlaku, karena integral menentukan rata-rata tidak terbatas).
Seperti yang ditunjukkan oleh kjetil dalam komentar, jika kita ingin menghindari tingkat konvergensi yang mengerikan (yaitu untuk dapat menggunakannya dalam praktik), kita perlu semacam ikatan pada "seberapa jauh" / "seberapa cepat" aproksimasi dimulai. Tidak ada gunanya memiliki aproksimasi yang memadai untuk (katakanlah) jika kita menginginkan penggunaan praktis dari aproksimasi normal.
Teorema batas pusat adalah tentang tujuan tetapi tidak memberi tahu kita seberapa cepat kita sampai di sana; ada, bagaimanapun, hasil seperti teorema Berry-Esseen yang mengikat laju (dalam arti tertentu). Dalam kasus Berry-Esseen, ia membatasi jarak terbesar antara fungsi distribusi rata-rata terstandarisasi dan cdf normal standar dalam hal momen absolut ketiga ( ).
Jadi dalam kasus Pareto, jika , kita setidaknya bisa terikat pada seberapa buruk perkiraan di beberapa , dan seberapa cepat kita sampai di sana. (Di sisi lain, membatasi perbedaan dalam cdf tidak selalu merupakan hal yang "praktis" untuk diikat - apa yang Anda minati mungkin tidak berhubungan dengan baik dengan perbedaan perbedaan pada area ekor). Namun demikian, ini adalah sesuatu (dan setidaknya dalam beberapa situasi ikatan cdf lebih bermanfaat secara langsung).
Saya akan menambahkan jawaban yang menunjukkan seberapa buruk perkiraan dari teorema batas pusat (CLT) untuk distribusi pareto, bahkan dalam kasus di mana asumsi untuk CLT terpenuhi. Asumsinya adalah bahwa harus ada varian terbatas, yang untuk pareto berarti . Untuk diskusi yang lebih teoretis tentang mengapa ini terjadi, lihat jawaban saya di sini: Apa perbedaan antara varian terbatas dan tak terbatas
Saya akan mensimulasikan data dari distribusi pareto dengan parameter , sehingga varians "nyaris tidak ada". Ulangi simulasi saya dengan untuk melihat perbedaannya! Berikut ini beberapa kode R:
### Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) # for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1 # variance just barely exist
E <- function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))
R <- 10000
e <- E(alpha)
sigma <- sqrt(VAR(alpha))
sim <- function(n) {
replicate(R, {x <- rpareto1(n,alpha,1)
x <- x-e
mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...
### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:
sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)
### Now we plot the histograms:
hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)
Dan inilah plotnya:
Orang dapat melihat bahwa bahkan pada ukuran sampel kita jauh dari perkiraan normal. Bahwa varian empiris jauh lebih rendah daripada varian teoretis yang sebenarnya disebabkan oleh fakta bahwa kami memiliki kontribusi yang sangat besar terhadap varian dari bagian-bagian distribusi di ekor kanan ekstrem yang tidak muncul di sebagian besar sampel. Ini harus selalu diharapkan, ketika varian "nyaris tidak ada". Cara praktis untuk memikirkannya adalah sebagai berikut. Distribusi pareto sering diusulkan untuk memodelkan distribusi pendapatan (atau kekayaan). Harapan pendapatan (atau kekayaan) akan memiliki kontribusi yang sangat besar dari sangat sedikit miliaran. Pengambilan sampel dengan ukuran sampel praktis akan memiliki probabilitas yang sangat kecil untuk memasukkan miliar miliar dalam sampel!
Saya suka sudah memberikan jawaban tetapi berpikir ada sedikit banyak teknis untuk "penjelasan orang awam" jadi saya akan mencoba sesuatu yang lebih intuitif (dimulai dengan persamaan ...).
Kemudian, teorema limit pusat menetapkan distribusi jarak antara rata-rata empiris dan mean sebagai fungsi dari varians dan (secara asimptikal dengan ). Mari kita lihat bagaimana rata-rata empiris berperilaku sebagai fungsi dari jumlah untuk kepadatan gaussian :μpnn ˉ x np
N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()
Ini adalah realisasi tipikal, mean sampel konvergen ke densitas rata-rata dengan cukup baik (dan rata-rata dengan cara yang diberikan oleh teorema batas pusat). Mari kita lakukan hal yang sama untuk distribusi pareto tanpa rata-rata (substituing rnorm (N, 1,1); oleh pareto (N, 1.1,1);)
Ini juga merupakan simulasi yang khas, dari waktu ke waktu, mean sampel menyimpang sangat sederhana karena dijelaskan menggunakan rumus integral, dalam produk , frekuensi nilai tinggi tidak cukup kecil untuk mengkompensasi fakta bahwa tinggi. Jadi mean tidak ada dan sampel rata-rata tidak konvergen ke nilai khas apa pun dan teorema limit pusat tidak ada artinya.x x
Akhirnya, perhatikan bahwa teorema limit pusat berhubungan dengan mean empiris, mean, ukuran sampel dan varians. Jadi varians juga harus ada (lihat kjetil b halvorsen jawaban untuk detailnya).∫ ( x - μ ) 2 p ( x ) d x