Apa perbedaan antara varian terbatas dan tak terbatas? Pengetahuan statistik saya agak mendasar; Wikipedia / Google tidak banyak membantu di sini.
Apa perbedaan antara varian terbatas dan tak terbatas? Pengetahuan statistik saya agak mendasar; Wikipedia / Google tidak banyak membantu di sini.
Jawaban:
Apa artinya variabel acak memiliki "varian tak terbatas"? Apa artinya variabel acak memiliki harapan tak terbatas? Penjelasan dalam kedua kasus agak mirip, jadi mari kita mulai dengan kasus harapan, dan kemudian varians setelah itu.
Biarkan menjadi variabel acak kontinu (RV) (kesimpulan kami akan lebih valid secara umum, untuk kasus diskrit, ganti integral dengan jumlah). Untuk menyederhanakan eksposisi, mari kita asumsikan X ≥ 0 .
Harapannya ditentukan oleh integral saat yang tidak terpisahkan ada, yaitu terbatas. Kalau tidak, kita katakan harapannya tidak ada. Itu adalah integral yang tidak tepat, dan menurut definisi adalah ∫ ∞ 0 x f ( x )
Dalam banyak situasi, itu tampaknya tidak realistis. Mari kita katakan model asuransi (jiwa), jadi memodelkan beberapa kehidupan (manusia) Kita tahu bahwa, katakan X > 1000 tidak terjadi, tetapi dalam praktiknya kita menggunakan model tanpa batas atas. Alasannya jelas: Tidak sulit batas atas diketahui, jika seseorang sudah tua (katakanlah) 110 tahun, tidak ada alasan dia tidak bisa hidup satu tahun lagi! Jadi model dengan batas atas yang keras sepertinya buatan. Namun, kami tidak ingin ekor atas yang ekstrem memiliki banyak pengaruh.
Jika memiliki ekspektasi terbatas, maka kita dapat mengubah model untuk memiliki batas atas yang keras tanpa pengaruh yang tidak semestinya terhadap model. Dalam situasi dengan batas atas fuzzy yang tampak bagus. Jika model memiliki ekspektasi tak terbatas, maka, setiap batas atas keras yang kami perkenalkan pada model akan memiliki konsekuensi dramatis! Itulah pentingnya harapan yang tak terbatas.
Dengan harapan yang terbatas, kita bisa kabur tentang batas atas. Dengan harapan yang tak terbatas, kita tidak bisa .
Sekarang, banyak hal yang sama dapat dikatakan tentang varian tak terbatas, mutatis mutandi.
Untuk memperjelas, mari kita lihat pada contoh. Sebagai contoh kita menggunakan distribusi Pareto, diimplementasikan dalam paket R (pada CRAN) actuar sebagai pareto1 --- parameter tunggal distribusi Pareto juga dikenal sebagai distribusi Pareto tipe 1. Ini memiliki fungsi kepadatan probabilitas yang diberikan oleh untuk beberapa parameterm>0,α>0. Ketikaα>1harapan ada dan diberikan olehα
Ketika harapan ada ( ) kita dapat membaginya dengan untuk mendapatkan distribusi momen pertama relatif, diberikan oleh E r ( M ) = E ( m ) / E ( ∞ ) = 1 - ( m Ketikaαhanya sedikit lebih besar dari satu, sehingga harapan "nyaris tidak ada", integral yang mendefinisikan harapan akan konvergen perlahan. Mari kita lihat contoh denganm=1,α=1.2. Mari kita merencanakan makaEr(M)dengan bantuan R:
### Function for opening new plot file:
open_png <- function(filename) png(filename=filename,
type="cairo-png")
library(actuar) # from CRAN
### Code for Pareto type I distribution:
# First plotting density and "graphical moments" using ideas from http://www.quantdec.com/envstats/notes/class_06/properties.htm and used some times at cross validated
m <- 1.0
alpha <- 1.2
# Expectation:
E <- m * (alpha/(alpha-1))
# upper limit for plots:
upper <- qpareto1(0.99, alpha, m)
#
open_png("first_moment_dist1.png")
Er <- function(M, m, alpha) 1.0 - (m/M)^(alpha-1.0)
### Inverse relative first moment distribution function, giving
# what we may call "expectation quantiles":
Er_inv <- function(eq, m, alpha) m*exp(log(1.0-eq)/(1-alpha))
plot(function(M) Er(M, m, alpha), from=1.0, to=upper)
plot(function(M) ppareto1(M, alpha, m), from=1.0, to=upper, add=TRUE, col="red")
dev.off()
yang menghasilkan plot ini:
Fungsi Er_inv didefinisikan di atas adalah distribusi momen pertama relatif relatif, analog dengan fungsi kuantil. Kita punya:
> ### What this plot shows very clearly is that most of the contribution to the expectation come from the very extreme right tail!
# Example
eq <- Er_inv(0.5, m, alpha)
ppareto1(eq, alpha, m)
eq
> > > [1] 0.984375
> [1] 32
>
set.seed(1234)
n <- 5
N <- 10000000 # Number of simulation replicas
means <- replicate(N, mean(rpareto1(n, alpha, m) ))
> mean(means)
[1] 5.846645
> median(means)
[1] 2.658925
> min(means)
[1] 1.014836
> max(means)
[1] 633004.5
length(means[means <=100])
[1] 9970136
Untuk mendapatkan plot yang mudah dibaca, kami hanya menampilkan histogram untuk bagian sampel dengan nilai di bawah 100, yang merupakan bagian yang sangat besar dari sampel.
open_png("mean_sim_hist1.png")
hist(means[means<=100], breaks=100, probability=TRUE)
dev.off()
Distribusi cara aritmatika sangat miring,
> sum(means <= 6)/N
[1] 0.8596413
>
hampir 86% dari rata-rata empiris kurang atau sama dengan rata-rata teoritis, harapan. Itulah yang harus kita harapkan, karena sebagian besar kontribusi ke mean berasal dari ekor atas yang ekstrim, yang tidak terwakili dalam sebagian besar sampel .
Kita perlu kembali untuk menilai kembali kesimpulan kita sebelumnya. Sementara keberadaan mean memungkinkan untuk menjadi kabur tentang batas atas, kita melihat bahwa ketika "rata-rata nyaris tidak ada", yang berarti bahwa integral perlahan-lahan konvergen, kita tidak bisa benar-benar menjadi fuzzy tentang batas atas . Integral konvergen yang lambat memiliki konsekuensi bahwa mungkin lebih baik menggunakan metode yang tidak berasumsi bahwa harapan itu ada . Ketika integral terpusat sangat lambat, dalam praktiknya seolah-olah tidak bertemu sama sekali. Manfaat praktis yang mengikuti dari integral konvergen adalah chimera dalam kasus konvergen lambat! Itu adalah salah satu cara untuk memahami kesimpulan NN Taleb di http://fooledbyrandomness.com/complexityAugust-06.pdf
Varians adalah ukuran dispersi dari distribusi nilai-nilai variabel acak. Ini bukan satu-satunya ukuran seperti itu, misalnya rata-rata penyimpangan absolut adalah salah satu alternatif.
Varians tak terbatas berarti bahwa nilai acak cenderung berkonsentrasi di sekitar rata-rata terlalu ketat . Ini bisa berarti bahwa ada kemungkinan yang cukup besar bahwa angka acak berikutnya akan sangat jauh dari rata-rata.
Distribusi seperti Normal (Gaussian) dapat menghasilkan angka acak yang sangat jauh dari rata-rata, tetapi probabilitas kejadian seperti itu menurun sangat cepat dengan besarnya penyimpangan.
Dalam hal itu ketika Anda melihat plot distribusi Cauchy atau distribusi Gaussian (normal), mereka tidak terlihat sangat berbeda secara visual. Namun, jika Anda mencoba untuk menghitung varian dari distribusi Cauchy itu akan menjadi tak terbatas, sedangkan Gaussian terbatas. Jadi, distribusi normal lebih ketat di sekitar rata-rata dibandingkan dengan Cauchy's.
Btw, jika Anda berbicara dengan ahli matematika, mereka akan bersikeras bahwa distribusi Cauchy tidak memiliki rata-rata yang jelas, bahwa itu tak terbatas. Ini kedengarannya menggelikan bagi fisikawan yang menunjukkan fakta bahwa Cauchy simetris, karenanya, pasti memiliki maksud. Dalam hal ini mereka berpendapat bahwa masalahnya adalah dengan definisi Anda tentang mean, bukan dengan distribusi Cauchy.
Cara alternatif untuk melihatnya adalah dengan fungsi kuantil.
Kemudian kita dapat menghitung momen atau harapan
Kurva dalam gambar menunjukkan berapa banyak masing-masing kuantil berkontribusi dalam perhitungan.
Ketakterhinggaan ini mungkin tidak begitu aneh karena integrand sendiri jarak (rata-rata) atau jarak kuadrat (varians) dapat menjadi tak terbatas. Hanya pertanyaan berapa berat , berapa persen F, yang dimiliki ekor tanpa batas.
Dalam penjumlahan / integrasi jarak dari nol (rata-rata) atau jarak kuadrat dari rata-rata (varians) satu titik yang sangat jauh akan memiliki lebih banyak pengaruh pada jarak rata-rata (atau jarak kuadrat) daripada banyak titik di dekatnya.
Jadi ketika kita bergerak ke arah tak terhingga kepadatan mungkin menurun, tetapi pengaruh pada jumlah beberapa (peningkatan) kuantitas, misalnya jarak atau jarak kuadrat tidak selalu berubah.