Kurtosis distribusi dibuat-buat

8

Lihatlah gambar di bawah ini. Garis biru menunjukkan pdf normal standar. Zona merah seharusnya sama dengan jumlah area abu-abu (maaf untuk gambar yang mengerikan).

Saya ingin tahu, bisakah kita membuat distribusi baru dengan puncak yang lebih tinggi dengan menggeser zona abu-abu ke atas (zona merah) dari pdf normal?

distribusi baru dengan puncak yang lebih tinggi

Jika transformasi semacam itu dapat dilakukan, apa pendapat Anda tentang kurtosis distribusi baru ini? Leptokurtik? Tetapi memiliki ekor yang sama dengan distribusi normal! Tidak terdefinisi?

mathematical-statistics kurtosis

— Yal dc
sumber

1

Pertanyaannya tampan tetapi gambarnya memang mengerikan. Distribusi yang lebih tajam-kurtik daripada normal seharusnya lebih berat. Tetapi Anda tidak menggambar daerah ekor ini (yang juga harus berwarna merah). Area apa yang menurut Anda harus ditambahkan?

— ttnphns

1

Kenapa tidak mencobanya? Simulasikan (katakanlah) 10.000 dari standar normal, kemudian pindahkan beberapa angka untuk membuat distribusi yang Anda inginkan. Kemudian Anda bisa menggambar garis dengan program dan menghitung kurtosis juga.

— Peter Flom

Jika Anda siap mengorbankan berdiferensiasi kepadatan, maka Anda dapat membangun distribusi seperti itu (yang akan memiliki kepadatan sepotong).

— Alecos Papadopoulos

2

@ttnphns, maaf jika tag tersebut menyesatkan Anda. Saya berharap gambar itu akan menjelaskan bahwa saya tidak ingin ada perubahan pada ekornya. Biasanya, buku pelajaran membahas kurtosis membandingkan perubahan simultan pada puncak dan ekor. Saya ingin memahami apa yang bisa dikatakan tentang kurtosis ketika hanya puncak yang menjadi lebih tinggi.

— Yal dc

1

Yal dc - Anda harus mencatat bahwa standar deviasi Anda telah berubah, jadi 'ekornya' tidak sama kecuali jika Anda menggunakan beberapa definisi khusustail

— Glen_b -Reinstate Monica

12

Akan ada jumlah distribusi yang tak terbatas yang terlihat sangat mirip dengan gambar Anda, dengan berbagai nilai berbeda untuk kurtosis.

Dengan kondisi khusus dalam pertanyaan Anda dan mengingat kami memegang titik crossover untuk berada di dalam, atau setidaknya tidak terlalu jauh di luar $\pm 1$ , seharusnya Anda mendapatkan kurtosis yang sedikit lebih besar daripada normal. Saya akan menunjukkan tiga kasus di mana itu terjadi, dan kemudian saya akan menunjukkan satu di mana itu lebih kecil - dan menjelaskan apa yang menyebabkannya terjadi.

Mengingat bahwa dan adalah pdf dan cdf normal standar masing-masing, mari kita tulis sendiri sedikit fungsi $\phi(x)$ $\Phi(x)$

f (x) = {\begin{cases} ϕ (x) & ; | x | > t \\ a + b . g (x) & ; | x | \leq t \end{cases}

$f(x) = \begin{cases} \phi(x) &\mbox{;}\quad |x| > t \\ a+b.g(x) & \mbox{;}\quad |x| ≤ t \end{cases} \$

untuk beberapa kontinu, kerapatan simetris (dengan cdf ), dengan rata-rata , sehingga dan . $g$ $G$ $0$ $b = \frac{\Phi(t)\, –\, ½\, –\, t.\phi(t)}{G(t)\, –\, ½\, –\, t.g(t)}$ $a = \phi(t)-b.g(t)$

Yaitu, dan dipilih untuk membuat kerapatan berlanjut dan berintegrasi ke . $a$ $b$ $1$

Contoh 1 Pertimbangkandan, $g(x) = 3\, \phi(3x)$ $t=1$

masukkan deskripsi gambar di sini

yang terlihat seperti gambar Anda, di sini dihasilkan oleh kode R berikut:

f <- function(x, t=1,
              dg=function(x) 2*dnorm(2*x),
              pg=function(x) pnorm(2*x),
              b=(pnorm(t) - 0.5 - t*dnorm(t))/ (pg(t) - 0.5 - t*dg(t)),
              a=dnorm(t)-b*dg(t) ) {
       ifelse(abs(x)>t,dnorm(x),a+b*dg(x))
     }

f1 <- function(x) f(x,t=1,dg=function(x) 3*dnorm(3*x),pg=function(x) pnorm(3*x))
curve(f1,-4,4,col=2)
lines(x,dnorm(x),col=3)

Sekarang perhitungannya. Mari kita membuat fungsi untuk mengevaluasi : $x^pf_1(x)$

fp <- function(x,p=2) x^p*f1(x)

sehingga kami dapat mengevaluasi momen. Pertama varians:

 integrate(fp,-Inf,Inf)  # should be just smaller than 1
0.9828341 with absolute error < 1.4e-07

Berikutnya momen sentral keempat:

 integrate(fp,-Inf,Inf,p=4) # should be just smaller than 3
2.990153 with absolute error < 8.3e-06

Kami membutuhkan rasio angka-angka itu, yang harus memiliki akurasi sekitar 5 angka

 integrate(fp,-Inf,Inf,p=4)$value/(integrate(fp,-Inf,Inf)$value^2)
[1] 3.095515

Jadi kurtosisnya sekitar 3.0955, sedikit lebih besar dari pada kasus normal.

Tentu saja kita bisa menghitungnya secara aljabar dan mendapatkan jawaban yang tepat, tetapi tidak perlu, ini memberi tahu kita apa yang ingin kita ketahui.

Contoh 2 Dengan fungsididefinisikan di atas kita dapat mencobanya untuk semua cara. $f$ $g$

Inilah Laplace:

library(distr)
D <- DExp(rate = 1) 
f2 <- function(x) f(x,t=1,dg=d(D),pg=p(D))
curve(f2,-4,4,col=2)
lines(x,dnorm(x),col=3)

masukkan deskripsi gambar di sini

fp2 <- function(x,p=2) x^p*f2(x)


 integrate(fp2,-Inf,Inf)  # should be just smaller than 1
0.9911295 with absolute error < 1.1e-07
 integrate(fp2,-Inf,Inf,p=4) # should be just smaller than 3
2.995212 with absolute error < 5.9e-06
 integrate(fp2,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 3.049065

Tidak mengherankan, hasil yang sama.

Contoh 3 : Mari kitasebagai distribusi Cauchy (distribusi Student-t dengan 1 df), tetapi dengan skala 2/3 (yaitu, jikaadalah Cauchy standar,, dan sekali lagi mengatur ambang, t (memberikan poin,, di luar yang kita 'beralih' ke normal), menjadi 1. $g$ $h(x)$ $g(x) = 1.5 h(1.5 x)$ $\pm t$

dg <- function(x) 1.5*dt(1.5*x,df=1)
pg <- function(x) pt(1.5*x,df=1)

f3 <- function(x) f(x,t=1,dg=dg,pg=pg)
curve(f3,-4,4,col=2)
lines(x,dnorm(x),col=3)

masukkan deskripsi gambar di sini

fp3 <- function(x,p=2) x^p*f3(x)

 integrate(fp3,-Inf,Inf)  # should be just smaller than 1
0.9915525 with absolute error < 1.1e-07

 integrate(fp3,-Inf,Inf,p=4) # should be just smaller than 3
2.995066 with absolute error < 6.2e-06

 integrate(fp3,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 3.048917

Dan hanya untuk menunjukkan bahwa kita benar-benar mendapatkan kepadatan yang tepat:

 integrate(f3,-Inf,Inf)
1 with absolute error < 9.4e-05

Contoh 4 : Namun , apa yang terjadi ketika kita mengubah t ?

Ambil dan seperti contoh sebelumnya, tetapi ubah ambang ke : $g$ $G$ $t=2$

f4 <- function(x) f(x,t=2,dg=dg,pg=pg)
curve(f4,-4,4,col=2)
lines(x,dnorm(x),col=3)

masukkan deskripsi gambar di sini

fp4 <- function(x,p=2) x^p*f4(x)

 integrate(fp4,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 2.755231

Bagaimana ini bisa terjadi?

Nah, penting untuk mengetahui bahwa kurtosis adalah (berbicara sedikit longgar) 1+ varian kuadrat tentang : $\mu\pm\sigma$

masukkan deskripsi gambar di sini

Ketiga distribusi memiliki mean dan varians yang sama.

Kurva hitam adalah kepadatan normal standar. Kurva hijau menunjukkan distribusi yang cukup terkonsentrasi tentang (yaitu, varians tentang kecil, yang mengarah ke kurtosis yang mendekati 1, yang terkecil mungkin). Kurva merah menunjukkan kasus di mana distribusi "didorong menjauh" dari ; itu adalah kurtosis yang besar. $\mu\pm\sigma$ $\mu\pm\sigma$ $\mu\pm\sigma$

Dengan mengingat hal itu, jika kita menetapkan titik ambang cukup jauh di luar kita dapat mendorong kurtosis di bawah 3, dan masih memiliki puncak yang lebih tinggi. $\mu\pm\sigma$

— Glen_b -Reinstate Monica
sumber

pekerjaan yang luar biasa. Terima kasih. Satu pertanyaan lagi, jika Anda tidak keberatan: apakah ada aturan untuk memutuskan di mana puncak berakhir dan di mana ekor dimulai?

— Yal dc

1

Tidak juga. Jika kita membatasi diri pada kasus unimodal simetris terus menerus dengan momen ke-4 terbatas (karena kita sedang membahas kurtosis), dalam banyak kasus saya tidak berpikir masuk akal untuk memanggil apa pun di luar 'puncak' atau apa pun di dalam 'ekor', tetapi kadang-kadang sulit dikatakan. misalnya, pertimbangkan ; ketika mendekati , tidak ada tempat yang jelas untuk mulai menyebut ekornya. Di sisi lain, dengan distribusi Laplace, Anda dapat menyebut apa saja di kedua sisi tepat pusat ekor.

μ \pm σ

$\mu \pm \sigma$

μ \pm σ

$\mu \pm \sigma$

f (x) = (3 + 2 a) / 6 - a x^{2};

$f(x) = (3+2a)/6 - ax^2;$

- 1 < x < 1, 0 < a < \frac{3}{4}

$-1<x<1, 0<a<\frac{3}{4}$

a

$a$

0

$0$

— Glen_b -Reinstate Monica

4

Kurtosis adalah konsep yang agak disalahpahami (saya menemukan makalah LT De Carlo "Tentang Makna dan Penggunaan Kurtosis" (1997) diskusi dan presentasi yang masuk akal dan berharga dari masalah yang terlibat).

Jadi saya akan mengambil pandangan naif, dan saya akan membangun kepadatan, , dengan "nilai tengah lebih rendah dan lebih tinggi pada mode", dibandingkan dengan kepadatan normal standar, tetapi identik "ekor" dengan yang terakhir. Saya tidak mengklaim bahwa kepadatan ini menunjukkan "kelebihan kurtosis". $g_X(x)$

Kepadatan ini tentu harus langkah-bijaksana. Untuk memiliki "ekor" kiri dan kanan yang identik, bentuk fungsionalnya untuk interval dan , di mana , harus identik dengan standar normal kepadatan. Pada interval tengah, , ia harus memiliki beberapa bentuk fungsional lainnya, sebut saja . Ini harus simetris sekitar nol, dan memuaskan $(-\infty, -a)$ $(a,\infty)$ $a>0$ $\phi(x)$ $(-a,a)$ $h(x)$ $h(x)$

1) sehingga nilai densitas pada mode akan lebih tinggi dari nilai standar normal, dan $h(0) > \phi(0) = 1/\sqrt{2\pi}$

2) sehingga kontinu. $\phi(-a) = h(-a) = h(a) = \phi(a)$ $g_X(x)$

, harus berintegrasi ke kesatuan atas domain, agar menjadi kepadatan yang tepat. Jadi kepadatan ini akan menjadi $g_X(x)$

g_{X} (x) = \begin{matrix} ϕ (x) & - \infty < x \leq - a \\ h (x) & - a \leq x \leq a \\ ϕ (x) & a \leq x < \infty \end{matrix}

$g_X(x) = \begin{matrix} \phi(x) &-\infty<x\le -a\\ h(x) &-a\le x \le a\\ \phi(x) & a\le x<\infty \end{matrix}$

tunduk pada pembatasan yang disebutkan sebelumnya pada dan juga, tunduk pada $h(x)$

\int_{- \infty}^{- a} ϕ (t) d t + \int_{- a}^{a} h (t) d t + \int_{a}^{\infty} ϕ (t) d t = 1

$\int_{-\infty}^{-a}\phi(t)dt + \int_{-a}^ah(t)dt + \int_{a}^{\infty}\phi(t)dt =1$

yang setara dengan mensyaratkan bahwa massa probabilitas di bawah dalam interval harus sama dengan massa probabilitas di bawah dalam interval yang sama: $h(x)$ $(-a,a)$ $\phi(x)$

\int_{- a}^{- a} (h (t) - ϕ (t)) d t = 0 \Rightarrow \int_{0}^{a} (h (t) - ϕ (t)) d t = 0

$\int_{-a}^{-a}\left(h(t)- \phi(t)\right)dt =0 \Rightarrow \int_{0}^{a}\left(h(t)- \phi(t)\right)dt=0$ bagian terakhir karena sifat simetri.

Untuk mendapatkan sesuatu yang spesifik, kita akan "mencoba" kepadatan distribusi Laplace nol-rata untuk $h(x)$

h (x) = \frac{1}{2 b} e^{- \frac{| x |}{b}}, b > 0

$h(x)= \frac 1{2b} e^{-\frac {|x|}{b}},\; b>0$

Untuk memenuhi berbagai persyaratan yang ditetapkan sebelumnya, kita harus memiliki:

Untuk nilai yang lebih tinggi pada mode,

h (0) = \frac{1}{2 b} > ϕ (0) = \frac{1}{\sqrt{2 π}} \Rightarrow 0 < b < \sqrt{π / 2} [1]

$h(0)= \frac 1{2b} > \phi(0) = \frac {1}{\sqrt{2\pi}} \Rightarrow 0<b < \sqrt{\pi/2} \qquad [1]$

Untuk kontinuitas,

h (a) = ϕ (a) \Rightarrow \frac{1}{2 b} e^{- \frac{a}{b}} = \frac{1}{\sqrt{2 π}} e^{- \frac{1}{2} a^{2}}

$h(a) = \phi(a) \Rightarrow \frac 1{2b} e^{-\frac {a}{b}} = \frac {1}{\sqrt {2\pi}}e^{-\frac 12a^2}$

\Rightarrow - \ln (2 b) - \frac{a}{b} = - \ln (\sqrt{2 π}) - \frac{1}{2} a^{2} \Rightarrow \frac{1}{2} a^{2} - \frac{a}{b} + \ln \frac{\sqrt{π / 2}}{b}

$\Rightarrow -\ln(2b) - \frac {a}{b} = -\ln(\sqrt {2\pi}) -\frac 12a^2 \Rightarrow \frac 12a^2 - \frac {a}{b} +\ln\frac{\sqrt {\pi/2}}{b}$

Ini adalah kuadratik dalam . Diskriminannya adalah $a$

Δ_{a} = \frac{1}{b^{2}} - 4 \cdot \frac{1}{2} \cdot \ln \frac{\sqrt{π / 2}}{b} > 0

$\Delta_a = \frac 1{b^2} - 4\cdot \frac 12 \cdot\ln\frac{\sqrt {\pi/2}}{b} > 0$

(dapat dengan mudah diverifikasi bahwa selalu positif). Terlebih lagi, kami hanya menyimpan root positif sejak jadi $a>0$

a^{*} = \frac{1}{b} + \sqrt{Δ_{a}} [2]

$a^* = \frac 1b + \sqrt{\Delta_a}\qquad [2]$

Akhirnya persyaratan kepadatan untuk diintegrasikan ke kesatuan diterjemahkan menjadi

\int_{0}^{a^{*}} \frac{1}{2 b} e^{- \frac{| x |}{b}} d t = \int_{0}^{a^{*}} ϕ (t) d t

$\int_{0}^{a^*}\frac 1{2b} e^{-\frac {|x|}{b}} dt = \int_{0}^{a^*}\phi(t)dt$

yang dengan integrasi langsung mengarah ke

1 - e^{- \frac{a^{*}}{b}} = 2 (Φ (a^{*}) - \frac{1}{2}) = \erf (a^{*} / \sqrt{2}) [3]

$1-e^{-\frac {a^*}{b}} = 2\left(\Phi(a^*) - \frac 12\right) = \operatorname{erf}(a^*/\sqrt2)\qquad [3]$

yang dapat diselesaikan secara numerik untuk , dan dengan demikian sepenuhnya menentukan kepadatan yang kita kejar. $b^*$

Tentu saja bentuk-bentuk fungsional lainnya yang simetris di sekitar nol dapat dicoba, pdf laplacian hanya untuk tujuan eksposisi.

— Alecos Papadopoulos
sumber

1

Saya menemukan artikel yang Anda sebutkan sangat informatif. Terima kasih.

— Yal dc

1

Peringatan tentang makalah DeCarlo: Kalimat pertama abstrak secara matematis salah. Dia menyatakan, "Untuk distribusi unimodal simetris, kurtosis positif menunjukkan ekor berat dan puncaknya relatif terhadap distribusi normal, sedangkan kurtosis negatif menunjukkan ekor ringan dan kerataan." Tetapi ada distribusi unimodal simetris dengan kelebihan kurtosis negatif yang memiliki puncak tak terbatas, dan ada distribusi simetris unimodal dengan kurtosis tak terbatas yang memiliki puncak datar sempurna.

— Peter Westfall

0

Kurtosis distribusi ini mungkin akan lebih tinggi daripada distribusi normal. Saya katakan mungkin karena saya mendasarkan ini pada gambar kasar, dan meskipun mungkin untuk membuktikan bahwa memindahkan massa dengan cara ini selalu meningkatkan kurtosis, saya tidak positif tentang itu.

Walaupun benar bahwa ia memiliki ekor yang sama dengan distribusi normal, distribusi ini akan memiliki varian yang lebih rendah daripada distribusi normal dari mana ia berasal. Yang berarti bahwa ekornya akan cocok dengan ekor dari beberapa distribusi normal, tetapi tidak dari distribusi normal dengan varian yang sama seperti itu. Jadi, ekor yang dinormalisasi sebenarnya akan lebih tebal daripada ekor dari distribusi normal. Dan, meskipun ekor yang lebih tebal tidak secara otomatis berarti lebih banyak kurtosis, dalam hal ini momen keempat yang dinormalisasi mungkin juga akan lebih besar.

— mpr
sumber

Saya setuju bahwa variansnya akan lebih rendah. Sayangnya, saya tidak mengerti bagaimana perubahan varians mempengaruhi ekor? Ingat, bahwa saya tidak melakukan apa pun pada ekornya. Titik bergeser diambil di dekat puncak, bukan dari ekor. Bisakah saya membantu saya memahami maksud Anda?

— Yal dc

1

Kurtosis didefinisikan dalam hal momen keempat yang dinormalisasi, di mana normalisasi dilakukan dengan membagi dengan kuadrat varians. Karena kuadrat varians turun, kurtosis naik. Dari segi ekor, memang benar mereka tidak berubah. Namun, karena varians telah turun, maka untuk mendapatkan perbandingan yang benar, Anda perlu membandingkan distribusi Anda dengan distribusi normal yang memiliki varian yang sama dengan Anda. Distribusi normal lainnya ini akan memiliki ekor yang lebih tipis, karena variansnya lebih rendah.

— mpr

dalam hal ini, saya setuju. Pertanyaan yang tersisa adalah bagaimana Anda menentukan apa " perbandingan yang benar "? Apakah ini aturan bahwa kita harus menggunakan distribusi dengan varian yang sama untuk membandingkan properti mereka yang lain? Saya belum pernah bertemu prinsip seperti itu sebelumnya.

— Yal dc

1

Variance adalah cara standar untuk menormalkan distribusi. Anda secara khusus bertanya tentang kurtosis, dan seperti yang saya katakan, kurtosis didefinisikan berdasarkan momen keempat yang dinormalisasi, yang berarti bahwa jika Anda tertarik untuk membandingkan kurtosis, maka ya, Anda harus membandingkan distribusi dengan varian yang sama.

— mpr

Sekarang saya mengerti. Memang, setiap distribusi normal memiliki kurtosis konstan sementara variansnya mungkin berbeda. Terima kasih atas klarifikasinya.

— Yal dc

0

Sepertinya OP sedang berusaha membangun hubungan antara "puncak" dan kurtosis dengan menjaga ekor tetap dan membuat distribusi lebih "memuncak." Ada efek pada kurtosis di sini, tetapi sangat sedikit sehingga hampir tidak layak disebutkan. Berikut adalah teorema yang mendukung pernyataan itu.

Teorema 1: Pertimbangkan distribusi probabilitas dengan momen keempat hingga. Bangun distribusi probabilitas baru dengan mengganti massa dalam rentang , pertahankan massa di luar tetap, dan pertahankan rata-rata dan standar deviasi pada . Maka perbedaan antara nilai kurtosis momen Pearson minimum dan maksimum atas semua penggantian tersebut adalah . $[\mu - \sigma, \mu + \sigma]$ $[\mu - \sigma, \mu + \sigma]$ $\mu, \sigma$ $\le 0.25$

Komentar: Buktinya konstruktif; Anda benar-benar dapat mengidentifikasi penggantian min dan maks kurtosis dalam pengaturan ini. Selanjutnya, 0,25 adalah batas atas pada kisaran kurtosis, tergantung pada distribusinya. Misalnya, dengan distribusi normal, kisaran terikat adalah 0,141, bukan 0,25.

Di sisi lain, ada efek yang sangat besar dari ekor pada kurtosis, seperti yang diberikan oleh teorema berikut:

Teorema 2: Pertimbangkan distribusi probabilitas dengan momen keempat hingga. Bangun distribusi probabilitas baru dengan mengganti massa di luar rentang , pertahankan massa dalam tetap, dan pertahankan mean dan standar deviasi pada . Kemudian perbedaan antara nilai kurtosis momen minimum dan maksimum Pearson atas semua penggantian tersebut tidak terikat; yaitu, distribusi baru dapat dipilih sehingga kurtosis aribitrently besar. $[\mu - \sigma, \mu + \sigma]$ $[\mu - \sigma, \mu + \sigma]$ $\mu, \sigma$

Komentar: Kedua teorema ini menunjukkan bahwa efek ekor pada kurtosis momen Pearson tidak terbatas, sedangkan efek "peakedness" adalah . $\le 0.25$

— Peter Westfall
sumber