Yang memiliki ekor lebih berat, lognormal atau gamma?


41

(Ini didasarkan pada pertanyaan yang baru saja datang kepada saya melalui email; Saya telah menambahkan beberapa konteks dari percakapan singkat sebelumnya dengan orang yang sama.)

Tahun lalu saya diberitahu bahwa distribusi gamma lebih berat daripada lognormal, dan sejak itu saya diberitahu bahwa bukan itu masalahnya.

  • Yang ini lebih berat ekor?

  • Apa sajakah sumber daya yang dapat saya gunakan untuk mengeksplorasi hubungan?


3
Untuk orang yang baru saja downvoted: Akan berguna untuk mengetahui apa masalah yang dirasakan dengan pertanyaan itu.
Glen_b

1
Bukan saya, saya tervvotasikan sejak lama. Namun, saya menduga itu tentang kegunaan ekor berat versus kurtosis dalam konteks asumsi uji-t di hadapan pencilan, yang sama sekali tidak ada hubungannya dengan apa yang Anda minta. Downvoting adalah, IMHO, bermasalah .
Carl

Jawaban:


41

Ekor distribusi (kanan) menjelaskan perilakunya pada nilai yang besar. Objek yang benar untuk studi tidak densitasnya - yang dalam banyak kasus praktis tidak ada - melainkan fungsi distribusi F . Lebih khusus lagi, karena F harus naik secara asimptot ke 1 untuk argumen besar x (oleh Hukum Probabilitas Total), kami tertarik pada seberapa cepat ia mendekati asimtot itu: kita perlu menyelidiki perilaku fungsi survivalnya 1F(x) sebagai x .

FXG FGx0x>x0

PrF(X>x)=1F(x)>1G(x)=PrG(X>x).

Angka

Kurva merah pada gambar ini adalah fungsi survival untuk distribusi Poisson . Kurva biru untuk distribusi Gamma , yang memiliki varian yang sama. Akhirnya kurva biru selalu melebihi kurva merah, menunjukkan bahwa distribusi Gamma ini memiliki ekor yang lebih berat daripada distribusi Poisson ini. Distribusi ini tidak dapat dengan mudah dibandingkan dengan menggunakan kepadatan, karena distribusi Poisson tidak memiliki kepadatan.(3)(3)

Memang benar bahwa ketika kepadatan dan yang ada dan untuk maka lebih berat ekor dari . Namun, kebalikannya salah - dan ini adalah alasan kuat untuk mendasarkan definisi bobot ekor pada fungsi bertahan hidup daripada kepadatan, bahkan jika seringkali analisis ekor lebih mudah dilakukan dengan menggunakan kepadatan.fgf(x)>g(x)x>x0FG

Contoh tandingan dapat dibangun dengan mengambil distribusi diskrit dukungan positif tak terbatas yang bagaimanapun tidak lebih berat dari (mendiskritisasi akan melakukan trik). Ubah ini menjadi distribusi kontinu dengan mengganti massa probabilitas pada setiap titik dukungannya , ditulis , dengan (katakanlah distribusi Beta berskala dengan dukungan pada interval yang sesuai dan ditimbang dengan . Dengan sedikit angka positif pilihHGGHkh(k)(2,2)[kε(k),k+ε(k)]h(k)δ,ε(k)cukup kecil untuk memastikan bahwa kepadatan puncak distribusi Beta berskala ini melebihi . Dengan konstruksi, campuran adalah distribusi berkesinambungan yang ekornya mirip dengan (secara seragam sedikit lebih rendah dengan jumlah ) tetapi memiliki paku di kepadatan pada dukungan dan semua paku memiliki titik di mana mereka melebihi kepadatan . Dengan demikian lebih ringan ekor dari tetapi tidak peduli seberapa jauh di ekor kita pergi akan ada titik di mana kepadatan melebihi dari .f(k)/δδH+(1δ)GGGδHfGFF

Angka

Kurva merah adalah PDF dari distribusi Gamma , kurva emas adalah PDF dari distribusi lognormal , dan kurva biru (dengan paku) adalah PDF dari campuran dibuat seperti pada contoh sebelumnya. (Perhatikan sumbu kepadatan logaritmik.) Fungsi survival dekat dengan distribusi Gamma (dengan goyangan cepat membusuk): pada akhirnya akan tumbuh kurang dari , meskipun PDF-nya akan selalu melonjak di atas itu dari tidak peduli seberapa jauh kita melihat ke ekor.GFGGFF


Diskusi

Secara kebetulan, kita dapat melakukan analisis ini secara langsung pada fungsi survival dari distribusi lognormal dan Gamma, memperluasnya di sekitar untuk menemukan perilaku asimptotik mereka, dan menyimpulkan bahwa semua lognormal memiliki ekor yang lebih berat daripada semua Gammas. Tetapi, karena distribusi ini memiliki kepadatan "baik", analisis lebih mudah dilakukan dengan menunjukkan bahwa untuk cukup besar , kepadatan lognormal melebihi kepadatan Gamma. Namun, janganlah kita mengacaukan kenyamanan analitis ini dengan makna ekor yang berat.x=x

Demikian pula, meskipun momen yang lebih tinggi dan varian mereka (seperti skewness dan kurtosis) sedikit berbicara tentang ekor, mereka tidak memberikan informasi yang cukup. Sebagai contoh sederhana, kita dapat memotong distribusi lognormal pada nilai yang sedemikian besar sehingga setiap momen tertentu tidak akan berubah - tetapi dengan melakukan itu kita akan melepaskan ekornya sepenuhnya, menjadikannya ekor yang lebih ringan daripada distribusi mana pun yang tidak terikat. dukungan (seperti Gamma).

Keberatan wajar terhadap kontraksi matematis ini adalah untuk menunjukkan bahwa perilaku sejauh ini di bagian ekor tidak memiliki aplikasi praktis, karena tidak ada yang akan percaya bahwa model distribusi apa pun akan valid pada nilai-nilai ekstrem (mungkin secara fisik tidak terjangkau). Namun, hal itu menunjukkan bahwa dalam aplikasi kita harus berhati-hati untuk mengidentifikasi bagian ekor mana yang menjadi perhatian dan menganalisisnya. (Misalnya kekambuhan banjir, dapat dipahami dalam pengertian ini: banjir 10 tahun, banjir 100 tahun, dan banjir 1000 tahun menandai bagian-bagian tertentu dari ekor distribusi banjir.) Prinsip-prinsip yang sama berlaku, meskipun: objek analisis fundamental di sini adalah fungsi distribusi dan bukan kepadatannya.


6
+1 diskusi yang bagus tentang mengapa itu harus didasarkan pada fungsi yang selamat. Saya merekomendasikan kepada sumber asli pertanyaan bahwa mereka harus melihat respons Anda.
Glen_b

1
(+1) untuk diskusi probabilistik yang baik tentang bagaimana menafsirkan fungsi bertahan hidup.

Definisi ekor berat ini baik-baik saja, sebagai satu definisi. Tetapi memiliki masalah serius. Secara khusus, ada distribusi terbatas yang boleh dibilang memiliki ekor yang berat, seperti distribusi .9999 * U (-1,1) + .0001 * U (-1000.1000). Dengan "definisi" yang diberikan, distribusi N (0,1) memiliki ekor lebih berat daripada distribusi 0,9999 * U (-1,1) + .0001 * U (-1000,1000). Ini jelas konyol. Mari kita hadapi itu: Ada banyak cara untuk mengukur tailedness distribusi.
Peter Westfall

1
@ Peter "Konyolnya" muncul karena Anda tampaknya telah mendapatkan ide-ide mundur. Tak satu pun dari contoh Anda memiliki ekor "berat" dalam arti apa pun, karena mereka terikat. Kedua fungsi bertahan hidup akhirnya benar-benar nol dan karena itu kedua ekor sama-sama ringan.
whuber

1
@PeterWestfall Anda telah membandingkan ekor yang terikat dukungan dengan yang memiliki dukungan tak terbatas, seolah-olah itu bermakna. Ada banyak konteks di mana itu tidak perlu, bahkan konyol. Dalam konteks di mana seseorang akan membandingkannya, rasio perbedaan kuantil mungkin sesuai. Tidak ada banyak konteks di luar itu dan jika Anda bisa memikirkannya, katakan.
Carl

30

Gamma dan lognormal keduanya condong ke kanan, distribusi variasi konstan-koefisien pada , dan keduanya sering menjadi dasar model "bersaing" untuk jenis fenomena tertentu.(0,)

Ada berbagai cara untuk mendefinisikan bobot ekor, tetapi dalam hal ini saya pikir semua yang biasa menunjukkan bahwa lognormal lebih berat. (Apa yang orang pertama mungkin bicarakan adalah apa yang terjadi tidak jauh di ujung, tetapi sedikit di sebelah kanan mode (katakanlah, sekitar persentil ke-75 pada plot pertama di bawah ini, yang untuk lognormal hanya di bawah 5). dan gamma tepat di atas 5.)

Namun, mari kita telusuri pertanyaan dengan cara yang sangat sederhana untuk memulai.

Di bawah ini adalah kepadatan gamma dan lognormal dengan rerata 4 dan varians 4 (plot atas - gamma berwarna hijau gelap, lognormal berwarna biru), dan kemudian log densitas (bawah), sehingga Anda dapat membandingkan tren pada ekor:

masukkan deskripsi gambar di sini

Sulit untuk melihat banyak detail di plot teratas, karena semua aksinya di sebelah kanan 10. Tapi cukup jelas di plot kedua, di mana gamma sedang turun jauh lebih cepat daripada lognormal.

Cara lain untuk mengeksplorasi hubungan adalah dengan melihat kepadatan log, seperti pada jawabannya di sini ; kita melihat bahwa kepadatan log untuk lognormal simetris (normal!), dan untuk gamma condong ke kiri, dengan ekor yang ringan di sebelah kanan.

Kita dapat melakukannya secara aljabar, di mana kita dapat melihat rasio kepadatan sebagai (atau log dari rasio). Biarkan menjadi kepadatan gamma dan lognormal:g fxgf

log(g(x)/f(x))=log(g(x))log(f(x))

=log(1Γ(α)βαxα1ex/β)log(12πσxe(log(x)μ)22σ2)

=k1(α1)log(x)x/β(k2log(x)(log(x)μ)22σ2)

=[c(α2)log(x)+(log(x)μ)22σ2]x/β

Istilah dalam [] adalah kuadrat di , sedangkan istilah lainnya menurun secara linear dalam . Tidak peduli apa pun, itu pada akhirnya akan turun lebih cepat daripada kuadratik yang meningkat terlepas dari apa nilai parameternya . Dalam batas , log rasio kepadatan menurun menuju , yang berarti gamma pdf akhirnya jauh lebih kecil daripada pdf lognormal, dan itu terus menurun, relatif. Jika Anda mengambil rasio dengan cara lain (dengan lognormal di atas), akhirnya harus meningkat melampaui batas apa pun.log(x)xx/βx

Artinya, setiap lognormal yang diberikan pada akhirnya lebih berat daripada gamma manapun .


Definisi beban lainnya:

Beberapa orang tertarik pada skewness atau kurtosis untuk mengukur bobot ekor kanan. Pada koefisien variasi yang diberikan, lognormal lebih condong dan memiliki kurtosis lebih tinggi daripada gamma . **

Misalnya, dengan skewness , gamma memiliki skewness 2CV sedangkan lognormal adalah 3CV + CV .3

Ada beberapa definisi teknis tentang berbagai ukuran seberapa berat ekor di sini . Anda mungkin ingin mencoba beberapa dari mereka dengan dua distribusi ini. Lognormal adalah kasus khusus yang menarik dalam definisi pertama - semua momennya ada, tetapi MGFnya tidak bertemu di atas 0, sedangkan MGF untuk Gamma bertemu di lingkungan sekitar nol.

-

** Seperti yang disebutkan Nick Cox di bawah ini, transformasi biasa untuk mendekati normalitas untuk gamma, transformasi Wilson-Hilferty, lebih lemah daripada log - ini adalah transformasi root cube. Pada nilai-nilai kecil dari parameter bentuk, akar keempat telah disebutkan sebagai gantinya lihat diskusi dalam jawaban ini , tetapi dalam kedua kasus itu adalah transformasi yang lebih lemah untuk mencapai mendekati normalitas.

Perbandingan skewness (atau kurtosis) tidak menyarankan adanya hubungan yang perlu di ekor ekstrem - melainkan memberi tahu kita sesuatu tentang perilaku rata-rata; tetapi mungkin karena alasan itu bekerja lebih baik jika titik aslinya tidak dibuat tentang ekor yang ekstrem.


Sumber : Sangat mudah untuk menggunakan program seperti R atau Minitab atau Matlab atau Excel atau apa pun yang Anda suka menggambar kepadatan dan log-densitas dan log rasio kepadatan ... dan seterusnya, untuk melihat bagaimana keadaan dalam kasus-kasus tertentu. Itulah yang saya sarankan untuk memulai.


4
Memang hal itu menunjukkan hal itu, tetapi tidak ada hubungan yang perlu antara puncak, ekor berat dan kurtosis; ada contoh berlawanan dengan harapan seperti itu, jadi kita harus waspada. Plot kedua mengkonfirmasi kecurigaan itu.
Glen_b

5
Ini satu kalimat. Ini definisi bahwa transformasi log diperlukan untuk membuat lognormal normal; itu adalah perkiraan yang baik bahwa akar pangkat tiga membuat gamma normal (Wilson-Hilferty adalah dua kata untuk orang bijak); distribusi yang membutuhkan transformasi yang lebih kuat "lebih jauh" dari normal atau Gaussian.
Nick Cox

2
@ Glen_b Saya hanya menambahkan sedikit hiasan pada kue Anda yang terlihat sangat bagus.
Nick Cox

2
@Nick Cox Saya tidak setuju dengan pernyataan tentang transformasi. Bagian matematis tidak sah adalah kesimpulan Anda mencoba untuk menarik: dari fakta bahwa logaritma membuat lognormal normal dan akar pangkat membuat gamma kira-kira normal, Anda tidak dapat menarik setiap kesimpulan tentang ekor dari salah satu.
whuber

2
Terima kasih; poin Anda lebih jelas bagi saya, tapi saya tetap pada kata "rule of thumb" saya, dan meminta pengalaman juga. Jelas, saya tidak punya teorema.
Nick Cox

7

Meskipun kurtosis terkait dengan berat ekor, kurtosis akan lebih berkontribusi pada gagasan distribusi ekor gemuk , dan relatif lebih sedikit terhadap bobot ekor itu sendiri, seperti yang ditunjukkan contoh berikut. Di sini, saya sekarang memuntahkan apa yang telah saya pelajari di posting di atas dan di bawah, yang merupakan komentar yang sangat bagus. Pertama, area dari ekor kanan adalah area dari x hingga dari fungsi kepadatan , AKA fungsi survival, . Untuk distribusi lognormal dan distribusi gammaf(x)1F(t)e(log(x)μ)22σ22πσx;x0βαxα1eβxΓ(α);x0, mari kita bandingkan fungsi survival masing-masing dan grafis. Untuk melakukan ini, saya secara sewenang-wenang mengatur varians masing-masing dan , serta kelebihan masing-masing kurtosis dan sama dengan memilih dan diselesaikan untuk . Pertunjukan ini12erfc(log(x)μ2σ)Q(α,βx)=Γ(α,βx)Γ(α)(eσ21)e2μ+σ2αβ23e2σ2+2e3σ2+e4σ266αμ=0,σ=0.8α0.19128,β0.3354211-F (x) untuk LND berwarna biru dan GD berwarna oranye

fungsi survival untuk distribusi lognormal (LND) berwarna biru dan distribusi gamma (GD) berwarna oranye. Ini membawa kita pada peringatan pertama kita. Artinya, jika hanya plot yang harus kami periksa, kami dapat menyimpulkan bahwa ekor untuk GD lebih berat daripada untuk LND. Bahwa ini bukan masalahnya ditunjukkan dengan memperluas nilai sumbu x plot 1-F (x) untuk LND dan grafik yang lebih panjang

Plot ini menunjukkan bahwa 1) bahkan dengan kurtosis yang sama, area ekor kanan LND dan GD dapat berbeda. 2) Penafsiran grafis itu sendiri memiliki bahaya, karena hanya dapat menampilkan hasil untuk nilai parameter tetap pada rentang terbatas. Dengan demikian, ada kebutuhan untuk menemukan ekspresi umum untuk rasio fungsi survival pembatas dari . Saya tidak dapat melakukan ini dengan ekspansi seri yang tak terbatas. Namun, saya bisa melakukan ini dengan menggunakan perantara fungsi terminal atau asimptotik, yang bukan fungsi unik dan di mana untuk ekor kanan maka sudah cukup untuk danlimxS(LND,x)S(GD,x)limxF(x)G(x)=1F(x)G(x)menjadi saling asimptotik. Dengan perawatan yang tepat diambil untuk menemukan fungsi-fungsi ini, ini memiliki potensi untuk mengidentifikasi subset dari fungsi yang lebih sederhana daripada fungsi survival itu sendiri, yang dapat dibagi atau dimiliki bersama dengan lebih dari satu fungsi kerapatan, misalnya, dua fungsi kerapatan yang berbeda dapat berbagi ekor eksponensial yang membatasi. Dalam versi sebelumnya dari posting ini, inilah yang saya sebut sebagai "kompleksitas tambahan dalam membandingkan fungsi bertahan hidup." Perhatikan bahwa, dan (Secara kebetulan dan tidak harus danlimuerfc(u)eu2πu=1limuΓ(α,u)euuα1=1erfc(u)<eu2πuΓ(α,u)<euuα1 . Artinya, tidak perlu memilih batas atas, hanya fungsi asimptotik). Di sini kita menulis dan mana rasio istilah kanan memiliki batas yang sama dengan sebagai istilah tangan kiri. Menyederhanakan rasio pembatas hasil istilah tangan kanan12erfc(log(x)μ2σ)<e(log(x)μ2σ)22(π(log(x)μ))2σΓ(α,βx)Γ(α)<eβx(βx)α1Γ(α)xlimxσΓ(α)(βx)1αeβx(μlog(x))22σ22π(log(x)μ)= berarti untuk x cukup besar, area ekor LND adalah sebesar yang kita suka dibandingkan dengan area ekor GD, terlepas dari apa nilai parameternya. Yang memunculkan masalah lain, kita tidak selalu memiliki solusi yang benar untuk semua nilai parameter, dengan demikian, menggunakan ilustrasi grafik saja bisa menyesatkan. Misalnya, area ekor kanan distribusi gamma lebih besar daripada area ekor distribusi eksponensial ketika , kurang dari eksponensial ketika dan GD persis distribusi eksponensial ketika .α<1α>1α=1

Lalu apa gunanya mengambil logaritma rasio fungsi survival, karena kita jelas tidak perlu mengambil logaritma untuk menemukan rasio pembatas? Banyak fungsi distribusi berisi istilah eksponensial yang terlihat lebih sederhana ketika logaritma diambil, dan jika rasio menjadi tak terhingga dalam batas ketika x bertambah, maka logaritma juga akan melakukannya. Dalam kasus kami, itu akan memungkinkan kami untuk memeriksa , yang menurut sebagian orang lebih mudah dilihat. Terakhir, jika rasio fungsi survival menjadi nol, maka logaritma rasio tersebut akan menjadi-limx(log(σΓ(α)(βx)1α2π(log(x)μ))+βx(μlog(x))22σ2)=, dan dalam semua kasus setelah menemukan batas logaritma rasio, kita harus mengambil antilogaritma dari nilai tersebut untuk memahami hubungannya dengan nilai pembatas dari rasio biasa fungsi survival.


2
Dalam hal ini (dan cukup sering dalam kasus yang menarik) kurtosis yang lebih tinggi sesuai dengan ekor yang lebih berat, tetapi sebagai proposisi umum, ini bukan kasusnya - contoh tandingan mudah dibangun.
Glen_b

1
1. Saya tidak tahu cara umum apa pun selain langsung membandingkan ekor. 2. Apa yang lebih rumit? jawaban whuber menunjukkan kepada kita mengapa ada masalah dengan melihat apa pun kecuali fungsi survivor (untuk ekor kanan); ia membahas mengapa Anda tidak dapat membandingkan pdf secara terperinci tetapi poin-poin serupa dibawa ke kurtosis. Lebih jauh, membandingkan seringkali jauh lebih rumit daripada membandingkan kurtosis juga. (Di bagian kiri Anda akan membandingkan secara langsung tetapi itu tidak menjadi masalah untuk pertanyaan ini.)F ( x )S(x)=1F(x)F(x)
Glen_b

2
Saya juga mencatat bahwa Anda mengatakan "Ini ada hubungannya dengan teorema momen yang mengatakan bahwa jika (semua?) Momen dari dua distribusi adalah sama, maka distribusinya sama." - bahkan jika semua momen dari dua distribusi adalah sama, distribusi tidak harus sama. Contoh tandingan dibahas dalam jawaban atas beberapa pertanyaan di CV. Anda membutuhkan lebih dari semua momen yang sama - Anda membutuhkan MGF untuk berada di lingkungan 0.
Glen_b

1
@PeterWestfall Dukungan semi-tak terbatas sering diasumsikan, misalnya, sebagai untuk konsentrasi obat dalam plasma darah. Dalam hal itu, ekor-berat akan menentukan apakah waktu tinggal rata-rata obat dalam tubuh mengukur sesuatu (misalnya, distribusi eksponensial) atau tidak (misalnya, beberapa distribusi Pareto). 0t<
Carl

1
@PeterWestfall Saya mengerti maksud Anda, mirip dengan nma.berkeley.edu/ark:/28722/bk000471p7j . Perlu diingat bahwa setiap distribusi menyiratkan ukuran yang berbeda untuk hal-hal yang berbeda. Misalnya, nilai ekstrim rata-rata adalah MVUE untuk lokasi distribusi yang seragam, bukan rata-rata, dan bukan median. Di antara nilai-nilai ekstrem itu, ekornya berat, tetapi di luarnya, ekornya zip. Apa yang harus dilakukan dengan momen yang lebih tinggi seperti kurtosis, ketika momen pertama bukan MVUE saya tidak berani menebak. Sesuatu, mungkin, tapi apa?
Carl
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.