Tiga momen tidak menentukan bentuk distribusi; jika Anda memilih keluarga distribusi dengan tiga parameter yang berhubungan dengan tiga momen populasi pertama, Anda dapat melakukan pencocokan momen ("metode momen") untuk memperkirakan tiga parameter dan kemudian menghasilkan nilai dari distribusi tersebut. Ada banyak distribusi seperti itu.
Kadang-kadang bahkan memiliki semua momen tidak cukup untuk menentukan distribusi. Jika fungsi pembangkit momen ada (dalam lingkungan 0) maka secara unik mengidentifikasi distribusi (Anda pada prinsipnya dapat melakukan transformasi Laplace terbalik untuk mendapatkannya).
[Jika beberapa momen tidak terbatas ini berarti mgf tidak ada, tetapi ada juga kasus di mana semua momen terbatas tetapi mgf masih tidak ada di lingkungan 0.]
Mengingat ada pilihan distribusi, orang mungkin tergoda untuk mempertimbangkan solusi entropi maksimum dengan kendala pada tiga momen pertama, tetapi tidak ada distribusi pada garis nyata yang mencapainya (karena kubik yang dihasilkan dalam eksponen akan tidak terikat).
Bagaimana proses akan bekerja untuk pilihan distribusi tertentu
Kita dapat menyederhanakan proses mendapatkan pencocokan distribusi tiga momen dengan mengabaikan varians mean dan dan bekerja dengan momen ketiga skala - saat-skewness yang ( γ1= μ3/ μ3 / 22 ).
Kita dapat melakukan ini karena setelah memilih distribusi dengan kemiringan yang relevan, kita kemudian dapat mundur mean dan varians yang diinginkan dengan penskalaan dan pergeseran.
Mari kita pertimbangkan sebuah contoh. Kemarin saya membuat set data besar (yang masih terjadi di sesi R saya) yang distribusinya saya belum mencoba untuk menghitung bentuk fungsional (itu adalah set besar nilai-nilai log dari varian sampel Cauchy di n = 10). Kami memiliki tiga momen mentah pertama masing-masing 1,519, 3,597 dan 11,499, atau sesuai dengan rata-rata 1,518, standar deviasi * 1,136 dan kemiringan 1,429 (jadi ini adalah nilai sampel dari sampel besar).
Secara formal, metode momen akan berusaha untuk mencocokkan momen mentah, tetapi perhitungan lebih sederhana jika kita mulai dengan kemiringan (mengubah penyelesaian tiga persamaan dalam tiga yang tidak diketahui menjadi penyelesaian untuk satu parameter pada suatu waktu, tugas yang jauh lebih sederhana).
* Saya akan menghapus perbedaan antara menggunakan n-penyebut pada varians - seperti yang sesuai dengan metode formal momen - dan penyebut n-1 dan hanya menggunakan perhitungan sampel.
σμγ
γ1= ( eσ2+ 2 ) eσ2- 1-----√
σ2σ~2
γ21( τ+ 2 )2( τ- 1 )τ= eσ2τ3+ 3 τ2- 4 = γ21τ~≈ 1.1995σ~2≈ 0,1819γ1
μ
Tetapi kita dapat dengan mudah memilih gamma bergeser atau distribusi Weibull bergeser (atau F bergeser atau sejumlah pilihan lain) dan menjalankan proses yang pada dasarnya sama. Masing-masing akan berbeda.
[Untuk sampel yang saya hadapi, gamma bergeser mungkin akan menjadi pilihan yang jauh lebih baik daripada lognormal bergeser, karena distribusi log dari nilai-nilai dibiarkan miring dan distribusi akar pangkatnya sangat dekat dengan simetris; ini konsisten dengan apa yang akan Anda lihat dengan kepadatan gamma (tidak tergeser), tetapi kepadatan miring log tidak dapat dicapai dengan lognormal bergeser.]
Seseorang bahkan dapat mengambil diagram skewness-kurtosis dalam plot Pearson dan menggambar garis pada skewness yang diinginkan dan dengan demikian memperoleh distribusi dua titik, urutan distribusi beta, distribusi gamma, urutan distribusi beta-prima, inversi distribusi gamma dan rangkaian distribusi Pearson tipe IV semuanya dengan kemiringan yang sama.
β1= γ21β2
γ21= 2.042σ
Lebih banyak momen
Momen tidak menyematkan distribusi dengan sangat baik, jadi bahkan jika Anda menentukan banyak momen, masih akan ada banyak distribusi yang berbeda (terutama dalam kaitannya dengan perilaku ekstrim-ekornya) yang akan cocok dengan mereka.
Anda tentu saja dapat memilih beberapa keluarga distribusi dengan setidaknya empat parameter dan berusaha untuk mencocokkan lebih dari tiga momen; misalnya distribusi Pearson di atas memungkinkan kami untuk mencocokkan empat momen pertama, dan ada pilihan distribusi lain yang memungkinkan tingkat fleksibilitas yang serupa.
Satu dapat mengadopsi strategi lain untuk memilih distribusi yang dapat mencocokkan fitur distribusi - distribusi campuran, pemodelan kepadatan log menggunakan splines, dan sebagainya.
Namun, sering kali, jika seseorang kembali ke tujuan awal di mana ia berusaha menemukan distribusi, sering kali ternyata ada sesuatu yang lebih baik yang dapat dilakukan daripada jenis strategi yang diuraikan di sini.