Bagaimana menemukan mode fungsi kepadatan probabilitas?


14

Terinspirasi oleh pertanyaan saya yang lain , saya ingin bertanya bagaimana cara menemukan mode fungsi probabilitas kerapatan (PDF) dari suatu fungsi f(x) ?

Apakah ada prosedur "buku masak" untuk ini? Rupanya, tugas ini jauh lebih sulit daripada yang terlihat pada awalnya.


3
Jika Anda bertanya-tanya tentang jawaban yang sangat berbeda yang Anda dapatkan, perhatikan bahwa jawaban Nick * berkaitan dengan estimasi dari sampel , daripada situasi di mana Anda memiliki pdf yang dikenal; Saya membaca pertanyaan Anda ketika menanyakan tentang kasus pdf yang diketahui, tetapi ini adalah posting yang sangat berguna jika Anda ingin melihat bagaimana melakukan sesuatu dari sampel. ...(* Pierre juga tentang perkiraan dari sampel)
Glen_b -Reinstate Monica

Jawaban:


13

Mengatakan "mode" menyiratkan bahwa distribusi memiliki satu dan hanya satu. Secara umum distribusi mungkin memiliki banyak mode, atau (mungkin tidak ada).

Jika ada lebih dari satu mode yang perlu Anda tentukan jika Anda ingin semuanya atau hanya mode global (jika ada persis satu).

Dengan asumsi kita membatasi diri pada distribusi unimodal *, sehingga kita dapat berbicara tentang mode "the", mereka ditemukan dengan cara yang sama seperti menemukan maxima fungsi secara lebih umum.

* catat halaman yang mengatakan " sebagai istilah" mode "memiliki banyak makna, begitu pula istilah" unimodal " " dan menawarkan beberapa definisi mode - yang dapat mengubah apa, tepatnya, yang dihitung sebagai mode, apakah ada 0 1 atau lebih lanjut - dan juga mengubah strategi untuk mengidentifikasi mereka. Perhatikan khususnya seberapa umum frasa "lebih umum" dari apa itu unimodality dalam paragraf pembuka " unimodality berarti hanya ada satu nilai tertinggi, entah bagaimana didefinisikan "

Satu definisi yang ditawarkan pada halaman itu adalah:

Mode distribusi probabilitas kontinu adalah nilai di mana fungsi kepadatan probabilitas (pdf) mencapai nilai maksimumnya

Jadi diberikan definisi spesifik dari mode yang Anda temukan karena Anda akan menemukan definisi khusus "nilai tertinggi" ketika berhadapan dengan fungsi yang lebih umum, (dengan asumsi bahwa distribusi unimodal di bawah definisi itu).

Ada berbagai strategi dalam matematika untuk mengidentifikasi hal-hal seperti itu, tergantung pada keadaan. Lihat, bagian "Menemukan maxima fungsional dan minimum" dari halaman Wikipedia tentang Maxima dan minimum yang memberikan diskusi singkat.

Misalnya, jika segala sesuatunya cukup bagus - misalnya kita sedang berurusan dengan variabel acak kontinu, di mana fungsi kerapatan memiliki turunan kontinu pertama - Anda dapat melanjutkan dengan mencoba menemukan di mana turunan dari fungsi kerapatan adalah nol, dan memeriksa jenis titik kritis mana (maksimum, minimum, titik infleksia horizontal). Jika ada tepat satu titik yang maksimum lokal, itu harus menjadi mode distribusi unimodal.

Namun, secara umum hal-hal lebih rumit (misalnya mode mungkin bukan titik kritis), dan strategi yang lebih luas untuk menemukan fungsi maksimal masuk

Kadang-kadang, menemukan di mana turunannya nol secara aljabar mungkin sulit atau setidaknya tidak praktis, tetapi masih mungkin untuk mengidentifikasi maxima dengan cara lain. Sebagai contoh, mungkin seseorang dapat menggunakan pertimbangan simetri dalam mengidentifikasi mode distribusi unimodal. Atau orang mungkin memanggil beberapa bentuk algoritma numerik pada komputer, untuk menemukan mode numerik.

Berikut adalah beberapa kasus yang menggambarkan hal-hal khas yang perlu Anda periksa - bahkan ketika fungsinya unimodal dan setidaknya berlanjut terus menerus.

enter image description here

Jadi, misalnya, kita harus memeriksa titik akhir (diagram tengah), titik di mana turunan berubah tanda (tetapi mungkin tidak nol; diagram pertama), dan titik diskontinuitas (diagram ketiga).

Dalam beberapa kasus, hal-hal mungkin tidak begitu rapi seperti ketiganya; Anda harus mencoba memahami karakteristik fungsi tertentu yang Anda hadapi.


Saya belum menyentuh kasus multivariat, di mana bahkan ketika fungsi cukup "bagus", hanya menemukan maxima lokal mungkin jauh lebih kompleks (misalnya metode numerik untuk melakukannya dapat gagal dalam arti praktis, bahkan ketika mereka secara logis harus berhasil akhirnya).


1
+1 Sebagai pengamatan minor, mode global mungkin tidak unik juga; misalnya, kerapatan campuran dengan bobot yang sama dari variabel acak dan N ( - 1 , 1 ) . N(1,1)N(1,1)
Dilip Sarwate

@Dilip Saya akan menambahkan sedikit teks tentang itu.
Glen_b -Reinstate Monica

1
@DilipSarwate Mode dari distribusi gabungan mungkin berbeda dari mode dari distribusi marginal.
Marcelo Ventura

17

Jawaban ini berfokus sepenuhnya pada estimasi mode dari sampel, dengan penekanan pada satu metode tertentu. Jika ada perasaan kuat di mana Anda sudah mengetahui kerapatan, secara analitik atau numerik, maka jawaban yang disukai adalah, secara singkat, untuk mencari maksimum maksimum tunggal atau ganda secara langsung, seperti dalam jawaban dari @Glen_b.

"Mode setengah-sampel" dapat dihitung menggunakan pemilihan setengah sampel secara rekursif dengan panjang terpendek. Meskipun berakar lebih lama, presentasi yang sangat baik dari ide ini diberikan oleh Bickel dan Frühwirth (2006).

Gagasan memperkirakan mode sebagai titik tengah interval terpendek yang berisi sejumlah pengamatan tetap kembali setidaknya ke Dalenius (1965). Lihat juga Robertson dan Cryer (1974), Bickel (2002) dan Bickel dan Frühwirth (2006) tentang penduga lain mode.

Statistik urutan sampel nilai x didefinisikan oleh x ( 1 )x ( 2 )x ( n - 1 )x ( n ) .nxx(1)x(2)x(n1)x(n)

Mode setengah-sampel di sini didefinisikan menggunakan dua aturan.

Aturan 1. Jika , mode setengah-sampel adalah x ( 1 ) . Jika n = 2 , mode setengah-sampel adalah ( x ( 1 ) + x ( 2 ) ) / 2 . Jika n = 3 , mode setengah-sampel adalah ( x ( 1 ) + x ( 2 ) ) / 2 jika x ( 1 ) dan x ( 2n=1x(1)n=2(x(1)+x(2))/2n=3(x(1)+x(2))/2x(1) lebih dekat dari x ( 2 ) dan x ( 3 ) ,( x ( 2 ) + x ( 3 ) ) / 2jika kebalikannya benar, dan x ( 2 ) sebaliknya.x(2)x(2)x(3)(x(2)+x(3))/2x(2)

Aturan 2. Jika , kami menerapkan seleksi rekursif sampai tersisa dengan 3 atau lebih sedikit nilai. Pertama mari h 1 = n / 2 . Setengah terpendek dari data dari peringkat k ke peringkat k + h 1 diidentifikasi untuk meminimalkan x ( k + h 1 ) - x ( k ) di atas k = 1 , , n - h 1 . Kemudian setengah dari mereka yang terpendekn43h1=n/2kk+h1x(k+h1)x(k)k=1,,nh1 nilai diidentifikasi menggunakan h 2 = h 1 / 2 , dan sebagainya. Untuk menyelesaikannya, gunakan Aturan 1.h1+1h2=h1/2

Gagasan mengidentifikasi setengah terpendek diterapkan dalam "singkatan" yang dinamai oleh JW Tukey dan diperkenalkan dalam studi ketahanan Princeton tentang penduga lokasi oleh Andrews, Bickel, Hampel, Huber, Rogers dan Tukey (1972, p.26) sebagai rata-rata dari setengah panjang terpendek untuk h = n / 2 . Rousseeuw (1984), membangun saran oleh Hampel (1975), menunjukkan bahwa titik tengah semester terpendek ( x k + x ( k + h )x(k),,x(k+h)h=n/2 adalah penduga lokasi median kuadrat (LMS) terkecil untuk x . Lihat Rousseeuw (1984) dan Rousseeuw dan Leroy (1987) untuk aplikasi LMS dan ide-ide terkait untuk regresi dan masalah lainnya. Perhatikan bahwa titik tengah LMS ini juga disebut sebagai singkatan dalam beberapa literatur yang lebih baru (misalnya Maronna, Martin dan Yohai 2006, hal.48). Selanjutnya, bagian terpendek itu sendiri juga kadang-kadang disebut singkatan, seperti judul Grübel (1988) menunjukkan. Untuk implementasi Stata dan lebih detail, lihat dari SSC.(xk+x(k+h))/2xshorth

Beberapa komentar umum mengikuti kelebihan dan kekurangan dari mode setengah-sampel, dari sudut pandang analis data praktis sebanyak ahli statistik matematika atau teoritis. Apa pun proyeknya, akan selalu bijaksana untuk membandingkan hasil dengan langkah-langkah ringkasan standar (misalnya median atau cara, termasuk cara geometrik dan harmonik) dan untuk menghubungkan hasil dengan grafik distribusi. Selain itu, jika minat Anda adalah pada keberadaan atau tingkat bimodality atau multimodality, akan lebih baik untuk melihat langsung pada perkiraan fungsi kepadatan yang dihaluskan.

Estimasi mode Dengan meringkas di mana data paling padat, mode setengah sampel menambahkan penduga otomatis mode ke kotak alat. Perkiraan mode yang lebih tradisional berdasarkan identifikasi puncak histogram atau bahkan plot kepadatan kernel sensitif terhadap keputusan tentang asal atau lebar bin atau tipe kernel dan kernel setengah-lebar dan lebih sulit untuk diotomatisasi dalam hal apa pun. Ketika diterapkan pada distribusi yang unimodal dan kira-kira simetris, mode setengah-sampel akan dekat dengan rata-rata dan median, tetapi lebih tahan daripada rata-rata untuk pencilan pada kedua ekor. Ketika diterapkan pada distribusi yang unimodal dan asimetris, mode setengah sampel biasanya akan jauh lebih dekat dengan mode yang diidentifikasi dengan metode lain daripada rata-rata atau median.

Kesederhanaan Gagasan mode setengah-sampel cukup sederhana dan mudah dijelaskan kepada siswa dan peneliti yang tidak menganggap diri mereka sebagai spesialis statistik.

Interpretasi grafis Mode setengah sampel dapat dengan mudah dihubungkan dengan tampilan standar distribusi seperti plot kerapatan kernel, distribusi kumulatif dan plot kuantil, histogram, dan plot batang-dan-daun.

Pada saat yang sama, perhatikan itu

Tidak berguna untuk semua distribusi Ketika diterapkan pada distribusi yang kira-kira berbentuk-J, mode setengah-sampel akan mendekati minimum data. Ketika diterapkan pada distribusi yang kira-kira berbentuk U, mode setengah-sampel akan berada dalam setengah dari distribusi yang memiliki kepadatan rata-rata yang lebih tinggi. Tidak ada perilaku yang tampak sangat menarik atau berguna, tetapi sama-sama ada sedikit panggilan untuk ringkasan seperti mode tunggal untuk distribusi berbentuk-J atau berbentuk-U. Untuk bentuk U, bimodality membuat gagasan tentang mode single moot, jika tidak valid.

Dasi Setengah terpendek mungkin tidak didefinisikan secara unik. Bahkan dengan data yang diukur, pembulatan nilai yang dilaporkan sering kali dapat menimbulkan ikatan. Apa yang harus dilakukan dengan dua atau lebih bagian terpendek telah sedikit dibahas dalam literatur. Perhatikan bahwa belahan yang diikat dapat tumpang tindih atau terpisah.

hsmodettt/2

9,4,1,0,1,4,90.501+n/2nn, yang sulit dicapai mengingat desiderata lain, terutama bahwa panjang jendela tidak boleh berkurang dengan ukuran sampel. Kami lebih suka percaya bahwa ini adalah masalah kecil dengan kumpulan data dengan ukuran yang masuk akal.

1+n/2nnn=1,n=2n/2

1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66. The Stata implementation hsmode reports a mode of 5.38. Robertson and Cryer's own estimates using a rather different procedure are 5.00,5.02,5.04. Compare with your favourite density estimation procedure.

Andrews, D.F., P.J. Bickel, F.R. Hampel, P.J. Huber, W.H. Rogers and J.W. Tukey. 1972. Robust estimates of location: survey and advances. Princeton, NJ: Princeton University Press.

Bickel, D.R. 2002. Robust estimators of the mode and skewness of continuous data. Computational Statistics & Data Analysis 39: 153-163.

Bickel, D.R. and R. Frühwirth. 2006. On a fast, robust estimator of the mode: comparisons to other estimators with applications. Computational Statistics & Data Analysis 50: 3500-3530.

Dalenius, T. 1965. The mode - A neglected statistical parameter. Journal, Royal Statistical Society A 128: 110-117.

Grübel, R. 1988. The length of the shorth. Annals of Statistics 16: 619-628.

Hampel, F.R. 1975. Beyond location parameters: robust concepts and methods. Bulletin, International Statistical Institute 46: 375-382.

Maronna, R.A., R.D. Martin and V.J. Yohai. 2006. Robust statistics: theory and methods. Chichester: John Wiley.

Robertson, T. and J.D. Cryer. 1974. An iterative procedure for estimating the mode. Journal, American Statistical Association 69: 1012-1016.

Rousseeuw, P.J. 1984. Least median of squares regression. Journal, American Statistical Association 79: 871-880.

Rousseeuw, P.J. and A.M. Leroy. 1987. Robust regression and outlier detection. New York: John Wiley.

This account is based on documentation for

Cox, N.J. 2007. HSMODE: Stata module to calculate half-sample modes, http://EconPapers.repec.org/RePEc:boc:bocode:s456818.

See also David R. Bickel's website here for information on implementations in other software.


5

If you have samples from the distribution in a vector "x", I would do:

 mymode <- function(x){
   d<-density(x)
   return(d$x[which(d$y==max(d$y)[1])])
 }

You should tune the density function so it is smooth enough on the top ;-).

If you have only the density of the distribution, I would use an optimiser to find the mode (REML, LBFGS, simplex, etc.)...

 fx <- function(x) {some density equation}
 mode <- optim(inits,fx)

Or use a Monte-Carlo sampler to get some samples from the distribution (package rstan) and use the procedure above. (Anyway, Stan package as an "optimizing" function to get the mode of a distribution).


It seems that such estimates are never used any more. You have to specify the kernel width to use kernel density estimators. On the other hand, HSM and HRM need no tuning at all and work in linear time.
Viktor
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.