Jawaban ini berfokus sepenuhnya pada estimasi mode dari sampel, dengan penekanan pada satu metode tertentu. Jika ada perasaan kuat di mana Anda sudah mengetahui kerapatan, secara analitik atau numerik, maka jawaban yang disukai adalah, secara singkat, untuk mencari maksimum maksimum tunggal atau ganda secara langsung, seperti dalam jawaban dari @Glen_b.
"Mode setengah-sampel" dapat dihitung menggunakan pemilihan setengah sampel secara rekursif dengan panjang terpendek. Meskipun berakar lebih lama, presentasi yang sangat baik dari ide ini diberikan oleh Bickel dan Frühwirth (2006).
Gagasan memperkirakan mode sebagai titik tengah interval terpendek yang berisi sejumlah pengamatan tetap kembali setidaknya ke Dalenius (1965). Lihat juga Robertson dan Cryer (1974), Bickel (2002) dan Bickel dan Frühwirth (2006) tentang penduga lain mode.
Statistik urutan sampel nilai x didefinisikan oleh x ( 1 ) ≤ x ( 2 ) ≤ ⋯ ≤ x ( n - 1 ) ≤ x ( n ) .nxx(1)≤x(2)≤⋯≤x(n−1)≤x(n)
Mode setengah-sampel di sini didefinisikan menggunakan dua aturan.
Aturan 1. Jika , mode setengah-sampel adalah x ( 1 ) . Jika n = 2 , mode setengah-sampel adalah ( x ( 1 ) + x ( 2 ) ) / 2 . Jika n = 3 , mode setengah-sampel adalah ( x ( 1 ) + x ( 2 ) ) / 2 jika x ( 1 ) dan x ( 2n=1x(1)n=2(x(1)+x(2))/2n=3(x(1)+x(2))/2x(1) lebih dekat dari x ( 2 ) dan x ( 3 ) ,( x ( 2 ) + x ( 3 ) ) / 2jika kebalikannya benar, dan x ( 2 ) sebaliknya.x(2)x(2)x(3)(x(2)+x(3))/2x(2)
Aturan 2. Jika , kami menerapkan seleksi rekursif sampai tersisa dengan 3 atau lebih sedikit nilai. Pertama mari h 1 = ⌊ n / 2 ⌋ . Setengah terpendek dari data dari peringkat k ke peringkat k + h 1 diidentifikasi untuk meminimalkan x ( k + h 1 ) - x ( k ) di atas k = 1 , ⋯ , n - h 1 . Kemudian setengah dari mereka yang terpendekn≥43h1=⌊n/2⌋kk+h1x(k+h1)−x(k)k=1,⋯,n−h1 nilai diidentifikasi menggunakan h 2 = ⌊ h 1 / 2 ⌋ , dan sebagainya. Untuk menyelesaikannya, gunakan Aturan 1.h1+1h2=⌊h1/2⌋
Gagasan mengidentifikasi setengah terpendek diterapkan dalam "singkatan" yang dinamai oleh JW Tukey dan diperkenalkan dalam studi ketahanan Princeton tentang penduga lokasi oleh Andrews, Bickel, Hampel, Huber, Rogers dan Tukey (1972, p.26) sebagai rata-rata dari setengah panjang terpendek untuk h = ⌊ n / 2 ⌋ . Rousseeuw (1984), membangun saran oleh Hampel (1975), menunjukkan bahwa titik tengah semester terpendek ( x k + x ( k + h )x(k),⋯,x(k+h)h=⌊n/2⌋ adalah penduga lokasi median kuadrat (LMS) terkecil untuk x . Lihat Rousseeuw (1984) dan Rousseeuw dan Leroy (1987) untuk aplikasi LMS dan ide-ide terkait untuk regresi dan masalah lainnya. Perhatikan bahwa titik tengah LMS ini juga disebut sebagai singkatan dalam beberapa literatur yang lebih baru (misalnya Maronna, Martin dan Yohai 2006, hal.48). Selanjutnya, bagian terpendek itu sendiri juga kadang-kadang disebut singkatan, seperti judul Grübel (1988) menunjukkan. Untuk implementasi Stata dan lebih detail, lihat
dari SSC.(xk+x(k+h))/2xshorth
Beberapa komentar umum mengikuti kelebihan dan kekurangan dari mode setengah-sampel, dari sudut pandang analis data praktis sebanyak ahli statistik matematika atau teoritis. Apa pun proyeknya, akan selalu bijaksana untuk membandingkan hasil dengan langkah-langkah ringkasan standar (misalnya median atau cara, termasuk cara geometrik dan harmonik) dan untuk menghubungkan hasil dengan grafik distribusi. Selain itu, jika minat Anda adalah pada keberadaan atau tingkat bimodality atau multimodality, akan lebih baik untuk melihat langsung pada perkiraan fungsi kepadatan yang dihaluskan.
Estimasi mode Dengan meringkas di mana data paling padat, mode setengah sampel menambahkan penduga otomatis mode ke kotak alat. Perkiraan mode yang lebih tradisional berdasarkan identifikasi puncak histogram atau bahkan plot kepadatan kernel sensitif terhadap keputusan tentang asal atau lebar bin atau tipe kernel dan kernel setengah-lebar dan lebih sulit untuk diotomatisasi dalam hal apa pun. Ketika diterapkan pada distribusi yang unimodal dan kira-kira simetris, mode setengah-sampel akan dekat dengan rata-rata dan median, tetapi lebih tahan daripada rata-rata untuk pencilan pada kedua ekor. Ketika diterapkan pada distribusi yang unimodal dan asimetris, mode setengah sampel biasanya akan jauh lebih dekat dengan mode yang diidentifikasi dengan metode lain daripada rata-rata atau median.
Kesederhanaan Gagasan mode setengah-sampel cukup sederhana dan mudah dijelaskan kepada siswa dan peneliti yang tidak menganggap diri mereka sebagai spesialis statistik.
Interpretasi grafis Mode setengah sampel dapat dengan mudah dihubungkan dengan tampilan standar distribusi seperti plot kerapatan kernel, distribusi kumulatif dan plot kuantil, histogram, dan plot batang-dan-daun.
Pada saat yang sama, perhatikan itu
Tidak berguna untuk semua distribusi Ketika diterapkan pada distribusi yang kira-kira berbentuk-J, mode setengah-sampel akan mendekati minimum data. Ketika diterapkan pada distribusi yang kira-kira berbentuk U, mode setengah-sampel akan berada dalam setengah dari distribusi yang memiliki kepadatan rata-rata yang lebih tinggi. Tidak ada perilaku yang tampak sangat menarik atau berguna, tetapi sama-sama ada sedikit panggilan untuk ringkasan seperti mode tunggal untuk distribusi berbentuk-J atau berbentuk-U. Untuk bentuk U, bimodality membuat gagasan tentang mode single moot, jika tidak valid.
Dasi Setengah terpendek mungkin tidak didefinisikan secara unik. Bahkan dengan data yang diukur, pembulatan nilai yang dilaporkan sering kali dapat menimbulkan ikatan. Apa yang harus dilakukan dengan dua atau lebih bagian terpendek telah sedikit dibahas dalam literatur. Perhatikan bahwa belahan yang diikat dapat tumpang tindih atau terpisah.
hsmode
tt⌈t/2⌉
−9,−4,−1,0,−1,4,9−0.501+⌊n/2⌋nn, yang sulit dicapai mengingat desiderata lain, terutama bahwa panjang jendela tidak boleh berkurang dengan ukuran sampel. Kami lebih suka percaya bahwa ini adalah masalah kecil dengan kumpulan data dengan ukuran yang masuk akal.
1+⌊n/2⌋nnn=1,n = 2⌈ n / 2 ⌉
1.6 , 3.11 , 3.95 , 4.2 , 4.2 , 4.62 , 4.62 , 4.62 , 4.7 , 4.87 , 5.04 , 5.29 , 5.3 , 5.38 , 5.38 , 5.38 , 5.38 , 5.54 ,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66. The Stata implementation hsmode
reports a mode of 5.38. Robertson and Cryer's own estimates using a rather different procedure are 5.00,5.02,5.04. Compare with your favourite density estimation procedure.
Andrews, D.F., P.J. Bickel, F.R. Hampel, P.J. Huber, W.H. Rogers and J.W.
Tukey. 1972. Robust estimates of location: survey and advances.
Princeton, NJ: Princeton University Press.
Bickel, D.R. 2002. Robust estimators of the mode and skewness of
continuous data. Computational Statistics & Data Analysis 39:
153-163.
Bickel, D.R. and R. Frühwirth. 2006. On a fast, robust estimator of the
mode: comparisons to other estimators with applications. Computational Statistics & Data Analysis 50: 3500-3530.
Dalenius, T. 1965. The mode - A neglected statistical parameter. Journal, Royal Statistical Society A 128: 110-117.
Grübel, R. 1988. The length of the shorth. Annals of Statistics 16:
619-628.
Hampel, F.R. 1975. Beyond location parameters: robust concepts and
methods. Bulletin, International Statistical Institute 46: 375-382.
Maronna, R.A., R.D. Martin and V.J. Yohai. 2006. Robust statistics: theory
and methods. Chichester: John Wiley.
Robertson, T. and J.D. Cryer. 1974. An iterative procedure for estimating
the mode. Journal, American Statistical Association 69: 1012-1016.
Rousseeuw, P.J. 1984. Least median of squares regression. Journal,
American Statistical Association 79: 871-880.
Rousseeuw, P.J. and A.M. Leroy. 1987. Robust regression and outlier
detection. New York: John Wiley.
This account is based on documentation for
Cox, N.J. 2007. HSMODE: Stata module to calculate half-sample modes, http://EconPapers.repec.org/RePEc:boc:bocode:s456818.
See also David R. Bickel's website here for information on implementations in other software.