Apakah ada varian boxplot untuk data yang didistribusikan Poisson?

Saya ingin tahu apakah ada varian boxplot yang disesuaikan dengan data yang didistribusikan Poisson (atau mungkin distribusi lainnya)?

Dengan distribusi Gaussian, kumis ditempatkan pada L = Q1 - 1,5 IQR dan U = Q3 + 1,5 IQR, boxplot memiliki properti bahwa akan ada kira-kira banyak outlier rendah (poin di bawah L) karena ada outlier tinggi (poin di atas U ).

Jika data didistribusikan Poisson, ini tidak berlaku lagi karena kemiringan positif yang kita dapatkan Pr (X <L) <Pr (X> U) . Apakah ada cara alternatif untuk menempatkan kumis sehingga akan cocok dengan distribusi Poisson?

data-visualization poisson-distribution boxplot

— caas
sumber

Coba masuk dulu? Anda juga bisa mengatakan apa yang Anda inginkan agar boxplot Anda 'beradaptasi dengan baik'.

— conjugateprior

Ada satu masalah dengan melakukan modifikasi seperti itu - orang terbiasa dengan definisi boxplot standar dan kemungkinan besar akan menganggapnya ketika melihat plot apakah Anda suka atau tidak. Dengan demikian, ini dapat membawa lebih banyak kebingungan daripada keuntungan.

@ MBb:> masalahnya dengan boxplots adalah mereka menggabungkan dua fitur ke satu alat; fitur visualisasi data (kotak) dan fitur deteksi outlier (kumis). Apa yang Anda katakan benar-benar berlaku untuk yang pertama, tetapi nantinya dapat menggunakan penyesuaian miring.

— user603

@conjugateprior Berikut adalah contoh Poisson: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 .... perhatikan masalah dengan hanya mengambil log?

— Glen_b -Reinstate Monica

@ Glen_b Pasti karena itu komentar, bukan jawaban. Dan mengapa ia memiliki dua bagian.

— conjugateprior

Jawaban:

Boxplots tidak dirancang untuk memastikan probabilitas rendah melebihi ujung kumis dalam semua kasus: mereka dimaksudkan, dan biasanya digunakan, sebagai karakterisasi grafis sederhana dari sebagian besar dataset. Dengan demikian, mereka baik-baik saja bahkan ketika data memiliki distribusi yang sangat miring (walaupun mereka mungkin tidak mengungkapkan informasi sebanyak yang mereka lakukan tentang distribusi yang kurang dikenal).

Ketika plot kotak menjadi miring, karena mereka akan dengan distribusi Poisson, langkah selanjutnya adalah mengekspresikan kembali variabel yang mendasarinya (dengan monoton, meningkatkan transformasi) dan menggambar ulang plot kotak. Karena varian dari distribusi Poisson sebanding dengan rata-ratanya, transformasi yang baik untuk digunakan adalah akar kuadrat.

Setiap kotak menggambarkan 50 iid draw dari distribusi Poisson dengan intensitas yang diberikan (dari 1 hingga 10, dengan dua percobaan untuk setiap intensitas). Perhatikan bahwa kecenderungannya cenderung rendah.

plot box berdampingan

Data yang sama pada skala akar kuadrat cenderung memiliki plot kotak yang sedikit lebih simetris dan (kecuali untuk intensitas terendah) memiliki IQR yang kira-kira sama tanpa memandang intensitasnya.

boxplot data yang diubah

Singkatnya, jangan ubah algoritma boxplot: ekspresikan kembali data sebagai gantinya.

Secara kebetulan, peluang yang relevan untuk komputasi adalah sebagai berikut: berapakah peluang bahwa varian normal independen akan melebihi pagar ( ) atas (bawah ) seperti yang diperkirakan dari penarikan independen dari distribusi yang sama? $X$ $U$ $L$ $n$ Ini menjelaskan fakta bahwa pagar di dalam boxplot tidak dihitung dari distribusi yang mendasarinya tetapi diperkirakan dari data. Dalam kebanyakan kasus, peluangnya jauh lebih besar dari 1%! Misalnya, di sini (berdasarkan 10.000 uji coba Monte-Carlo) adalah histogram dari log (basis 10) peluang untuk kasus : $n=9$

histogram peluang

(Karena distribusi normal simetris, histogram ini berlaku untuk kedua pagar.) Logaritma 1% / 2 adalah sekitar -2,3. Jelas, sebagian besar waktu kemungkinannya lebih besar dari ini. Sekitar 16% dari waktu itu melebihi 10%!

Ternyata (saya tidak akan mengacaukan jawaban ini dengan detail) bahwa distribusi peluang ini sebanding dengan kasus normal (untuk kecil ) bahkan untuk distribusi intensitas Poisson serendah 1, yang cukup miring. Perbedaan utama adalah bahwa biasanya lebih kecil kemungkinannya untuk menemukan pencilan yang rendah dan sedikit lebih mungkin untuk menemukan pencilan yang tinggi. $n$

— whuber
sumber

+1, saya belum pernah melihat utas ini sebelumnya. Saya membuat (saya percaya) poin yang sama yang dibahas di sini setelah aturan horizontal dengan cara yang berbeda dalam posting ini: Apakah akan menghapus kasus yang ditandai sebagai pencilan oleh perangkat lunak statistik .

— gung - Reinstate Monica

Ya, itu titik yang sama @ gung - dan Anda memposting jawaban yang bagus di sana.

— whuber

Ada generalisasi plot kotak standar yang saya tahu di mana panjang kumis disesuaikan untuk memperhitungkan data yang miring. Rinciannya lebih baik dijelaskan dalam kertas putih yang sangat jelas & ringkas (Vandervieren, E., Hubert, M. (2004) "Plot kotak yang disesuaikan untuk distribusi miring", lihat di sini ).

$\verb+R+$ $\verb+robustbase::adjbox()+$ $\verb+libra+$ ).

Saya pribadi menganggapnya sebagai alternatif yang lebih baik untuk transformasi data (meskipun juga didasarkan pada aturan ad-hoc, lihat buku putih).

Kebetulan, saya menemukan sesuatu untuk ditambahkan pada contoh whuber di sini. Sejauh kita membahas perilaku kumis, kita juga harus mempertimbangkan apa yang terjadi ketika mempertimbangkan data yang terkontaminasi:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

Dalam model kontaminasi ini, B1 pada dasarnya memiliki distribusi log-normal menyimpan 20 persen dari data yang setengah kiri, setengah outlier kanan (titik rincian adjbox sama dengan plot box biasa, yaitu mengasumsikan bahwa paling banyak 25 persen data bisa buruk).

Grafik menggambarkan boxplot klasik dari data yang ditransformasi (menggunakan transformasi akar kuadrat)

boxplot klasik pada transformasi akar kuadrat dari data

dan boxplot yang disesuaikan dari data yang tidak diubah.

boxplot yang disesuaikan dari data yang tidak berubah

Dibandingkan dengan boxplots yang disesuaikan, opsi sebelumnya menutupi outlier nyata dan label data yang baik sebagai outlier. Secara umum, ia akan berusaha menyembunyikan bukti asimetri dalam data dengan mengklasifikasikan poin yang menyinggung sebagai outlier.

Dalam contoh ini, pendekatan menggunakan boxplot standar pada akar kuadrat data menemukan 13 outlier (semuanya di sebelah kanan), sedangkan boxplot yang disesuaikan menemukan 10 outlier kanan dan 14 outlier kiri.

Sunting: plot kotak yang disesuaikan singkatnya.

Dalam kotak-kotak klasik 'kumis ditempatkan di:

$Q_1$ $Q_3$

Aturan praktis ini bersifat ad-hoc: justifikasi adalah bahwa jika bagian data yang tidak terkontaminasi adalah sekitar Gaussian, maka kurang dari 1% dari data yang baik akan diklasifikasikan sebagai buruk menggunakan aturan ini.

Kelemahan aturan pagar ini, seperti yang ditunjukkan oleh OP, adalah bahwa panjang kedua kumis identik, artinya aturan pagar hanya masuk akal jika bagian yang tidak terkontaminasi dari data memiliki distribusi simetris.

Pendekatan populer adalah untuk melestarikan aturan pagar dan untuk menyesuaikan data. Idenya adalah untuk mengubah data menggunakan beberapa transformasi koreksi monoton condong (akar kuadrat atau log atau lebih umumnya transformasi box-cox). Ini adalah pendekatan yang agak berantakan: ini bergantung pada logika sirkuler (transformasi harus dipilih untuk memperbaiki kemiringan bagian data yang tidak terkontaminasi, yang pada tahap ini tidak dapat diamati) dan cenderung membuat data lebih sulit untuk ditafsirkan. secara visual. Bagaimanapun, ini tetap merupakan prosedur aneh di mana seseorang mengubah data untuk mempertahankan apa yang akhirnya merupakan aturan ad-hoc.

Alternatifnya adalah membiarkan data tidak tersentuh dan mengubah aturan kumis. Boxplot yang disesuaikan memungkinkan panjang masing-masing kumis bervariasi sesuai dengan indeks yang mengukur kemiringan bagian data yang tidak tercemar:

$Q_1$ $\exp(M,\alpha)$ $Q_3$ $\exp(M,\beta)$

$M$ $\alpha$ $\beta$

$M\approx 0$

$M$ $M$ $\alpha$ $\beta$

$Q_1$ $\exp(-4M)$ $Q_3$ $\exp(3M)$ $M\geq 0$

$Q_1$ $\exp(-3M)$ $Q_3$ $\exp(4M)$ $M<0$

— pengguna603
sumber

Saya akan tertarik untuk mengetahui bagaimana Anda menemukan contoh saya "tidak membantu" - hanya mencapnya tidak konstruktif. Saya akan mengakui bahwa contohnya agak mengecewakan dalam arti bahwa transformasi data tidak mewakili peningkatan yang spektakuler. Itulah kesalahan distribusi Poisson: mereka hanya tidak cukup miring untuk layak repot dari semua analisis ini!

— Whuber

@whuber:> pertama, maaf untuk nada: itu berasal dari draft pertama yang tidak diedit dan telah diperbaiki (saya biasanya menulis paragraf singkat yang dimaksudkan sebagai catatan untuk diri sendiri, kemudian berulang kali membahasnya - yang ini hilang di respon antar-panjang yang panjang). Sekarang untuk kritik itu sendiri: contoh Anda menggambarkan perilaku solusi menggunakan transformasi dalam kasus data yang tidak terkontaminasi. IMHO aturan kumis harus -mungkin awal-dievaluasi dengan model kontaminasi dalam pikiran.

— user603

@ pengguna Terima kasih atas klarifikasi. Saya tidak keberatan dengan kritik, yang menarik, dan saya menghargai referensi untuk plot box yang disesuaikan. (+1)

— whuber

Saya setuju dengan user603 bahwa ada perbedaan dalam hal apakah Anda memeriksa distribusi murni (seperti dalam jawaban pengacak) atau memiliki data dari distribusi plus beberapa pencilan (dibahas di sini sebagai kontaminasi ). Dari sudut pandang saya, dalam pengaturan nyata, boxplot digunakan untuk memindai pencilan. Selanjutnya, analisis plot kotak yang menghilangkan outlier entah bagaimana melewatkan poinnya. Oleh karena itu, jawaban ini tampaknya lebih cocok untuk tujuan menggunakan boxplots.

— Henrik

@Henrik Mengidentifikasi pencilan hanyalah salah satu dari banyak tujuan boxplots. Pendekatan Tukey adalah yang pertama menemukan ekspresi ulang yang sesuai dari data yang membuat bagian tengah distribusinya mendekati simetris. Ini meniadakan perlunya penyesuaian untuk kemiringan. Itu sudah mencapai banyak hal dalam hal mengizinkan perbandingan di antara plot-plot, yang merupakan tempat mereka menjadi sangat berguna. "Menyesuaikan" kumis benar-benar ketinggalan pada masalah mendasar ini. Karena itu saya akan berhati-hati dalam menggunakan penyesuaian: kebutuhannya adalah sinyal bahwa analisis tidak dilakukan dengan baik.

— whuber