Ada generalisasi plot kotak standar yang saya tahu di mana panjang kumis disesuaikan untuk memperhitungkan data yang miring. Rinciannya lebih baik dijelaskan dalam kertas putih yang sangat jelas & ringkas (Vandervieren, E., Hubert, M. (2004) "Plot kotak yang disesuaikan untuk distribusi miring", lihat di sini ).
Rrobustbase :: adjbox ()Libra ).
Saya pribadi menganggapnya sebagai alternatif yang lebih baik untuk transformasi data (meskipun juga didasarkan pada aturan ad-hoc, lihat buku putih).
Kebetulan, saya menemukan sesuatu untuk ditambahkan pada contoh whuber di sini. Sejauh kita membahas perilaku kumis, kita juga harus mempertimbangkan apa yang terjadi ketika mempertimbangkan data yang terkontaminasi:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
Dalam model kontaminasi ini, B1 pada dasarnya memiliki distribusi log-normal menyimpan 20 persen dari data yang setengah kiri, setengah outlier kanan (titik rincian adjbox sama dengan plot box biasa, yaitu mengasumsikan bahwa paling banyak 25 persen data bisa buruk).
Grafik menggambarkan boxplot klasik dari data yang ditransformasi (menggunakan transformasi akar kuadrat)
dan boxplot yang disesuaikan dari data yang tidak diubah.
Dibandingkan dengan boxplots yang disesuaikan, opsi sebelumnya menutupi outlier nyata dan label data yang baik sebagai outlier. Secara umum, ia akan berusaha menyembunyikan bukti asimetri dalam data dengan mengklasifikasikan poin yang menyinggung sebagai outlier.
Dalam contoh ini, pendekatan menggunakan boxplot standar pada akar kuadrat data menemukan 13 outlier (semuanya di sebelah kanan), sedangkan boxplot yang disesuaikan menemukan 10 outlier kanan dan 14 outlier kiri.
Sunting: plot kotak yang disesuaikan singkatnya.
Dalam kotak-kotak klasik 'kumis ditempatkan di:
Q1Q3
Q1Q3
Aturan praktis ini bersifat ad-hoc: justifikasi adalah bahwa jika bagian data yang tidak terkontaminasi adalah sekitar Gaussian, maka kurang dari 1% dari data yang baik akan diklasifikasikan sebagai buruk menggunakan aturan ini.
Kelemahan aturan pagar ini, seperti yang ditunjukkan oleh OP, adalah bahwa panjang kedua kumis identik, artinya aturan pagar hanya masuk akal jika bagian yang tidak terkontaminasi dari data memiliki distribusi simetris.
Pendekatan populer adalah untuk melestarikan aturan pagar dan untuk menyesuaikan data. Idenya adalah untuk mengubah data menggunakan beberapa transformasi koreksi monoton condong (akar kuadrat atau log atau lebih umumnya transformasi box-cox). Ini adalah pendekatan yang agak berantakan: ini bergantung pada logika sirkuler (transformasi harus dipilih untuk memperbaiki kemiringan bagian data yang tidak terkontaminasi, yang pada tahap ini tidak dapat diamati) dan cenderung membuat data lebih sulit untuk ditafsirkan. secara visual. Bagaimanapun, ini tetap merupakan prosedur aneh di mana seseorang mengubah data untuk mempertahankan apa yang akhirnya merupakan aturan ad-hoc.
Alternatifnya adalah membiarkan data tidak tersentuh dan mengubah aturan kumis. Boxplot yang disesuaikan memungkinkan panjang masing-masing kumis bervariasi sesuai dengan indeks yang mengukur kemiringan bagian data yang tidak tercemar:
Q1exp( M., α )Q3exp( M., β)
M.α β
M.≈ 0
M.M.αβ
Q1exp( - 4 M)Q3exp( 3 M)M.≥ 0
Q1exp( - 3 M)Q3exp( 4 M)M.< 0