Saya akan mengatakan bahwa dengan data seperti ini Anda benar-benar perlu menunjukkan hasil pada skala yang diubah. Itu adalah keharusan pertama dan masalah yang lebih penting daripada bagaimana tepatnya menggambar plot kotak.
Tapi saya menggemakan Frank Harrell dalam mendesak sesuatu yang lebih informatif daripada plot kotak minimal, bahkan dengan beberapa poin ekstrim diidentifikasi. Anda memiliki cukup ruang untuk menampilkan lebih banyak informasi. Berikut adalah salah satu dari banyak contoh, kotak hibrida dan plot kuantil. Seperti dalam data Anda, ada dua kelompok yang dibandingkan.
Saya akan mengambil dua poin ini satu per satu dan mengatakan lebih banyak.
Skala yang diubah
Dalam kasus paling sederhana, semua nilai Anda mungkin positif dan Anda harus terlebih dahulu mencoba menggunakan skala logaritmik.
Jika Anda memiliki angka nol, skala akar kuadrat atau akar kubus masih akan meningkatkan kemiringan ekstrem. Beberapa orang senang dengan log (nilai + konstan), di mana konstanta paling umum adalah 1, sebagai cara mengatasi nol.
Implikasi untuk plot kotak menggunakan skala transformasi adalah halus.
Jika Anda menggunakan konvensi Tukey umum untuk menunjukkan secara individual semua poin di luar kuartil atas + 1,5 IQR atau kuartil rendah - 1,5 IQR, maka batas-batas tersebut harus dihitung pada skala yang diubah. Itu tidak sama dengan menghitung batas-batas itu pada skala asli, lalu mentransformasikannya.
Alih-alih, saya mendukung apa yang tampaknya masih menjadi konvensi minoritas dalam memilih kuantil untuk tujuan kumis. Salah satu dari beberapa keuntungannya adalah bahwa transformasi kuantil = kuantil transformasi, paling tidak cukup dekat untuk keperluan grafis dalam banyak kasus. (Cetakan kecil adalah setiap kali kuantil dihitung dengan interpolasi linier antara statistik pesanan yang berdekatan.)
Konvensi kuantil ini dikemukakan dengan cukup jelas oleh Cleveland (1985). Sebagai catatan, plot kotak yang disempurnakan dengan kotak ke kuartil, kotak yang lebih tipis ke oktaf luar (12,5 dan 87,5% poin) dan plot strip data digunakan dalam geografi dan klimatologi oleh (misalnya) Matthews (1936) dan Grove (1956), di bawah nama "diagram dispersi".
Lebih dari plot kotak
Plot kotak diciptakan kembali oleh Tukey sekitar tahun 1970 dan paling jelas dipromosikan dalam bukunya tahun 1977. Sebagian besar tujuannya adalah untuk mempromosikan grafik yang dapat dengan cepat digambar menggunakan pena (cil) dan kertas dalam eksplorasi informal. Dia juga menyarankan cara mengidentifikasi kemungkinan pencilan. Itu baik-baik saja, tetapi sekarang kita semua memiliki akses ke komputer, tidak ada masalah untuk menggambar grafik yang menunjukkan, jika tidak semua data, maka setidaknya lebih banyak detail. Peran ringkasan plot kotak sangat berharga, tetapi grafik juga dapat menunjukkan struktur halus, kalau-kalau itu menarik atau penting. (Dan apa yang menurut peneliti tidak menarik atau tidak penting mungkin lebih mencolok bagi pembaca mereka.)
Ada banyak ruang untuk ketidaksepakatan yang sopan tentang apa yang paling berhasil, tetapi menurut saya, plot kotak kosong sudah terlalu banyak terjual.
Pengguna stata dapat menemukan lebih banyak pada program yang menggambar angka di pos Statalist ini . Pengguna perangkat lunak lain seharusnya tidak mengalami kesulitan dalam menggambar sesuatu yang baik atau lebih baik (kalau tidak mengapa menggunakan perangkat lunak itu?).
Cleveland, WS 1985. Elemen data grafik. Monterey, CA: Wadsworth.
Grove, AT 1956. Erosi tanah di Nigeria. Dalam Steel, RW dan Fisher, CA (Eds)
esai Geografis tentang tanah tropis Inggris. London: George Philip, 79-111.
Matthews, HA 1936. Pandangan baru tentang beberapa curah hujan India yang akrab. Scottish Geographical Magazine 52: 84-97.
Tukey, JW 1977. Analisis data eksplorasi. Membaca, MA: Addison-Wesley.