Apa sejarah plot kotak, dan bagaimana desain "kotak dan kumis" berkembang?


19

Banyak sumber menyebutkan desain "box plot" klasik untuk John Tukey dan "plot skematis" -nya pada tahun 1970. Desainnya tampaknya tetap relatif statis sejak itu, dengan versi cut-down Edward Tufte dari plot kotak gagal untuk menangkap, sementara plot biola - meskipun varian yang lebih informatif dari plot kotak - tetap kurang populer. Saran Cleveland bahwa kumis meluas ke persentil ke-10 dan ke-90 memiliki beberapa pendukung, lihat Cox (2009) , tetapi bukan norma.

Hadley Wickham dan Lisa Stryjewski menulis sebuah makalah yang tidak diterbitkan tentang sejarah plot kotak tetapi tampaknya tidak mencakup prekursor sejarah plot plot.

Jadi bagaimana plot "kotak dan kumis" yang ada saat ini muncul? Apa jenis visualisasi data yang berevolusi dari, apakah desain sebelumnya memiliki keunggulan yang signifikan, dan mengapa mereka tampaknya telah dikalahkan begitu komprehensif dalam penggunaan oleh skema Tukey? Jawaban yang diilustrasikan akan menjadi bonus, tetapi untuk diarahkan ke referensi yang menyelam lebih dalam secara historis daripada Wickham dan Stryjewski akan berguna.

Referensi


1
Beberapa diskusi yang relevan dari sejumlah prekursor di sini: stats.stackexchange.com/questions/125521/ ... ... Tukey mengetahui pekerjaan Mary Spears tetapi mungkin dia mungkin belum melihat yang sebelumnya
Glen_b -Reinstate Monica

Terima kasih @Glen_b, itu memang diskusi yang saya baca yang mengilhami pertanyaan ini, tapi saya butuh waktu 4 tahun untuk menanyakannya dan saya tidak bisa melacak diskusi! (Sayangnya komentar tidak muncul dalam pencarian situs, itulah sebabnya mencoba memasukkannya ke T&J yang tepat akan sangat membantu.)
Silverfish

1
Saya menggunakan pencarian google dengan site:stats.stackexchange.comset untuk melacak hal-hal dalam komentar. Saya dapat mengingat cukup detail (bahwa itu adalah diskusi antara Nick dan saya terkait dengan plot box dan bahwa saya telah menyebutkan Schmid) untuk mendapatkannya pertama kali.
Glen_b -Reinstate Monica

1
Komentar tangensial tentang outlier boxplot. Dua aturan telah banyak digunakan. Yang umumnya default (dalam R dan perangkat lunak lain) adalah bahwa pengamatan di bawah atau di atas Q 3 + 1,5 I Q R ditetapkan sebagai outlier; "aturan 1.5IQR." Dalam versi awal, Minitab juga menggunakan aturan 3 I Q R , menyebut outlier yang lebih ekstrim "probable outlier" & yang kurang ekstrim "outlier yang mungkin." Setidaknya untuk data yang kira-kira normal, kedua aturan menunjukkan persentase outlier yang sangat bervariasi dengan ukuran sampel n . Ada bukti dari simulasi bahwa aQ1-1.5sayaQRQ3+1.5sayaQR3sayaQRn. rule akan lebih stabil hingga 1000's. 2.25sayaQR
BruceET

1
github.com/hadley/boxplots-paper mencakup banyak materi, seperti laporan pengulas anonim dari jurnal (? _American Statistician_) (singkat dan mengecewakan) dan ulasan independen yang tidak tumpang tindih oleh David Hoaglin dan saya (keduanya jauh lebih rinci).
Nick Cox

Jawaban:


18

Ringkasan CEO

Sejarahnya jauh lebih lama dan lebih rumit daripada yang dipikirkan banyak orang.

Ringkasan bisnis plan

Sejarah apa yang disebut Tukey kotak plot bertautan dengan apa yang sekarang sering disebut dot atau strip plot (lusinan nama lain) dan dengan representasi fungsi kuantil empiris.

Petak kotak dalam bentuk yang luas saat ini paling dikenal melalui karya John Wilder Tukey (1970, 1972, 1977).

Tetapi gagasan untuk menunjukkan median dan kuartil sebagai ringkasan dasar - sering bersama-sama tetapi tidak selalu dengan titik-titik yang menunjukkan semua nilai - kembali setidaknya ke diagram dispersi (banyak nama varian) yang diperkenalkan oleh ahli geografi Percy Robert Crowe (1933). Ini adalah ongkos pokok untuk ahli geografi dan digunakan di banyak buku pelajaran serta makalah penelitian dari akhir 1930-an pada.

Bibby (1986, hal.56, 59) bahkan memberikan referensi sebelumnya untuk ide-ide serupa yang diajarkan oleh Arthur Lyon Bowley (kemudian Sir Arthur) dalam ceramahnya sekitar 1897 dan kepada rekomendasinya (Bowley, 1910, p.62; 1952, p.73 ) untuk menggunakan poin minimum dan maksimum dan 10, 25, 50, 75 dan 90% sebagai dasar untuk ringkasan grafis.

Range bar yang menunjukkan ekstrem dan kuartil sering dikaitkan dengan Mary Eleanor Spear (1952) tetapi dalam bacaan saya lebih sedikit orang yang mengutip Kenneth W. Haemer (1948). Artikel Haemer tentang grafik statistik di American Statistician sekitar tahun 1950 adalah inventif dan memiliki gigitan kritis dan tetap layak dibaca kembali. (Banyak pembaca akan dapat mengaksesnya melalui jstor.org.) Sebaliknya buku-buku Spear (Spear 1969 adalah pengulangan) dapat diakses dan masuk akal tetapi sengaja diperkenalkan daripada secara inovatif atau ilmiah.

Varian plot kotak di mana kumis meluas ke persentil tertentu lebih umum daripada yang dipikirkan banyak orang. Sekali lagi, plot setara digunakan oleh ahli geografi dari tahun 1930-an dan seterusnya.

Apa yang paling orisinil dalam versi plot kotak Tukey adalah yang pertama-tama kriteria untuk mengidentifikasi titik-titik di bagian ekor yang akan diplot secara terpisah dan diidentifikasi sebagai layak untuk mendapatkan pertimbangan terperinci - dan seringkali memberi tanda bahwa suatu variabel harus dianalisis pada skala yang ditransformasikan. Aturan praktis 1,5 IQR-nya muncul hanya setelah banyak eksperimen. Ini telah bermutasi di beberapa tangan ke aturan keras untuk menghapus titik data, yang tidak pernah niat Tukey. Sebuah plot kotak nama yang berkesan dan berkesan - tidak ada salahnya memastikan dampak yang lebih luas dari ide-ide ini. Diagram dispersi sebaliknya adalah istilah yang membosankan dan suram.

Daftar referensi yang cukup panjang di sini, mungkin bertentangan dengan penampilan, tidak dimaksudkan untuk lengkap. Tujuannya hanya untuk menyediakan dokumentasi untuk beberapa pendahulu dan alternatif dari plot kotak. Referensi khusus dapat membantu untuk pertanyaan terperinci atau jika mereka berada di dekat dengan bidang Anda. Sebaliknya, belajar tentang praktik di bidang lain bisa bermanfaat. Keahlian grafis - bukan hanya kartografis - geografi sering diremehkan.

Keterangan lebih lanjut

Plot dot-box hybrid digunakan oleh Crowe (1933, 1936), Matthews (1936), Hogg (1948), Monkhouse dan Wilkinson (1952), Farmer (1956), Gregory (1963), Hammond dan McCullagh (1974), Lewis (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn and Keough (2002), Young et al. (2006) dan Hendry dan Nielsen (2007) dan banyak lainnya. Lihat juga Miller (1953, 1964).

Menggambar kumis ke persentil tertentu, daripada ke titik data dalam begitu banyak IQR dari kuartil, ditekankan oleh Cleveland (1985), tetapi diantisipasi oleh Matthews (1936) dan Grove (1956) yang merencanakan rentang interoktil, yang berarti antara yang pertama dan yang lain. oktile ketujuh, serta kisaran dan rentang interkuartil. Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt dan Johnson (2009, 2011) dan Davino et al. (2014) menunjukkan rata-rata serta minimum, kuartil, median, dan maksimum. Schmid (1954) menunjukkan grafik ringkasan dengan median, kuartil, dan 5 dan 95% poin. Bentley (1985, 1988), Davis (2002), Spence (2007, 2014) dan Motulsky (2010, 2014, 2018) merencanakan kumis menjadi 5 dan 95% poin. Morgan dan Henrion (1990, hal.221, 241), Spence (2001, hal.36), dan Gotelli dan Ellison (2004, 2013, hal.72, 110, 213, 416) merencanakan kumis 10% dan 90% poin. Harris (1999) menunjukkan contoh poin 5 dan 95% dan 10 dan 90%. Altman (1991, pp.34, 63) dan Greenacre (2016) merencanakan kumis hingga 2,5% dan 97,5% poin. Reimann et al. (2008, pp.46-47) merencanakan kumis sampai 5% dan 95% dan 2% dan 98% poin.

Parzen (1979a, 1979b, 1982) kotak hibridisasi dan plot kuantil sebagai plot box kuantil. Lihat juga (misalnya) Shera (1991), Militky dan Meloun (1993), Meloun dan Militky (1994). Perhatikan, bagaimanapun, bahwa plot kotak kuantil Keen (2010) hanyalah plot kotak dengan kumis meluas ke ekstrem. Sebaliknya, plot kotak kuantil dari JMP ternyata plot kotak dengan tanda di 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: lihat Sall et al. (2014, hal.143-4).

Berikut adalah beberapa catatan tentang varian plot kotak kuantil.

halhal,1-hal-hal,1-hal

hal,1-hal

Dari literatur yang saya lihat, tampaknya tidak ada satu pun dari thread ini - plot kotak kuantil atau varian selanjutnya (A) (B) (C) - saling mengutip.

!!! pada 3 Oktober 2018 rincian untuk beberapa referensi perlu disediakan di edit berikutnya.

Altman, DG 1991. Statistik Praktis dalam Penelitian Medis. London: Chapman and Hall.

Bentley, JL 1985. Pemrograman mutiara: Seleksi. Komunikasi ACM 28: 1121-1127.

Bentley, JL 1988. More Programming Pearls: Confessions of a Coder. Membaca, MA: Addison-Wesley.

Bibby, J. 1986. Catatan Menuju Sejarah Statistik Pengajaran. Edinburgh: John Bibby (Buku).

Bowley, AL 1910. Manual Dasar Statistik. London: Macdonald dan Evans. (edisi ketujuh 1952)

Cleveland, WS 1985. Elemen Data Grafik. Monterey, CA: Wadsworth.

Crowe, PR 1933. Analisis probabilitas curah hujan: Metode grafis dan penerapannya pada data Eropa. Scottish Geographical Magazine 49: 73-91.

Crowe, PR 1936. Rezim curah hujan di Dataran Barat. Ulasan Geografis 26: 463-484.

Davis, JC 2002. Statistik dan Analisis Data dalam Geologi. New York: John Wiley.

Dickinson, GC 1963. Pemetaan Statistik dan Penyajian Statistik. London: Edward Arnold. (edisi kedua 1973)

Dury, GH 1963. Midlands Timur dan Puncak. London: Thomas Nelson.

Farmer, BH 1956. Curah hujan dan persediaan air di Zona Kering Ceylon. Dalam Steel, RW dan CA Fisher (eds) Esai Geografis tentang British Tropical Lands. London: George Philip, 227-268.

Gregory, S. 1963. Metode Statistik dan Geografer. London: Longmans. (edisi selanjutnya 1968, 1973, 1978; penerbit kemudian Longman)

Grove, AT 1956. Erosi tanah di Nigeria. Dalam Steel, RW dan CA Fisher (eds) Esai Geografis tentang British Tropical Lands. London: George Philip, 79-111.

Haemer, KW 1948. Diagram rentang-bar. Statistik Amerika 2 (2): 23.

Hendry, DF dan B. Nielsen. 2007. Pemodelan Ekonometrik: Pendekatan Kemungkinan. Princeton, NJ: Princeton University Press.

Hogg, WH 1948. Diagram dispersi curah hujan: diskusi tentang kelebihan dan kekurangannya. Geografi 33: 31-37.

Ibrekk, H. dan MG Morgan. 1987. Komunikasi grafis dari jumlah yang tidak pasti kepada orang-orang nonteknis. Analisis Risiko 7: 519-529.

Johnson, BLC 1975. Bangladesh. London: Heinemann Educational.

Keen, KJ 2010. Grafik untuk Statistik dan Analisis Data dengan R. Boca Raton, FL: CRC Press. (Edisi ke-2 2018)

Lewis, CR 1975. Analisis perubahan status perkotaan: studi kasus di Wales Tengah dan perbatasan Welsh tengah. Transaksi dari Institute of British Geographers 64: 49-65.

Martinez, WL, AR Martinez dan JL Solka. 2011. Analisis Data Eksplorasi dengan MATLAB. Boca Raton, FL: CRC Press.

Matthews, HA 1936. Pandangan baru tentang beberapa curah hujan India yang akrab. Scottish Geographical Magazine 52: 84-97.

Matthews, JA 1981. Pendekatan Kuantitatif dan Statistik untuk Geografi: Manual Praktis. Oxford: Pergamon.

Meloun, M. dan J. Militky. 1994. Perawatan data berbantuan komputer dalam chemometrics analitik. I. Analisis eksplorasi data univariat. Makalah Kimia 48: 151-157.

Militky, J. dan M. Meloun. 1993. Beberapa bantuan grafis untuk analisis data eksplorasi univariat. Analytica Chimica Acta 277: 215-221.

Miller, AA 1953. Kulit Bumi. London: Methuen. (Edisi ke-2 1964)

Monkhouse, FJ dan HR Wilkinson. 1952. Peta dan Diagram: Kompilasi dan Konstruksi mereka. London: Methuen. (edisi selanjutnya 1963, 1971)

Morgan, MG dan M. Henrion. 1990. Ketidakpastian: Panduan untuk Menangani Ketidakpastian dalam Risiko Kuantitatif dan Analisis Kebijakan. Cambridge: Cambridge University Press.

Myatt, GJ 2007. Memahami Data: Panduan Praktis untuk Analisis Data Eksplorasi dan Penambangan Data. Hoboken, NJ: John Wiley.

Myatt, GJ dan Johnson, WP 2009. Membuat Sense of Data II: Panduan Praktis untuk Visualisasi Data, Metode Penambangan Data Lanjutan, dan Aplikasi. Hoboken, NJ: John Wiley.

Myatt, GJ dan Johnson, WP 2011. Memahami Data III: Panduan Praktis untuk Merancang Visualisasi Data Interaktif. Hoboken, NJ: John Wiley.

Ottaway, B. 1973. Diagram dispersi: pendekatan baru untuk tampilan tanggal karbon-14. Arkeometri 15: 5-12.

Parzen, E. 1979a. Pemodelan data statistik nonparametrik. Jurnal, Asosiasi Statistik Amerika 74: 105-121.

Parzen, E. 1979b. Perspektif fungsi densitas-kuantil pada estimasi kuat. Dalam Launer, RL dan GN Wilkinson (eds) Robustness in Statistics. New York: Academic Press, 237-258.

Parzen, E. 1982. Pemodelan data menggunakan fungsi quantile dan density-quantile. Dalam Tiago de Oliveira, J. dan Epstein, B. (eds) Beberapa Kemajuan Terbaru dalam Statistik. London: Academic Press, 23-52.

Quinn, GP dan MJ Keough. 2002. Desain Eksperimental dan Analisis Data untuk Ahli Biologi. Cambridge: Cambridge University Press.

Reimann, C., P. Filzmoser, RG Garrett dan R. Dutter. 2008. Analisis Data Statistik Dijelaskan: Statistik Lingkungan Terapan dengan R. Chichester: John Wiley.

Sall, J., A. Lehman, M. Stephens dan L. Creighton. 2014. Statistik Mulai JMP: Panduan Statistik dan Analisis Data Menggunakan JMP. Cary, NC: SAS Institute.

Shera, DM 1991. Beberapa penggunaan plot kuantil untuk meningkatkan presentasi data. Ilmu Komputer dan Statistik 23: 50-53.

Spear, ME 1952. Grafik Statistik. New York: McGraw-Hill.

Spear, ME 1969. Teknik Pembuatan Grafik Praktis. New York: McGraw-Hill.

Tukey, JW 1970.
Analisis data eksplorasi. Edisi Pendahuluan Terbatas. Volume I. Membaca, MA: Addison-Wesley.

Tukey, JW 1972. Beberapa tampilan grafis dan semi-grafis. Dalam Bancroft, TA dan Brown, SA (eds) Makalah Statistik untuk Kehormatan George W. Snedecor. Ames, IA: Iowa State University Press, 293-316. (juga dapat diakses di http://www.edwardtufte.com/tufte/tukey )

Tukey, JW 1977. Analisis Data Eksplorasi. Membaca, MA: Addison-Wesley.

Liar, CJ dan GAF Seber. 2000. Peluang Pertemuan: Kursus Pertama dalam Analisis dan Inferensi Data. New York: John Wiley.


Saya memiliki bahan lain tentang plot persentil kotak, plot gunung, dan bentuk hibrid lainnya, untuk ditambahkan nanti.
Nick Cox

Sangat menghargai jawaban ini, terima kasih Nick - menantikan penambahan tentang alternatif dan hibrida. Saya pikir mungkin adil untuk mengatakan "plot kotak" dan teman-teman "membentuk" keluarga "visualisasi data, meskipun saya tidak tahu apa yang harus disebut keluarga itu
Silverfish

Terima kasih! jika memiliki garis atau spidol lain yang menunjukkan median dan kuartil mendefinisikan sebuah kotak, maka ada plot kotak jauh sebelum Tukey menyebutkannya, dan saya yakin dia tidak pernah mengklaim sebaliknya. Namun, banyak sejarah miniatur di buku pelajaran dan di tempat lain tampaknya tegas tentang hal itu; kebanyakan, itu hanya sebuah meme yang diulang tanpa bukti seperti cerita bahwa lemmings melompat dari tebing sebagai bunuh diri kolektif. Banyak alternatif untuk plot kotak bahkan tidak menunjukkan kotak dalam arti apa pun, jadi bidang itu terbuka lebar untuk disertakan setiap representasi grafis dari distribusi univariat.
Nick Cox
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.