Saya biasanya membuat pilihan istimewa saya sendiri ketika menyiapkan plot. Namun, saya bertanya-tanya apakah ada praktik terbaik untuk menghasilkan plot.
Catatan: Komentar Rob untuk jawaban atas pertanyaan ini sangat relevan di sini.
Saya biasanya membuat pilihan istimewa saya sendiri ketika menyiapkan plot. Namun, saya bertanya-tanya apakah ada praktik terbaik untuk menghasilkan plot.
Catatan: Komentar Rob untuk jawaban atas pertanyaan ini sangat relevan di sini.
Jawaban:
Prinsip Tufte adalah praktik yang sangat baik saat menyiapkan plot. Lihat juga bukunya Beautiful Evidence
Prinsip-prinsip tersebut meliputi:
Istilah untuk mencari adalah Visualisasi Informasi
SO
: stackoverflow.com/questions/6973394/…
Kita bisa tinggal di sini sepanjang hari untuk menunjukkan praktik terbaik, tetapi Anda harus mulai dengan membaca Tufte. Rekomendasi utama saya:
Tetap sederhana.
Seringkali orang mencoba memuat grafik mereka dengan informasi. Tetapi Anda harus benar-benar hanya memiliki satu ide utama yang ingin Anda sampaikan dan jika seseorang tidak segera menerima pesan Anda, maka Anda harus memikirkan kembali bagaimana Anda telah menyampaikannya. Jadi jangan mulai mengerjakan bagan Anda sampai pesannya sendiri jelas. Pisau cukur Occam juga berlaku di sini.
Salah satu aturan praktis yang tidak selalu saya ikuti tetapi yang kadang-kadang bermanfaat adalah memperhitungkan bahwa kemungkinan plot Anda pada suatu saat nanti akan terjadi.
Anda perlu mencoba dan membuat plot Anda cukup jelas sehingga meskipun mereka tidak tepat direproduksi di masa depan, informasi yang ingin disampaikan plot masih dapat terbaca.
Selain menyampaikan pesan yang jelas, saya selalu mencoba mengingat plotnya:
Saya telah mengkonfigurasi perangkat lunak plot saya (matplotlib, ROOT atau root2matplotlib) untuk melakukan sebagian besar hak ini secara default. Sebelum saya menggunakan gnuplot
yang membutuhkan perawatan ekstra di sini.
Dalam bidang fisika ada aturan bahwa seluruh makalah / laporan harus dapat dipahami hanya dari melihat sekilas plot. Jadi saya terutama akan menyarankan bahwa mereka harus jelas.
Ini juga menyiratkan bahwa Anda harus selalu memeriksa apakah audiens Anda akrab dengan semacam plot - Saya pernah membuat kesalahan besar dengan asumsi bahwa setiap ilmuwan tahu apa itu boxplots, dan kemudian membuang waktu satu jam untuk menjelaskannya.
Berikut adalah panduan saya, berdasarkan kesalahan paling umum yang saya lihat (selain semua poin bagus lainnya yang disebutkan)
Lihatlah perpustakaan grafis R, ggplot2. Detail ada di halaman web http://had.co.nz/ggplot2/ Paket ini menghasilkan plot standar yang sangat baik, yang mengikuti prinsip Tufte, pedoman Cleveland dan paket warna Ihaka.
Jika memplot dalam warna, pertimbangkan bahwa orang yang buta warna mungkin mengalami kesulitan membedakan elemen dengan warna saja. Begitu:
Ini adalah saran yang bagus. Kami telah mengumpulkan banyak materi di http://biostat.mc.vanderbilt.edu/StatGraphCourse . Sekelompok ahli statistik dalam industri farmasi, akademisi, dan FDA juga menciptakan sumber daya yang akan sangat berguna untuk uji klinis dan penelitian terkait. Banyak materi baru akan diluncurkan dalam satu bulan tetapi banyak sudah ada di sana - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
Buku grafis favorit pribadi saya adalah Elements of Graphing Data oleh William Cleveland.
Dalam hal perangkat lunak, menurut saya sulit untuk mengalahkan paket ggplot2 dan kisi R. Stata juga mendukung beberapa grafik yang luar biasa.
Itu juga tergantung di mana Anda tidak ingin mempublikasikan plot Anda. Anda akan menghemat banyak masalah dengan berkonsultasi dengan panduan untuk penulis sebelum membuat plot untuk jurnal.
Simpan juga plot dalam format yang mudah dimodifikasi atau simpan kode yang Anda gunakan untuk membuatnya. Kemungkinannya adalah Anda perlu melakukan koreksi.
Jangan gunakan plot dinamit: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , gunakan plot biola atau sejenisnya (boxplots family)
Jawaban lainnya terlalu rumus untuk meyakinkan, jadi izinkan saya memberikan jawaban yang lebih umum. Saya telah berjuang dengan pertanyaan ini untuk sementara waktu. Saya menawarkan proses ini:
Saya skeptis terhadap klaim selimut seperti "tetap sederhana" - apa artinya itu? Ya, itu tergantung penontonnya. Beberapa audiens akan memakan gaya Tufte. Tetapi beberapa penonton menghargai sedikit bagan sampah sekarang dan kemudian. Beberapa orang bosan dengan sebaran plot. Beberapa orang menyukai latar belakang berwarna-warni. Apakah salah jika melibatkan mereka sedikit bahkan jika Anda membahayakan kemurnian "estetika"? Terserah Anda untuk memutuskan.
Reaksi audiens Anda akan menjadi bagian penting dari umpan balik, tetapi bukan satu-satunya. Jika Anda menemukan cara untuk mengukur pemahaman mereka sebelum dan setelah presentasi Anda, maka Anda akan mulai memahami dampak yang Anda buat.
Jawaban "benar" akan tergantung pada pertanyaan-pertanyaan berikut:
Media apa yang akan Anda gunakan?
Apakah Anda membuat plot statis atau interaktif?
Apakah Anda mencoba menceritakan kisah yang sudah ditentukan (eksposisi) atau mendorong eksperimen (eksplorasi)?
Sampai sejauh mana Anda ingin audiens menarik kesimpulan sendiri?
Sampai sejauh mana Anda ingin penonton mengikuti dan diyakinkan oleh cerita Anda?
Sampai sejauh mana Anda ingin audiens menantang temuan Anda?
Singkatnya, rancang materi Anda dengan sengaja memberikan pesan, audiens, dan batasan Anda.
Satu hal yang sepertinya saya ingat disebutkan oleh Tufte, yang tidak ada dalam jawaban lain adalah pemetaan - yaitu, membuat posisi, arah, ukuran, dll. Pada grafik Anda mewakili kenyataan . Apa yang ada di grafik harus di dunia nyata. Apa yang besar harus besar (mengingat bahwa area harus mewakili area, dan volume volume. Jangan pernah mencoba untuk mewakili nilai skalar oleh suatu area, itu sangat ambigu!). Ini juga berlaku untuk warna, bentuk, dll, jika relevan.
Contoh yang menarik adalah grafik "seri rok" di sini: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Meskipun secara teknis itu benar, dan panjang rok "lebih tinggi" menempati posisi yang lebih tinggi pada grafik, itu sebenarnya cukup membingungkan, karena panjang rok dimulai dari atas , dan turun (tidak seperti manusia, atau pohon, di mana kami mengukur ketinggian dari tanah). Jadi peningkatan panjang rok sebenarnya mewakili nilai yang lebih rendah :
skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))
Seperti biasa, ada kesulitan. Sebagai contoh, kami umumnya mempertimbangkan waktu untuk bergerak maju, dan di barat, setidaknya, kami membaca dari kiri ke kanan, sehingga grafik deret waktu kami juga biasanya mengalir dari kiri ke kanan saat waktu bertambah. Jadi apa yang terjadi jika Anda ingin mewakili sesuatu yang paling baik diwakili secara lateral (mis. Pengukuran timur-barat terhadap sesuatu), dari waktu ke waktu? Dalam hal ini, Anda harus berkompromi, dan menggambarkan waktu naik atau turun (yang tergantung pada persepsi budaya, saya kira), atau memilih untuk memetakan variabel lateral Anda ke atas / bawah pada grafik Anda.
Itu tergantung pada cara plot akan dibahas.
Sebagai contoh, jika saya mengirimkan plot untuk pertemuan grup yang akan dilakukan dengan penelepon dari lokasi yang berbeda, saya lebih suka menempatkan mereka bersama di Powerpoint sebagai lawan dari Excel, jadi lebih mudah untuk membalik-balik.
Untuk panggilan teknis satu lawan satu, saya akan meletakkan sesuatu di excel sehingga klien dapat memindahkan plot ke samping, dan melihat data mentah. Atau, saya bisa memasukkan nilai-p ke dalam sel di sepanjang koefisien regresi sisi, misalnya
Perlu diingat: plot itu murah, terutama untuk peragaan slide, atau untuk mengirim email ke grup. Saya lebih suka membuat 10 plot jelas bahwa kita dapat membalik dari 5 plot di mana saya mencoba untuk menempatkan kohort yang berbeda (misalnya "pria dan wanita") pada grafik yang sama.
Saya ingin menambahkan bahwa pilihan plot harus mencerminkan jenis uji statistik yang digunakan untuk menganalisis data. Dengan kata lain, karakteristik data apa pun yang digunakan untuk analisis harus ditampilkan secara visual - sehingga Anda akan menunjukkan kesalahan rata-rata dan standar jika Anda menggunakan uji-t tetapi plot-kotak jika Anda menggunakan uji Mann-Whitney.