Sunting III: Saya menemukan contoh cantik dari visualisasi data kuantitatif multivariabel, dan harus menambahkannya. Anda akan menemukannya di bawah judul "Sunting III (pemenang Hadiah Nobel)".
Edit II: ada sedikit kesalahpahaman, dan saya telah mengedit untuk mencoba menjelaskan bagaimana saya mengartikan penggunaan data yang dimaksudkan. Saya telah mengganti dua gambar dan menambahkan bagian "Apakah Anda ingin kentang goreng dengan itu?"
Grafik mengungkapkan data.
Edward Tufte:
Kekacauan dan kebingungan adalah kegagalan desain bukan atribut informasi. Clutter membutuhkan solusi desain, bukan pengurangan konten. Cukup sering, semakin detail, kejelasan dan pemahaman yang lebih besar, karena makna dan penalaran tanpa henti KONTEKSTUAL. Kurang membosankan.
Mengapa kita memvisualisasikan data?
- Alat untuk berpikir
- Untuk menunjukkan hasil penglihatan yang intens
- Untuk memahami masalah, membuat keputusan
- Tunjukkan perbandingan, tunjukkan kausalitas
- Berikan alasan untuk percaya
Bagaimana?
- perlihatkan data
- mendorong penonton untuk berpikir tentang substansi daripada tentang metodologi, desain grafis, teknologi produksi grafis atau sesuatu yang lain
- hindari mendistorsi apa yang dikatakan data
- menyajikan banyak angka dalam ruang kecil
- membuat set data yang besar koheren
- dorong mata untuk membandingkan bagian data yang berbeda
- mengungkapkan data pada beberapa tingkat detail, dari tinjauan luas hingga struktur halus.
- melayani tujuan yang cukup jelas: deskripsi, eksplorasi, tabulasi, atau dekorasi.
- diintegrasikan dengan deskripsi statistik dan verbal dari suatu set data.
Beberapa definisi:
Data:
secara umum dianggap sebagai "barang yang disortir dalam database". Ini tentu saja dapat berupa angka, gambar, suara, video dll. Data adalah apa yang dapat dikumpulkan, seringkali kuantitatif. Dalam bentuk mentahnya sulit dicerna; hanya dinding digit. Kamu tahu; Matriks . Secara umum, kita tidak memiliki database besar yang terdiri dari nol, untuk semua hal-hal yang kita tidak punya, bahkan jika kadang-kadang hal-hal yang kita tidak memiliki adalah hal yang paling informatif . Jadi untuk melihat apa yang tidak kita miliki, kita perlu untuk memvisualisasikan apa yang kita lakukan memiliki.
Informasi:
adalah apa yang dapat Anda ekstrak dari data . Dengan menampilkan data entah bagaimana, kita dapat memperoleh informasi . Salah satu contoh yang sering saya gunakan, adalah bahwa jika saya memberi Anda daftar negara-negara di dunia dan memberi tahu Anda bahwa ada dua yang hilang, kemungkinan besar Anda tidak akan menemukannya berdasarkan daftar itu. Namun, jika saya menampilkan ini dengan mewarnai semua negara yang saya miliki di peta, Anda akan langsung melihat saya telah menghilangkan Republik Afrika Tengah dan Kaledonia Baru. Ini adalah "mengurangi kebisingan" dan menceritakan kisah dengan cara seefektif mungkin.
Visualisasi data dan infografis:
Saya ragu untuk menyebut contoh infografis Anda. Saya tahu ini sering dilihat sebagai sinonim dengan visualisasi data, desain informasi, atau arsitektur informasi, tetapi saya tidak setuju. Infografis - bagi saya - adalah serangkaian grafik, diagram, dan ilustrasi yang mungkin berisi banyak pernyataan bias tentang cara membaca data. Itu kurang objektif, lebih rentan untuk melewatkan data yang tidak dalam "kepentingan" pencipta: Anda dibimbing ke arah kesimpulan bahwa seseorang telah ditentukan sebelumnya. Mereka memiliki nilai hiburan, dan mereka sering menggunakan ilustrasi yang berlebihan yang menghilangkan fokus dari data. Ini baik-baik saja tetapi saya pikir kita harus membedakan sedikit.
Contohnya
Data besar:
Ingatlah bahwa big data tidak sama dengan data kompleks. Banyak data bisa sama, seperti peta LinkedIn ini: data intinya sama, tetapi ada filter (dengan memberi tag). Ada dua variabel: geografi dan semacam tag yang mendefinisikan orang menjadi profesi / minat / hubungan. Jumlah data yang gila; tetapi hanya dua variabel.
Multivariabel:
Berikut adalah contoh visualisasi data multivariabel. Ini adalah bagan 1869 milik Charles Minard yang menunjukkan jumlah orang dalam pasukan kampanye Rusia Napoleon tahun 1812, gerakan mereka, serta suhu yang mereka temui di jalur pulang.
Versi besar di sini.
Butuh sedikit waktu untuk memecahkan kode, tetapi ketika Anda melakukannya sangat bagus. Variabel yang dibahas adalah:
- ukuran tentara (jumlah yang hidup / mati)
- lokasi geografis
- arah (timur - barat)
- suhu
- waktu (tanggal)
- sebab akibat (meninggal dalam pertempuran dan kedinginan)
Itu adalah jumlah informasi yang luar biasa dalam peta sederhana berwarna dua. Bagian geografis bergaya untuk memberikan ruang kepada variabel lain, tapi kami tidak punya masalah mendapatkannya.
Ini yang lebih rumit. Ini akan jauh lebih mudah dibaca jika Anda terbiasa dengan visualisasi evolusi dasar, cladograms, filogenik dan prinsip-prinsip biogeografi. Ingatlah ini dibuat untuk orang-orang yang akrab dengan ini, jadi ini adalah grafik khusus dan ilmiah. Inilah yang ditunjukkannya: Gambar filogeografis garis keturunan katak racun dari Amerika Selatan. Peta di sebelah kiri menunjukkan wilayah biogeografi utama saat mereka berubah melalui waktu dan gambar di sebelah kanan menunjukkan garis keturunan katak dalam konteks asal biogeografis mereka. (Oleh Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R, dkk. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], melalui Wikimedia Commons). Ketika Anda "memecahkan kode" itu liar, sangat informatif.
Kelipatan kecil, grafik mini:
Saya tidak bisa cukup menekankan hal ini: tidak pernah meremehkan nilai pengulangan informasi, atau membaginya menjadi visualisasi identik yang terpisah. Selama cukup mudah untuk membandingkan satu grafik dengan yang lain, ini tidak masalah. Kami adalah mesin pencari pola. Ini sering disebut sebagai kelipatan kecil. Kami memiliki beberapa masalah dalam menganalisis gambar-gambar ini dengan cukup cepat, dan menjejalkan semuanya ke dalam satu grafik besar seringkali tidak ada gunanya ketika sepuluh yang kecil akan bekerja lebih baik:
Yang lainnya:
Dan yang menggunakan grafik yang berbeda tetapi berulang:
Sparklines adalah istilah yang diciptakan oleh Edward Tufte, dan juga dikembangkan menjadi
perpustakaan javascript yang berfungsi penuh dan dapat disesuaikan sepenuhnya. Mereka pada dasarnya bagan kecil yang dapat disisipkan dalam teks, sebagai bagian dari teks dan bukan sebagai objek "eksternal". Seperti apa bentuk defaultnya:
Sunting III (pemenang Hadiah Nobel)
Saya hanya perlu menambahkan visualisasi data yang saya temukan, ini terlalu bagus: ini menunjukkan pemenang Hadiah Nobel. Apa universitas, apa fakultas, subjek, tahun, usia, kota asal, apakah itu dibagikan, tingkat gelar. Bukti yang indah memang. Ini semua adalah data yang dapat diukur. Lebih lanjut di sini.
Data Anda
Semua pertanyaan yang diajukan @Javi sangat penting.
Apa yang Anda coba lakukan adalah menciptakan alat visual untuk berpikir. Untuk melakukannya, Anda harus mengekstraksi rasio signal to noise kualitas terbaik. Apa yang Anda perjuangkan adalah bagaimana menghubungkan data yang memiliki variabel yang berbeda, menjadi informasi . Berikut adalah pertanyaan: apa yang perlu kira-kira benar dan apa yang harus tepat benar? Apa tujuannya?
Saya akan berasumsi bahwa Anda ingin menampilkan data tanpa terlalu banyak bias: Anda ingin pembaca untuk menemukan korelasi sendiri, jika ada korelasi yang bisa didapat. Tujuan Anda bukan untuk memberi tahu orang-orang bahwa burger itu buruk bagi mereka atau bahwa wanita makan burger lebih sedikit daripada pria, tetapi untuk membiarkan mereka "melihatnya", jika itu yang ada dalam data (bayangkan jika ketiga orang itu adalah keluarga. ayunkan pandangan kita pada grafik makan burger secara keseluruhan).
Dataset Anda sangat kecil, Anda cukup meletakkan semuanya di dalam tabel dan akan baik-baik saja. Tapi tentu saja ini tentang ide umum:
Sedikit detail: waktu (umur) cenderung menjadi sesuatu yang kita lihat horizontal dari kiri ke kanan (garis waktu). Bobot sesuatu yang naik-turun, jadi mengganti x - y adalah ide yang bagus.
1. Apa yang unik, entitas tetap?
2. apa variabel variabel (eh ..)?
- Berat (kg)
- Usia (tahun)
- Jumlah burger (bilangan bulat)
- Jenis burger (bilangan bulat)
Catatan: data Anda seluruhnya terdiri dari unit. Dihitung, dapat dihitung masing-masing pada skala mental yang terpisah. Kilo, usia, berat, dan angka. Dan dalam berbicara di database, nama mereka adalah kuncinya. Ketika Anda mulai membuat visualisasi ruang-waktu, itu menjadi sakit kepala nyata. Bayangkan Anda harus menambahkan tempat lahir, rumah saat ini, dll.
Satu-satunya dua di sini yang memiliki korelasi adalah jumlah burger dan apakah itu combo. Semua variabel lainnya independen, dan hanya satu yang diperbaiki (nama). Pada titik tertentu, dengan kumpulan data besar, bahkan nama menjadi tidak menarik, dan akan digantikan oleh demografi, usia, jenis kelamin, atau sejenisnya.
Dengan dataset kecil itu, Anda bisa mendapatkan semuanya dalam satu grafik, misalnya seperti ini:
Atau Anda dapat mengubah mengubah konten sumbu dan gelembung nama:
Catatan pribadi: Saya pikir ini adalah yang terbaik dari keduanya, karena x dan y mengandung sifat "fisik" manusia. Variabel dalam gelembung di sini adalah jumlah burger.
Anda juga bisa menambahkan diagram lingkaran sebagai tambahan pada grafik, atau bahkan hanya memiliki diagram lingkaran. Secara pribadi saya akan memiliki keduanya, seperti yang disebutkan tentang kelipatan kecil:
Apakah Anda ingin kentang goreng dengan itu?
Asumsi saya adalah bahwa kami juga ingin tahu perbandingan burger dengan makanan. Setiap makanan mengandung burger. Tidak semua makanan adalah kombinasi.
- apakah kita hanya ingin tahu apakah seseorang kadang makan combomeals?
- atau apakah kita ingin tahu berapa banyak makanan burger juga combomeals?
Jika 1., boolean yang diterapkan pada nama / kunci / id akan dilakukan.
Jane terkadang makan combomeals? Benar salah.
Jika 2., kita bisa menerapkan boolean untuk setiap makanan:
1 burger keju, kombinasi = benar
1 burger keju, kombinasi = benar
1 burger keju, kombinasi = salah
1 burger keju, kombinasi = salah
1 burger keju, kombinasi = salah
1 burger keju, kombinasi = salah
1 burger keju, kombinasi = salah
1 beefburger, combomeal = true
1 beefburger, combomeal = true
1 beefburger, combomeal = false
Itu sangat membosankan, sehingga kami bisa memecahnya menjadi:
Jane makan 10 burger. Dari jumlah tersebut, tiga adalah kombo ("Anda mau kentang goreng dengan itu?").
Salah satu combomeals adalah menu beefburger.
Dua combomeals adalah menu cheeseburger.
Sisanya adalah burger tunggal. 5 keju, dua daging sapi.
Piechart ini adalah upaya untuk memvisualisasikan itu. Saya miliki dalam versi ini menyimpan irisan pai untuk membuatnya lebih jelas. Masalahnya adalah tidak ada lompatan untuk mulai menerapkan kumpulan data besar dan%:
Tapi saya pikir cara terbaik adalah memikirkan kembali.
Cara lain untuk melihatnya, adalah melakukannya dengan sangat sederhana. Di sini lebih mudah untuk melihat kelompok umur apa, kelompok berat apa dan semua data yang Anda tidak "miliki" dapat memberi tahu kami. Data yang Anda miliki tidak terkait ruang, ini hanya satuan (kg, tahun, angka + kunci / id / nama):
(Sunting: Telur di wajah saya: Saya telah mengganti gambar-gambar ini dengan yang lebih benar, seperti "semua makanan adalah burger, tidak semua makanan adalah kombo")
Ini akan cukup mudah untuk diperluas dengan lebih banyak orang:
Atau, bahkan lebih baik, jika Anda membandingkan kelompok usia 10, 20 dan 30 tahun, Anda dapat membuat visualisasi statistik yang cukup sederhana untuk dibaca:
..Dan hanya untuk menjadi sejelas mungkin; berikut adalah contoh cara berpikir ini. Bagan ini menunjukkan para penyintas Titanic, rasio kru, kelas, pria, wanita.
Akan ada banyak solusi lain, ini hanya beberapa pemikiran.
Saya bisa terus dan terus, tetapi sekarang saya sudah kelelahan dan mungkin orang lain.
Alat untuk bermain:
ya Tuhan
Gapminder Lihat
presentasi TED yang fenomenal dari Hans Rosling ini - cintai pria itu
Grafik Google
somvis
Raphaël
Pameran MIT (sebelumnya bernama Similie)
d3
Highchart
Bacaan lebih lanjut:
PJ Onori; Bertahan keras
Edward Tufte: Bukti indah
Edward Tufte: Membayangkan informasi
Edward Tufte: Tampilan visual informasi kuantitatif
Penjelasan Visual: Gambar dan Kuantitas, Bukti dan Narasi
Laki-laki, Alan., 2007 Ilustrasi perspektif teoretis dan kontekstual Lausanne, Swiss; New York, NY: AVA Academia
Isles, C. & Roberts, R., 1997. Dalam cahaya tampak, fotografi dan klasifikasi dalam seni, sains dan sehari-hari, Museum seni modern Oxford.
Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Bacaan dalam Visualisasi Informasi: Menggunakan Vision to Think 1st ed., Morgan Kaufmann.
Grafton, A. & Rosenberg, D., 2010. Kartografi Waktu: A History of the Timeline, Princeton Architectural Press.
Lima, M., 2011. Kompleksitas Visual: Pemetaan Pola Informasi, Princeton Architectural Press.
Bounford, T., 2000. Diagram Digital: Cara Mendesain dan Menyajikan Informasi Statistik Secara Efektif 0 ed., Watson-Guptill.
Steele, J. & Iliinsky, N. eds., 2010. Visualisasi Cantik: Melihat Data melalui Mata Pakar edisi pertama, O'Reilly Media.
Gleick, J., 2011. Informasi: A History, a Theory, a Flood, Pantheon