Saya bertanya-tanya bagaimana cara menyimpulkan varians dari variabel menggunakan boxplot. Apakah paling tidak mungkin untuk menyimpulkan jika dua variabel memiliki varians yang sama mengamati boxplot mereka?
Saya bertanya-tanya bagaimana cara menyimpulkan varians dari variabel menggunakan boxplot. Apakah paling tidak mungkin untuk menyimpulkan jika dua variabel memiliki varians yang sama mengamati boxplot mereka?
Jawaban:
Bukan tanpa banyak asumsi ketat, tidak. Jika Anda menganggap jawabannya adalah ya (alih-alih bertanya, yang saya beri tepuk tangan), saya bertaruh saya bisa membodohi Anda dengan contoh (kontra) ini:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Terlihat sangat mirip, bukan? Namun !
Dalam hal tidak jelas dari kode, populasi 2
adalah:
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
Dan tidak, Anda tidak dapat menyimpulkan bahwa populasi ini normal hanya karena persis simetris. Berikut plot populasi QQ 2
:
Tentu tidak terlihat normal bagi saya.
Edit - Tanggapan untuk komentar Anda:
Varians adalah statistik numerik. Jika varian dua distribusi secara harfiah sama, cukup banyak yang dapat Anda katakan tentang itu. Jika dua distribusi benar - benar normal , sekali lagi, ada definisi matematika yang cocok untuk keduanya. Jika dua distribusi tidak persis normal atau sama dalam varians, Anda tidak boleh mengatakan sebaliknya. Jika Anda ingin mengatakan mereka kira - kira sama atau normal, Anda mungkin harus mendefinisikan "perkiraan cukup" dengan cara yang disesuaikan dengan tujuan Anda, yang belum Anda tentukan di sini. Sensitivitas terhadap perbedaan distribusi sangat bervariasi di seluruh analisis yang biasanya memotivasi pertanyaan seperti milik Anda. Sebagai contoh,itu cukup kuat untuk pelanggaran yang terakhir diberikan ukuran sampel yang sama ), jadi saya tidak akan merekomendasikan tes itu untuk membandingkan populasi saya 2
dengan populasi 1
(distribusi normal).
Ini telah dijawab dengan baik. Komentar tambahan ini agak terlalu panjang (PEMBARUAN: sekarang terlalu lama) untuk dikomentari.
Secara ketat, semua yang dapat Anda baca dari bungkusan kotak tentang variabilitas distribusi adalah kisaran interkuartilnya (panjang atau tinggi kotak) dan kisaran (panjang atau tinggi antara ekstrem tampilan).
Sebagai perkiraan, plot kotak yang tampaknya identik cenderung memiliki varian yang sangat mirip, tetapi hati-hati. Petak kotak dengan posisi atau ekor kotak yang sangat berbeda (atau keduanya) paling tidak mungkin memiliki varian yang serupa, tetapi itu bukan tidak mungkin. Tetapi bahkan jika plot kotak terlihat identik, Anda tidak mendapatkan informasi dalam plot kotak polos atau vanila tentang variabilitas di dalam kotak atau memang variabilitas dalam kumis (garis-garis yang sering ditunjukkan antara kotak dan titik data dalam 1,5 IQR dari kuartil yang lebih dekat) . NB beberapa varian plot kotak ada; penulis sering miskin mendokumentasikan aturan yang tepat digunakan oleh perangkat lunak mereka.
Popularitas plot kotak memiliki harganya. Petak kotak bisa sangat berguna untuk menampilkan fitur-fitur kasar dari banyak grup atau variabel (katakanlah 20 atau 30, terkadang bahkan lebih). Seperti yang biasa digunakan untuk membandingkan katakanlah 2 atau 3 kelompok, mereka oversold, dalam pandangan saya, karena plot lainnya dapat menunjukkan lebih banyak detail secara cerdas dalam ruang yang sama. Secara alami, ini secara luas jika tidak dihargai secara universal, dan berbagai peningkatan plot kotak menunjukkan lebih detail.
Pekerjaan serius dengan varian memerlukan akses ke data asli.
Ini adalah sikat yang luas, dan lebih banyak detail dapat ditambahkan. Misalnya, posisi median di dalam kotak terkadang memberikan sedikit informasi lebih lanjut.
MEMPERBARUI
Saya kira lebih banyak orang yang tertarik pada penggunaan (dan keterbatasan) plot kotak pada umumnya daripada pertanyaan spesifik untuk menyimpulkan varians dari plot kotak (yang jawabannya singkat adalah "Anda tidak bisa, kecuali secara tidak langsung, kira-kira, dan kadang-kadang "), jadi saya akan menambahkan komentar lebih lanjut tentang alternatif, seperti yang diminta oleh @Christian Sauer.
Histogram yang digunakan dengan bijaksana seringkali masih kompetitif. Teks pengantar klasik modern oleh Freedman, Pisani dan Purves menggunakan semuanya.
Apa yang dikenal sebagai plot titik atau strip (grafik) (dan dengan banyak nama lain) mudah dipahami. Poin identik dapat ditumpuk, setelah binning jika diinginkan. Anda dapat menambahkan median dan kuartil, atau interval mean dan kepercayaan diri, ke isi hati Anda.
Tampaknya, plot-plot kuantitas merupakan rasa yang diperoleh tetapi dalam beberapa hal paling serbaguna. Di sini saya sertakan plot nilai-nilai yang diurutkan lagi probabilitas kumulatif (posisi plot) serta plot kuantil yang akan lurus jika data yang dianggap distribusi "nama-merek" (normal, eksponensial, gamma, apa pun). (Ucapan terima kasih kepada @Scortchi untuk referensi ke "merek-nama" seperti yang digunakan oleh CJ Geyer.)
Tetapi daftar yang komprehensif tidak mungkin. (Saya akan menambahkan, misalnya, bahwa kadang-kadang, representasi batang dan daun tepat untuk melihat detail penting dalam data, seperti ketika preferensi digit merajalela.) Prinsip utamanya adalah bahwa jenis plot distribusi terbaik memungkinkan yang tampaknya mustahil, persepsi struktur halus dalam data yang mungkin menarik atau penting (modalitas, granularitas, outlier, dll.) serta struktur kasar (level, spread, skewness, dll.).
Plot kotak tidak sama baiknya dalam menunjukkan semua jenis struktur. Mereka tidak bisa, dan tidak dimaksudkan untuk menjadi. Patut ditandai bahwa JW Tukey dalam analisis data Exploratory Reading, MA: Addison-Wesley (1977) memberikan contoh data bimodal dari Rayleigh yang plot kotak mengaburkan struktur utama sepenuhnya. Sebagai ahli statistik yang hebat, dia sangat menyadari bahwa plot kotak tidak selalu jawabannya.
Sebuah praktik aneh, tersebar luas dalam teks pengantar, sedang membahas ANOVA sambil mengundang pembaca untuk melihat plot kotak, yang menunjukkan median dan kuartil, bukan berarti dan varians (bukan SD). Tentu saja, melihat data jauh lebih baik daripada tidak melihat, tetapi meskipun demikian, representasi grafis yang lebih tepat bisa dibilang beberapa plot dari data mentah dengan sarana pas +/- beberapa kelipatan SE yang sesuai.
Pendekatan naif:
Dan tentang membandingkan varians dengan boxplot: kotak yang lebih luas berarti varian yang lebih besar, tetapi itu memberi Anda pemahaman eksplorasi, dan Anda harus memperhitungkan juga kumis dan pencilan. Untuk konfirmasi Anda harus menggunakan kontras hipotesis.