Mengeksplorasi hubungan antar variabel cukup samar, tetapi dua tujuan yang lebih umum untuk memeriksa sebar seperti ini saya kira adalah;
- Identifikasi kelompok laten yang mendasarinya (dari variabel atau kasus).
- Identifikasi pencilan (dalam ruang univariat, bivariat, atau multivarian).
Keduanya mengurangi data menjadi ringkasan yang lebih mudah dikelola, tetapi memiliki tujuan yang berbeda. Identifikasi kelompok laten yang biasanya mengurangi dimensi dalam data (misalnya melalui PCA) dan kemudian mengeksplorasi apakah variabel atau kasus berkumpul bersama dalam ruang yang diperkecil ini. Lihat misalnya Friendly (2002) atau Cook et al. (1995).
Mengidentifikasi pencilan dapat berarti menyesuaikan model dan merencanakan penyimpangan dari model (misalnya memplot residu dari model regresi) atau mengurangi data menjadi komponen utama dan hanya menyoroti titik-titik yang menyimpang baik dari model atau badan utama data. Misalnya plot kotak dalam satu atau dua dimensi biasanya hanya menunjukkan titik-titik individual yang berada di luar engsel (Wickham & Stryjewski, 2013). Memetakan residu memiliki sifat yang bagus sehingga plot harus rata (Tukey, 1977), sehingga bukti hubungan di cloud titik yang tersisa "menarik". Pertanyaan tentang CV ini memiliki beberapa saran yang sangat bagus untuk mengidentifikasi outlier multivarian.
Cara umum untuk mengeksplorasi SPLOMS yang besar adalah dengan tidak memplot semua poin individual, tetapi beberapa jenis ringkasan yang disederhanakan dan kemudian mungkin poin yang menyimpang sebagian besar dari ringkasan ini, misalnya elips kepercayaan diri, ringkasan scagnostic (Wilkinson & Wills, 2008), bivariat plot-kotak, plot kontur. Di bawah ini adalah contoh merencanakan elips yang mendefinisikan kovarians dan melapiskan loess lebih halus untuk menggambarkan hubungan linier.
(sumber: statmethods.net )
Either way, plot interaktif yang sukses dan nyata dengan begitu banyak variabel kemungkinan akan membutuhkan penyortiran cerdas (Wilkinson, 2005) dan cara sederhana untuk menyaring variabel (selain kemampuan menyikat / menghubungkan). Juga setiap dataset realistis akan perlu memiliki kemampuan untuk mengubah sumbu (misalnya plot data pada skala logaritmik, mengubah data dengan mengambil root dll.). Semoga berhasil, dan jangan hanya bertahan dengan satu plot!
Kutipan
- Masak, Dianne, Andreas Buja, Javier Cabrera & Catherine Hurley. 1995. Tur besar dan pengejaran proyeksi. Jurnal Statistik Komputasi dan Grafik 4 (3): 155-172.
- Ramah, Michael. 2002. Corrgrams: Layar eksplorasi untuk matriks korelasi. Ahli Statistik Amerika 56 (4): 316-324. Pracetak PDF .
- Tukey, John. 1977. Analisis Data Eksplorasi. Addison-Wesley. Membaca, Misa.
- Wickham, Hadley & Lisa Stryjewski. 2013. 40 tahun plot kotak .
- Wilkinson, Leland & Graham Wills. 2008. Distribusi Scagnostic. Jurnal Statistik Komputasi dan Grafik 17 (2): 473-491.
- Wilkinson, Leland. 2005. The Grammar of Graphics . Peloncat. New York, NY.