Salah satu ukuran skewness didasarkan pada mean-median - koefisien skewness kedua Pearson .
Ukuran kemiringan lainnya didasarkan pada perbedaan kuartil relatif (Q3-Q2) vs (Q2-Q1) yang dinyatakan sebagai rasio
Ketika (Q3-Q2) vs (Q2-Q1) sebaliknya dinyatakan sebagai perbedaan (atau setara median midhinge), yang harus diskalakan untuk membuatnya berdimensi (seperti biasanya diperlukan untuk ukuran skewness), katakan oleh IQR, seperti di sini (dengan menempatkan ).u = 0,25
Ukuran yang paling umum tentu saja adalah kemiringan momen ketiga .
Tidak ada alasan bahwa ketiga tindakan ini harus konsisten. Salah satu dari mereka bisa berbeda dari dua lainnya.
Apa yang kita anggap "condong" adalah konsep yang agak licin dan tidak jelas. Lihat di sini untuk diskusi lebih lanjut.
Jika kami melihat data Anda dengan qqplot normal:
[Garis yang ditandai hanya berdasarkan pada 6 poin pertama saja, karena saya ingin membahas penyimpangan dua yang terakhir dari pola di sana.]
Kita melihat bahwa 6 poin terkecil terletak hampir sempurna di telepon.
Kemudian titik ke 7 berada di bawah garis (lebih dekat ke tengah relatif dari titik kedua yang sesuai dari ujung kiri), sedangkan titik kedelapan berada di atas.
Poin ke-7 menunjukkan kemiringan kiri ringan, kemiringan kanan terakhir yang lebih kuat. Jika Anda mengabaikan kedua titik, kesan miring sepenuhnya ditentukan oleh yang lain.
Jika saya harus mengatakan itu salah satu atau yang lain, saya akan menyebutnya "condong ke kanan" tetapi saya juga akan menunjukkan bahwa kesan itu sepenuhnya karena efek dari satu titik yang sangat besar. Tanpa itu benar-benar tidak ada yang bisa dikatakan itu benar miring. (Di sisi lain, tanpa titik ke-7 sebagai gantinya, itu jelas tidak miring.)
Kita harus sangat berhati-hati ketika kesan kita sepenuhnya ditentukan oleh satu titik, dan dapat diputar balik dengan menghilangkan satu titik. Tidak banyak yang bisa dilanjutkan!
Saya mulai dengan premis bahwa apa yang membuat outlier 'outlying' adalah modelnya (apa outlier yang berkaitan dengan satu model mungkin cukup tipikal di bawah model lain).
Saya pikir pengamatan pada persentil atas 0,01 (1/10000) dari normal (3,72 sds di atas rata-rata) sama-sama merupakan pencilan dari model normal karena pengamatan pada 0,01 persentil atas dari distribusi eksponensial adalah dengan model eksponensial. (Jika kita mengubah distribusi dengan probabilitas integralnya sendiri, masing-masing akan pergi ke seragam yang sama)
Untuk melihat masalah dengan menerapkan aturan boxplot ke distribusi kemiringan yang cukup tepat, simulasikan sampel besar dari distribusi eksponensial.
Misalnya jika kita mensimulasikan sampel ukuran 100 dari normal, kita rata-rata kurang dari 1 outlier per sampel. Jika kita melakukannya dengan eksponensial, kita rata-rata sekitar 5. Tetapi tidak ada dasar nyata untuk mengatakan bahwa proporsi yang lebih tinggi dari nilai eksponensial adalah "terluar" kecuali kita melakukannya dengan membandingkan (katakanlah) model normal. Dalam situasi tertentu kita mungkin memiliki alasan khusus untuk memiliki aturan outlier dari beberapa bentuk tertentu, tetapi tidak ada aturan umum, yang membuat kita dengan prinsip-prinsip umum seperti yang saya mulai dengan subbagian ini - untuk memperlakukan setiap model / distribusi pada lampu sendiri. (jika suatu nilai tidak biasa sehubungan dengan suatu model, mengapa menyebutnya sebagai pencilan dalam situasi itu?)
Untuk beralih ke pertanyaan dalam judul :
Meskipun ini adalah instrumen yang cukup kasar (itulah sebabnya saya melihat plot-QQ) ada beberapa indikasi kemiringan dalam plot-kotak - jika ada setidaknya satu titik yang ditandai sebagai pencilan, ada kemungkinan (setidaknya) tiga:
Dalam sampel ini (n = 100), titik terluar (hijau) menandai ekstrem, dan dengan median menunjukkan kemiringan kiri. Kemudian pagar (biru) menyarankan (bila dikombinasikan dengan median) menyarankan kemiringan yang benar. Kemudian engsel (kuartil, coklat), menyarankan kemiringan kiri bila dikombinasikan dengan median.
Seperti yang kita lihat, mereka tidak harus konsisten. Di mana Anda akan fokus tergantung pada situasi Anda (dan mungkin preferensi Anda).
Namun, peringatan betapa kasarnya boxplot itu. Contoh menjelang akhir di sini - yang mencakup deskripsi tentang cara menghasilkan data - memberikan empat distribusi yang sangat berbeda dengan plot box yang sama:
Seperti yang Anda lihat ada distribusi yang cukup miring dengan semua indikator kemiringan yang disebutkan di atas menunjukkan simetri sempurna.
-
Mari kita ambil ini dari sudut pandang "jawaban apa yang guru Anda harapkan, mengingat bahwa ini adalah boxplot, yang menandai satu titik sebagai pencilan?".
Kami pergi dengan menjawab pertama "apakah mereka mengharapkan Anda untuk menilai kemiringan tidak termasuk titik itu, atau dengan itu dalam sampel?". Beberapa akan mengecualikannya, dan menilai kemiringan dari apa yang tersisa, seperti yang dilakukan Jsk dalam jawaban lain. Sementara saya telah memperdebatkan aspek pendekatan itu, saya tidak bisa mengatakan itu salah - itu tergantung pada situasinya. Beberapa akan memasukkannya (paling tidak karena mengecualikan 12,5% dari sampel Anda karena aturan yang berasal dari normal tampaknya merupakan langkah besar *).
* Bayangkan distribusi populasi yang simetris kecuali untuk ekor paling kanan (saya membuat satu seperti itu dalam menjawab ini - normal tetapi dengan ekor kanan ekstrim Pareto - tetapi tidak hadir dalam jawaban saya). Jika saya menggambar sampel ukuran 8, seringkali 7 pengamatan berasal dari bagian yang tampak normal dan satu berasal dari ekor atas. Jika kami mengecualikan poin yang ditandai sebagai boxplot-outliers dalam kasus itu, kami mengecualikan poin yang memberi tahu kami bahwa itu sebenarnya miring! Ketika kami melakukannya, distribusi terpotong yang tetap dalam situasi itu condong ke kiri, dan kesimpulan kami akan menjadi kebalikan dari yang benar.