Pertama mari kita lihat apa yang biasanya terjadi ketika kita mengambil log dari sesuatu yang condong ke kanan.
Baris atas berisi histogram untuk sampel dari tiga distribusi yang berbeda dan semakin miring.
Baris bawah berisi histogram untuk log mereka.
yxz
Jika kami ingin distribusi kami terlihat lebih normal, transformasi pasti meningkatkan kasus kedua dan ketiga. Kita dapat melihat bahwa ini dapat membantu.
Jadi mengapa ini berhasil?
Perhatikan bahwa ketika kita melihat gambar bentuk distribusi, kita tidak mempertimbangkan mean atau standar deviasi - yang hanya mempengaruhi label pada sumbu.
Jadi kita bisa membayangkan melihat semacam variabel "standar" (sambil tetap positif, semua memiliki lokasi yang sama dan menyebar, katakanlah)
Mengambil log "menarik" nilai-nilai yang lebih ekstrim di sebelah kanan (nilai tinggi) relatif terhadap median, sedangkan nilai-nilai di paling kiri (nilai-nilai rendah) cenderung ditarik kembali, lebih jauh dari median.
xyz
y
Tetapi ketika kita mengambil kayu, kayu itu akan ditarik kembali ke median; setelah mengambil log itu hanya sekitar 2 rentang interkuartil di atas median.
y
Bukan kebetulan bahwa rasio 750/150 dan 150/30 keduanya 5 ketika log (750) dan log (30) berakhir dengan jarak yang sama dari median log (y). Begitulah cara kerja log - mengubah rasio konstan menjadi perbedaan konstan.
Tidak selalu halnya bahwa log akan sangat membantu. Sebagai contoh jika Anda mengambil mengatakan variabel acak lognormal dan menggesernya secara substansial ke kanan (yaitu menambahkan konstanta besar untuk itu) sehingga mean menjadi besar relatif terhadap standar deviasi, kemudian mengambil log itu akan membuat perbedaan yang sangat kecil untuk bentuk. Itu akan menjadi kurang miring - tetapi hampir tidak.
Tetapi transformasi lain - akar kuadrat, katakanlah - juga akan menarik nilai besar seperti itu. Mengapa log pada khususnya, lebih populer?
- 0,162
Banyak data ekonomi dan keuangan berperilaku seperti ini, misalnya (efek konstan atau hampir konstan pada skala persentase). Skala log masuk akal dalam hal ini. Selain itu, sebagai akibat dari efek skala-persentase. penyebaran nilai cenderung lebih besar dengan meningkatnya rata-rata - dan mengambil log juga cenderung menstabilkan penyebaran. Itu biasanya lebih penting daripada normalitas. Memang, ketiga distribusi dalam diagram asli berasal dari keluarga di mana deviasi standar akan meningkat dengan rata-rata, dan dalam setiap kasus mengambil log menstabilkan varians. [Tapi ini tidak terjadi dengan data miring yang benar. Ini sangat umum dalam jenis data yang muncul di area aplikasi tertentu.]
Ada juga saat-saat ketika akar kuadrat akan membuat segalanya lebih simetris, tetapi cenderung terjadi dengan distribusi yang kurang miring daripada yang saya gunakan dalam contoh saya di sini.
Kami dapat (cukup mudah) membangun satu set tiga contoh condong kanan yang lebih ringan, di mana akar kuadrat membuat satu condong ke kiri, satu simetris dan yang ketiga masih condong ke kanan (tetapi sedikit kurang condong dari sebelumnya).
Bagaimana dengan distribusi miring kiri?
Jika Anda menerapkan transformasi log ke distribusi simetris, itu akan cenderung membuatnya condong ke kiri karena alasan yang sama sering membuat condong ke kanan menjadi lebih simetris - lihat diskusi terkait di sini .
Sejalan dengan itu, jika Anda menerapkan transformasi log pada sesuatu yang sudah condong ke kiri, itu akan cenderung membuatnya lebih condong ke kiri, menarik hal-hal di atas median menjadi lebih erat, dan meregangkan hal-hal di bawah median ke bawah bahkan lebih keras.
Jadi transformasi log tidak akan membantu saat itu.
Lihat juga transformasi kekuatan / tangga Tukey. Distribusi yang dibiarkan miring dapat dibuat lebih simetris dengan mengambil kekuatan (lebih dari 1 - kuadrat katakan), atau dengan eksponensial. Jika memiliki batas atas yang jelas, seseorang dapat mengurangi pengamatan dari batas atas (memberikan hasil yang condong ke kanan) dan kemudian berusaha untuk mengubah itu.