Apakah ada alasan apa yang dapat saya pikirkan, untuk mengubah data dengan akar kuadrat? Maksud saya yang selalu saya amati adalah bahwa R ^ 2 meningkat. Tapi ini mungkin hanya karena memusatkan data! Pikiran apa pun dihargai!
Apakah ada alasan apa yang dapat saya pikirkan, untuk mengubah data dengan akar kuadrat? Maksud saya yang selalu saya amati adalah bahwa R ^ 2 meningkat. Tapi ini mungkin hanya karena memusatkan data! Pikiran apa pun dihargai!
Jawaban:
Secara umum, regresi parametrik / GLM mengasumsikan bahwa hubungan antara variabel dan setiap variabel adalah linier, bahwa residu setelah Anda memasang model mengikuti distribusi normal dan bahwa ukuran residu tetap hampir sama sepanjang jalan. di sepanjang garis Anda yang terpasang. Ketika data Anda tidak sesuai dengan asumsi ini, transformasi dapat membantu.
Harus intuitif bahwa jika sebanding dengan maka kuadrat-rooting Y linierisasi hubungan ini, mengarah ke model yang lebih sesuai dengan asumsi dan yang menjelaskan lebih banyak varian (memiliki R 2 yang lebih tinggi ). Square rooting Y juga membantu ketika Anda memiliki masalah bahwa ukuran residu Anda semakin meningkat seiring dengan nilai X Andameningkat (yaitu penyebaran titik data di sekitar garis yang dipasang akan lebih ditandai saat Anda bergerak di sepanjang itu). Pikirkan bentuk fungsi akar kuadrat: awalnya meningkat tajam tetapi kemudian jenuh. Jadi menerapkan transformasi akar kuadrat mengembang jumlah yang lebih kecil tetapi menstabilkan yang lebih besar. Jadi, Anda dapat menganggapnya sebagai mendorong residu kecil pada nilai rendah dari garis pas dan menekan residu besar pada nilai tinggi ke arah garis. (Ini adalah singkatan mental bukan matematika yang tepat!)
Seperti Dmitrij dan ocram katakan, ini hanyalah satu kemungkinan transformasi yang akan membantu dalam keadaan tertentu, dan alat-alat seperti rumus Box-Cox dapat membantu Anda memilih yang paling berguna. Saya akan menyarankan kebiasaan untuk selalu melihat plot residu terhadap nilai-nilai pas (dan juga plot probabilitas normal atau histogram residual) ketika Anda cocok dengan model. Anda akan menemukan bahwa Anda pada akhirnya akan dapat melihat dari jenis transformasi apa yang akan membantu.
Namun ini nilai tetap apriori bisa (dan mungkin) tidak optimal. Di R, Anda dapat mempertimbangkan fungsi dari car
pustaka powerTransform
yang membantu memperkirakan nilai optimal untuk transformasi Box-Cox untuk setiap variabel yang berpartisipasi dalam regresi linier atau data apa pun yang bekerja dengan Anda (lihat example(powerTransform)
detail selengkapnya).
Ketika variabel mengikuti distribusi Poisson, hasil transformasi akar kuadrat akan lebih dekat ke Gaussian.
Matriks jarak yang dihitung dengan Bray-Curtis biasanya tidak metrik untuk beberapa data, sehingga menimbulkan nilai eigen negatif. Salah satu solusi untuk mengatasi masalah ini adalah mentransformasikannya (logaritmik, akar kuadrat atau akar kuadrat ganda) itu.