Saya berharap koefisien korelasi akan sama dengan kemiringan regresi (beta), namun setelah membandingkan keduanya, mereka berbeda. Bagaimana mereka berbeda - informasi berbeda apa yang mereka berikan?
Saya berharap koefisien korelasi akan sama dengan kemiringan regresi (beta), namun setelah membandingkan keduanya, mereka berbeda. Bagaimana mereka berbeda - informasi berbeda apa yang mereka berikan?
Jawaban:
Dengan asumsi Anda sedang berbicara tentang model regresi sederhana diperkirakan oleh kuadrat terkecil, kita tahu dari wikipedia bahwa Oleh karena itu kedua hanya bertepatan ketika . Artinya, mereka hanya bertepatan ketika dua variabel berada pada skala yang sama, dalam beberapa hal. Cara paling umum untuk mencapai ini adalah melalui standarisasi, seperti yang ditunjukkan oleh @gung.
Keduanya, dalam beberapa hal memberi Anda informasi yang sama - masing-masing memberi tahu Anda kekuatan hubungan linear antara dan . Tapi, mereka masing-masing memberi Anda informasi yang berbeda (kecuali, tentu saja, ketika mereka persis sama):
Korelasi memberi Anda pengukuran terbatas yang dapat diartikan secara independen dari skala dua variabel. Semakin dekat perkiraan korelasi adalah untuk , semakin dekat keduanya untuk hubungan linear sempurna . Kemiringan regresi, secara terpisah, tidak memberi tahu Anda informasi itu.
Kemiringan regresi memberikan kuantitas yang berguna diartikan sebagai perkiraan perubahan nilai yang diharapkan dari untuk nilai tertentu . Secara khusus, memberi tahu Anda perubahan nilai yang diharapkan dari sesuai dengan peningkatan 1 unit di . Informasi ini tidak dapat disimpulkan dari koefisien korelasi saja.
Dengan regresi linier sederhana (yaitu, hanya 1 kovariat), kemiringan sama dengan Pearson jika kedua variabel distandarisasi terlebih dahulu. (Untuk informasi lebih lanjut, Anda mungkin menemukan jawaban saya di sini bermanfaat.) Ketika Anda melakukan regresi berganda, ini bisa lebih rumit karena multikolinieritas , dll.
The koefisien korelasi mengukur "sesak" hubungan linear antara dua variabel dan dibatasi antara -1 dan 1, inklusif. Korelasi mendekati nol tidak menunjukkan hubungan linier antara variabel, sedangkan korelasi mendekati -1 atau +1 menunjukkan hubungan linear yang kuat. Secara intuitif, semakin mudah bagi Anda untuk menggambar garis yang paling cocok melalui sebar, semakin berkorelasi mereka.
The slope regresi mengukur "kecuraman" dari hubungan linear antara dua variabel dan dapat mengambil nilai apapun dari untuk . Kemiringan mendekati nol berarti bahwa variabel respons (Y) berubah secara perlahan ketika variabel prediktor (X) berubah. Kemiringan yang lebih jauh dari nol (baik dalam arah negatif atau positif) berarti respons berubah lebih cepat ketika prediktor berubah. Secara intuitif, jika Anda menggambar garis yang paling cocok melalui sebar, semakin curam itu, semakin jauh kemiringan Anda dari nol.
Jadi koefisien korelasi dan kemiringan regresi HARUS memiliki tanda yang sama (+ atau -), tetapi hampir tidak akan pernah memiliki nilai yang sama.
Untuk kesederhanaan, jawaban ini mengasumsikan regresi linier sederhana.
Koefisien korelasi Pearson tidak berdimensi dan diskalakan antara -1 dan 1 terlepas dari dimensi dan skala variabel input.
Jika (misalnya) Anda memasukkan massa dalam gram atau kilogram, tidak ada bedanya dengan nilai , sedangkan ini akan membuat perbedaan yang luar biasa pada gradien / kemiringan (yang memiliki dimensi dan diskalakan sesuai ... demikian juga, itu tidak ada bedanya dengan jika skala disesuaikan dengan cara apa pun, termasuk menggunakan pound atau ton sebagai gantinya).
Peragaan sederhana (permintaan maaf karena menggunakan Python!):
import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]
menunjukkan bahwa meskipun kemiringan telah meningkat sebesar faktor 10.
Saya harus mengakui bahwa ini adalah trik yang rapi yang harus diskalakan antara -1 dan 1 (salah satu kasus di mana pembilang tidak pernah dapat memiliki nilai absolut lebih besar dari penyebut).
Seperti @Macro telah merinci di atas, kemiringan , jadi Anda benar dalam intuisi bahwa Pearson terkait dengan kemiringan, tetapi hanya jika disesuaikan menurut ke standar deviasi (yang secara efektif mengembalikan dimensi dan skala!).
Pada awalnya saya pikir itu aneh bahwa rumus tampaknya menyarankan garis yang dipasang longgar ( rendah ) menghasilkan gradien yang lebih rendah; kemudian saya memplot contoh dan menyadari bahwa diberi gradien, memvariasikan hasil "kelonggaran" dalam menurun tetapi ini diimbangi dengan peningkatan proporsional dalam .
Dalam bagan di bawah ini, empat dataset diplot:
Dapat dilihat bahwa varians mempengaruhi tanpa perlu mempengaruhi , dan satuan ukuran dapat mempengaruhi skala dan dengan demikian tanpa mempengaruhi