Sepasang variabel mungkin menunjukkan korelasi parsial yang tinggi (korelasi menghitung dampak variabel lain) tetapi korelasi rendah - atau bahkan nol - marjinal (korelasi berpasangan).
Yang berarti bahwa korelasi berpasangan antara respons, y dan beberapa prediktor, x mungkin bernilai kecil dalam mengidentifikasi variabel yang sesuai dengan (linear) nilai "prediktif" di antara sekumpulan variabel lain.
Pertimbangkan data berikut:
y x
1 6 6
2 12 12
3 18 18
4 24 24
5 1 42
6 7 48
7 13 54
8 19 60
Korelasi antara y dan x adalah . Jika saya menggambar garis kuadrat terkecil, itu horisontal sempurna dan R 2 secara alami akan menjadi 0 .0R20
Tetapi ketika Anda menambahkan variabel baru g, yang menunjukkan dari dua kelompok mana observasi berasal, x menjadi sangat informatif:
y x g
1 6 6 0
2 12 12 0
3 18 18 0
4 24 24 0
5 1 42 1
6 7 48 1
7 13 54 1
8 19 60 1
The dari model regresi linier dengan baik x dan g variabel di dalamnya akan 1.R2
Mungkin saja hal seperti ini terjadi dengan setiap variabel dalam model - bahwa semua memiliki korelasi berpasangan yang kecil dengan respons, namun model dengan mereka semua di sana sangat baik dalam memprediksi respons.
Bacaan tambahan:
https://en.wikipedia.org/wiki/Omitted-variable_bias
https://en.wikipedia.org/wiki/Simpson%27s_paradox