Untuk menjawab pertanyaan pertama , pertimbangkan modelnya
Y=X+sin(X)+ε
dengan iid dengan rerata nol dan terbatas. Ketika kisaran (dianggap sebagai tetap atau acak) meningkat, pergi ke 1. Namun demikian, jika varian kecil (sekitar 1 atau kurang), data "terasa non-linear." Dalam plot, .X R 2 ε v a r ( ε ) = 1εXR2εvar(ε)=1
Kebetulan, cara mudah untuk mendapatkan adalah dengan mengiris variabel independen menjadi rentang sempit. Regresi (menggunakan model yang persis sama ) dalam setiap rentang akan memiliki rendah bahkan ketika regresi penuh berdasarkan semua data memiliki . Merenungkan situasi ini adalah latihan yang informatif dan persiapan yang baik untuk pertanyaan kedua.R 2 R 2R2R2R2
Kedua plot berikut menggunakan data yang sama. The untuk regresi penuh 0.86. The untuk iris (lebar 1/2 dari -5/2 ke 5/2) adalah 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,12, 0,01 , 0,00, membaca dari kiri ke kanan. Jika ada, cocok menjadi lebih baik dalam situasi irisan karena 10 garis terpisah dapat lebih dekat dengan data dalam rentang sempit mereka. Meskipun untuk semua irisan jauh di bawah penuh , baik kekuatan hubungan, yang linearitas , atau memang setiap aspek dari data (kecuali kisaran yang digunakan untuk regresi) telah berubah.R 2 R 2 R 2 XR2R2R2R2X
(Orang mungkin keberatan bahwa prosedur pemotongan ini mengubah distribusi Itu benar, tetapi bagaimanapun sesuai dengan penggunaan paling umum dalam pemodelan efek tetap dan mengungkapkan sejauh mana memberitahu kita tentang varians dalam situasi efek-acak. Secara khusus, ketika dibatasi bervariasi dalam interval yang lebih kecil dari kisaran alami, biasanya akan turun.)R 2 R 2 X X R 2XR2R2XXR2
Masalah mendasar dengan adalah bahwa hal itu tergantung pada terlalu banyak hal (bahkan ketika disesuaikan dalam regresi berganda), tetapi sebagian besar terutama pada varians dari variabel independen dan varians dari residual. Biasanya itu tidak memberitahu kita apa - apa tentang "linearitas" atau "kekuatan hubungan" atau bahkan "kebaikan cocok" untuk membandingkan urutan model.R2
Sebagian besar waktu Anda dapat menemukan statistik yang lebih baik daripada . Untuk pemilihan model, Anda dapat melihat ke AIC dan BIC; untuk menyatakan kecukupan suatu model, lihatlah varian dari residual. R2
Ini akhirnya membawa kita ke pertanyaan kedua . Satu situasi di mana mungkin digunakan adalah ketika variabel independen diatur ke nilai standar, pada dasarnya mengendalikan efek varians mereka. Maka adalah benar-benar proksi untuk varian dari residual, sesuai standar. 1 - R 2R21−R2