bisa negatif, itu hanya berarti bahwa:R2
- Model ini sangat cocok dengan data Anda
- Anda tidak mengatur intersep
Untuk orang-orang yang mengatakan bahwa adalah antara 0 dan 1, ini bukan masalahnya. Sementara nilai negatif untuk sesuatu dengan kata 'kuadrat' di dalamnya mungkin terdengar seperti melanggar aturan matematika, itu bisa terjadi dalam model R 2 tanpa intersep. Untuk memahami alasannya, kita perlu melihat bagaimana R 2 dihitung.R2R2R2
Ini agak panjang - Jika Anda ingin jawabannya tanpa memahaminya, maka lewati sampai akhir. Kalau tidak, saya sudah mencoba menulis ini dengan kata-kata sederhana.
Pertama, mari kita mendefinisikan 3 variabel: , T S S dan E S S .RSSTSSESS
Menghitung RSS :
Untuk setiap variabel independen , kami memiliki variabel dependen y . Kami memplot garis linier yang paling sesuai, yang memprediksi nilai y untuk setiap nilai x . Mari kita sebut nilai-nilai y garis memprediksi y . Kesalahan antara apa yang diprediksi garis Anda dan apa nilai y aktual dapat dikurangkan menjadi pengurangan. Semua perbedaan ini kuadrat dan ditambahkan, yang memberikan Residual Sum of Squares R S S .xyyxyy^yRSS
Puting yang menjadi persamaan, RSS=∑(y−y^)2
Menghitung TSS :
Kita dapat menghitung nilai rata-rata , yang disebut ˉ y . Jika kita memplot ˉ y , itu hanya garis horizontal melalui data karena konstan. Apa yang bisa kita lakukan dengannya adalah mengurangi ˉ y (nilai rata-rata y ) dari setiap nilai aktual y . Hasilnya adalah kuadrat dan ditambahkan bersama-sama, yang memberikan total jumlah kotak T S S .yy¯y¯y¯yyTSS
Puting yang menjadi persamaan TSS=∑(y−y¯)2
Menghitung ESS :
Perbedaan antara y (nilai y yang diprediksi oleh garis) dan nilai rata-rata ˉ y dikuadratkan dan ditambahkan. Ini adalah jumlah Dijelaskan kuadrat, yang sama dengan Σ ( y - ˉ y ) 2y^yy¯∑(y^−y¯)2
Ingat, , tapi kita bisa menambahkan + y - y ke dalamnya, karena membatalkan sendirinya. Oleh karena itu, T S S = Σ ( y - y + y - ˉ y ) 2 . Memperluas kurung ini, kita mendapatkan T S S = Σ ( y - y ) 2 +TSS=∑(y−y¯)2+y^−y^TSS=∑(y−y^+y^−y¯)2TSS=∑(y−y^)2+2∗∑(y−y^)(y^−y¯)+∑(y^−y¯)2
Jika, dan hanya ketika garis diplot dengan intercept, berikut adalah selalu benar: . Oleh karena itu, T S S = Σ ( y - y ) 2 + Σ ( y - ˉ y ) 2 , yang dapat Anda perhatikan hanya berarti bahwa T S S = R S S +2∗∑(y−y^)(y^−y¯)=0TSS=∑(y−y^)2+∑(y^−y¯)2TSS=RSS+ESS. If we divide all terms by TSS and rearrange, we get 1−RSSTSS=ESSTSS.
Here's the important part:
R2 is defined as how much of the variance is explained by your model (how good your model is). In equation form, that's R2=1−RSSTSS. Look familiar? When the line is plotted with an intercept, we can substitute this as R2=ESSTSS. Since both the numerator and demoninator are sums of squares, R2 must be positive.
BUT
When we don't specify an intercept, 2∗∑(y−y^)(y^−y¯) does not necessarily equal 0. This means that TSS=RSS+ESS+2∗∑(y−y^)(y^−y¯).
Dividing all terms by TSS, we get 1−RSSTSS=ESS+2∗∑(y−y^)(y^−y¯)TSS.
Finally, we substitute to get R2=ESS+2∗∑(y−y^)(y^−y¯)TSS. This time, the numerator has a term in it which is not a sum of squares, so it can be negative. This would make R2 negative. When would this happen? 2∗∑(y−y^)(y^−y¯) would be negative when y−y^ is negative and y^−y¯ is positive, or vice versa. This occurs when the horizontal line of y¯ actually explains the data better than the line of best fit.
Here's an exaggerated example of when R2 is negative (Source: University of Houston Clear Lake)
Put simply:
- When R2<0, a horizontal line explains the data better than your model.
You also asked about R2=0.
- When R2=0, a horizontal line explains the data equally as well as your model.
I commend you for making it through that. If you found this helpful, you should also upvote fcop's answer here which I had to refer to, because it's been a while.