Mengapa disesuaikan R-kuadrat kurang dari R-kuadrat jika disesuaikan R-kuadrat memprediksi model yang lebih baik?


15

Sejauh yang saya mengerti, menjelaskan seberapa baik model memprediksi pengamatan. Adjusted R 2 adalah salah satu yang memperhitungkan lebih banyak pengamatan (atau derajat kebebasan). Jadi, Adjusted R 2 memprediksi model lebih baik? Lalu mengapa ini kurang dari R 2 ? Tampaknya sering harus lebih.R2R2R2R2

Jawaban:


30

menunjukkan hubungan linear antara variabel independen dan variabel dependen. Ini didefinisikan sebagai 1 - S S ER2 yang merupakan jumlah kesalahan kuadrat dibagi dengan jumlah total kuadrat. SSTO=SSE+SSRyang merupakan kesalahan total dan jumlah total dari kotak regresi. Ketika variabel independen ditambahkan,SSRakan terus naik (dan karenaSSTOsudah pasti)SSEakan turun danR2akan terus naik terlepas dari seberapa berharganya variabel yang Anda tambahkan.1āˆ’SSESSTOSSTO=SSE+SSRSSRSSTOSSER2

Adjusted berusaha menjelaskan penyusutan statistik. Model dengan banyak prediktor cenderung berkinerja lebih baik dalam sampel daripada saat diuji di luar sampel. R 2 yang disesuaikan "menghukum" Anda karena menambahkan variabel prediktor tambahan yang tidak meningkatkan model yang ada. Ini dapat membantu dalam pemilihan model. Adjusted R 2 akan sama dengan R 2 untuk satu variabel prediktor. Ketika Anda menambahkan variabel, itu akan lebih kecil dari R 2 .R2R2R2R2R2


Tidak jelas, bagaimana R square yang disesuaikan mencapai properti runcing. Artinya, apa rumusnya dan bagaimana itu menyebabkan sifat-sifatnya?
Alexey Voytenko

Adj R ^ 2 = 1 - ((n -1) / (n - k -1)) (1 - R ^ 2)
mountainclimber

Di mana k = # variabel bebas, n = # pengamatan
mountainclimber

mencoba menjelaskan penyusutan statistik - mungkin karena kelebihan beban?
Richard Hardy

-1

R ^ 2 menjelaskan proporsi variasi dalam variabel dependen Anda (Y) yang dijelaskan oleh variabel independen Anda (X) untuk model regresi linier.

Sementara adjusted R ^ 2 mengatakan proporsi variasi dalam variabel dependen Anda (Y) dijelaskan oleh lebih dari 1 variabel independen (X) untuk model regresi linier.


1
Perbedaan yang Anda buat antara "variabel independen" dan "lebih dari 1 variabel independen" tidak jelas. Juga, mengutip Andy dari bawah, "Anda tidak benar-benar menambahkan informasi baru ke apa yang disediakan sebelumnya."
Amuba mengatakan Reinstate Monica

-2

R-Squared meningkat bahkan ketika Anda menambahkan variabel yang tidak terkait dengan variabel dependen, tetapi R-Squared yang disesuaikan berhati-hati karena akan berkurang setiap kali Anda menambahkan variabel yang tidak terkait dengan variabel dependen, jadi setelah merawat kemungkinan untuk mengurangi.


3
Mengingat bahwa pertanyaan ini sudah memiliki jawaban yang diterima, ini seharusnya lebih berupa komentar. Anda tidak benar-benar menambahkan informasi baru ke apa yang disediakan sebelumnya.
Andy
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.