Saya mengerti artinya bahwa model tersebut buruk dalam memprediksi titik data individu tetapi telah membentuk tren yang kuat (misalnya, y naik ketika x naik).
Saya mengerti artinya bahwa model tersebut buruk dalam memprediksi titik data individu tetapi telah membentuk tren yang kuat (misalnya, y naik ketika x naik).
Jawaban:
Ini berarti bahwa Anda dapat menjelaskan sebagian kecil dari varians dalam data. Misalnya, Anda dapat menetapkan bahwa gelar sarjana berdampak pada gaji, tetapi pada saat yang sama itu hanya faktor kecil. Ada banyak faktor lain yang mempengaruhi gaji Anda, dan kontribusi dari gelar sarjana sangat kecil, tetapi dapat dideteksi.
Dalam istilah praktis, ini bisa berarti bahwa secara rata-rata gelar sarjana menaikkan gaji $ 500 per tahun, sedangkan standar deviasi gaji orang adalah $ 10 ribu. Jadi, banyak orang berpendidikan tinggi memiliki gaji lebih rendah daripada tidak berpendidikan, dan nilai model prediksi Anda rendah.
Ini berarti "kesalahan tak tereduksi tinggi", yaitu, hal terbaik yang dapat kita lakukan (dengan model linier) terbatas. Misalnya, kumpulan data berikut:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
Catatan, trik dalam kumpulan data ini adalah bahwa dengan memberikan satu nilai , ada terlalu banyak nilai y yang berbeda , sehingga kita tidak dapat membuat prediksi yang baik untuk memuaskan semuanya. Pada saat yang sama, ada korelasi linear "kuat" antara x dan y . Jika kita cocok dengan model linier, kita akan mendapatkan koefisien yang signifikan, tetapi R kuadrat rendah.
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
Apa artinya regresi linier menjadi signifikan secara statistik tetapi memiliki r kuadrat yang sangat rendah?
Ini berarti bahwa ada hubungan linier antara variabel independen dan dependen, tetapi hubungan ini mungkin tidak layak untuk dibicarakan.
Namun, kebermaknaan hubungan itu sangat bergantung pada apa yang Anda periksa, tetapi secara umum, Anda dapat mengartikannya bahwa signifikansi statistik tidak boleh dikacaukan dengan relevansi.
Dengan ukuran sampel yang cukup besar, bahkan hubungan yang paling sepele dapat ditemukan signifikan secara statistik.
Cara lain untuk mengutarakan ini adalah bahwa itu berarti Anda dapat dengan yakin memprediksi perubahan pada tingkat populasi tetapi tidak pada tingkat individu. yaitu ada varians yang tinggi dalam data individu, tetapi ketika sampel yang cukup besar digunakan, efek yang mendasarinya dapat dilihat secara keseluruhan. Ini adalah salah satu alasan mengapa beberapa saran kesehatan pemerintah tidak membantu individu. Pemerintah kadang merasa perlu untuk bertindak karena mereka dapat melihat bahwa lebih banyak kegiatan menyebabkan lebih banyak kematian secara keseluruhan dalam populasi. Mereka menghasilkan saran atau kebijakan yang 'menyelamatkan' nyawa ini. Namun, karena varians yang tinggi dalam respon individu, seorang individu mungkin sangat tidak mungkin untuk melihat manfaat secara pribadi (atau, lebih buruk lagi, karena kondisi genetik tertentu, kesehatan mereka sendiri sebenarnya akan meningkat dari mematuhi saran yang berlawanan, tetapi ini tersembunyi dalam agregasi populasi). Jika individu memperoleh manfaat (misalnya kesenangan) dari aktivitas 'tidak sehat', mengikuti saran dapat berarti mereka melupakan kesenangan yang pasti ini sepanjang hidup mereka, namun sebenarnya tidak secara pribadi mengubah apakah mereka akan atau tidak akan menderita dari kondisi tersebut.