1) Istilah regresi berasal dari fakta bahwa dalam model regresi linier sederhana yang biasa:
y=α+βx+ϵ
yxy^y¯xx¯
| y^- y¯| / sy< | x - x¯| / sx
Sebagai contoh jika kita menggunakan bingkai data BOD yang dibangun ke dalam R maka:
fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE
Untuk bukti, lihat: https://en.wikipedia.org/wiki/Regression_toward_the_mean
2) Istilah pada berasal dari fakta bahwa nilai-nilai yang dipasang adalah proyeksi dari variabel hasil ke subruang yang direntang oleh variabel prediktor (termasuk intersep) sebagaimana dijelaskan lebih lanjut dalam banyak sumber seperti http: //people.eecs.ku .edu / ~ jhuan / EECS940_S12 / slide / linearRegression.pdf .
Catatan
Mengenai komentar di bawah ini, apa yang dinyatakan oleh komentator adalah apa jawaban yang sudah dinyatakan di atas dalam bentuk rumus kecuali bahwa jawaban menyatakannya dengan benar. Bahkan, karena kesetaraan:
( y^- y¯) = β^( x - x¯)
| β| <1. Apa yang benar adalah bahwa variabel dependen rata-rata lebih sedikit standar deviasi dari rata-rata daripada prediktornya seperti yang dinyatakan dalam rumus dalam jawaban.
Dengan menggunakan data Galton yang merujuk komentar (yang tersedia dalam paket UsingR dalam R) saya menjalankan regresi dan sebenarnya kemiringannya adalah 0,646 sehingga rata-rata anak lebih dekat dengan rata-rata daripada orang tuanya dibandingkan dengan orang tuanya tetapi bukan kasus umum. Penggunaan regresi untuk mean saat ini didasarkan pada hubungan umum yang benar yang kami tunjukkan dalam jawaban. Dalam contoh yang ditunjukkan pada kode R dalam jawaban di atasb e t a > 1jadi tidak benar bahwa permintaan selalu lebih dekat dengan permintaan rata-rata daripada Waktu adalah dengan rata-rata Waktu dan kita dapat dengan mudah memeriksa secara numerik dalam contoh ini bahwa itu tidak selalu lebih dekat. Itu hanya benar jika kita mengukur kedekatan dalam penyimpangan standar seperti yang ditunjukkan oleh ketidaksetaraan jawaban.