Analisis regresi menjawab pertanyaan, "Apa nilai AVERAGE Y untuk mereka yang telah memberikan nilai X?" atau, dengan kata lain, "Berapa Y yang diprediksi akan berubah ON AVERAGE jika kita mengubah X dengan satu unit?" Kesalahan pengukuran acak tidak mengubah nilai rata-rata suatu variabel, atau nilai rata-rata untuk subset individu, sehingga kesalahan acak dalam variabel dependen tidak akan membiaskan estimasi regresi.
Katakanlah Anda memiliki data ketinggian pada sampel individu. Ketinggian ini diukur dengan sangat akurat, secara akurat mencerminkan perawakan sejati semua orang. Dalam sampel, rata-rata untuk pria adalah 175 cm dan rata-rata untuk wanita adalah 162 cm. Jika Anda menggunakan regresi untuk menghitung seberapa baik gender memprediksi ketinggian, Anda memperkirakan model
HEIGHT=CONSTANT+β∗GENDER+RESIDUAL
Jika wanita diberi kode 0 dan pria sebagai 1, adalah rata-rata wanita, atau 162 cm. Koefisien regresi menunjukkan berapa banyak perubahan ketinggian PADA RATA-RATA ketika Anda mengubah oleh satu unit (dari 0 ke 1). sama dengan 13 karena orang yang nilainya untuk adalah 0 (wanita) memiliki tinggi rata-rata 162 cm sedangkan orang yang nilai untuk adalah 1 (pria) memiliki tinggi rata-rata 175 cm; memperkirakan perbedaan rata-rata antara ketinggian pria dan wanita, yaitu 13 cm. ( mencerminkan variasi ketinggian berdasarkan gender.)β G E N D E R β G E N D E R G E N D E R β R E S I D U A LCONSTANTβGENDERβGENDERGENDERβRESIDUAL
Sekarang, jika Anda menambahkan secara acak -1 cm atau +1 cm ke ketinggian sebenarnya semua orang, apa yang akan terjadi? Individu yang tingginya sebenarnya, katakanlah, 170 cm sekarang akan dilaporkan berukuran 169 atau 171 cm. Namun, rata-rata sampel, atau subsampel apa pun, tidak akan berubah. Mereka yang tingginya sebenarnya 170 cm akan rata-rata 170 cm dalam dataset yang salah dan baru, wanita akan rata-rata 162 cm, dll. Jika Anda menjalankan kembali model regresi yang ditentukan di atas menggunakan dataset baru ini, nilai (yang diharapkan) dari tidak akan berubah karena perbedaan rata-rata antara pria dan wanita masih 13 cm, terlepas dari kesalahan pengukuran. (Kesalahan standar akan lebih besar dari sebelumnya karena varians dari variabel dependen sekarang lebih besar.)βββ
Jika ada kesalahan pengukuran dalam variabel independen dan bukan variabel dependen, akan menjadi estimasi yang bias. Ini mudah dipahami ketika Anda mempertimbangkan contoh ketinggian. Jika ada kesalahan pengukuran acak dalam variabel , beberapa pria akan salah dikodekan sebagai wanita dan sebaliknya. Efek dari ini adalah untuk mengurangi perbedaan gender yang jelas dalam tinggi, karena memindahkan laki-laki ke kelompok perempuan akan membuat rata-rata perempuan lebih besar sementara memindahkan perempuan ke kelompok laki-laki akan membuat laki-laki berarti lebih kecil. Dengan kesalahan pengukuran dalam variabel independen, akan lebih rendah dari nilai bias 13 cm. G E N D E R ββGENDERβ
Sementara saya menggunakan variabel bebas kategori ( ) untuk kesederhanaan di sini, logika yang sama berlaku untuk variabel kontinu. Misalnya, jika Anda menggunakan variabel kontinu seperti tinggi lahir untuk memprediksi tinggi orang dewasa, nilai yang diharapkan dari akan sama terlepas dari jumlah kesalahan acak dalam pengukuran tinggi orang dewasa.βGENDERβ