Penghapusan bias variabel dalam regresi linier

Saya punya pertanyaan filosofis tentang bias variabel yang dihilangkan.

Kami memiliki model regresi yang khas (model populasi)

Y = β_{0} + β_{1} X_{1} + . . . + β_{n} X_{n} + υ,

$Y= \beta_0 + \beta_1X_1 + ... + \beta_nX_n + \upsilon,$ dari mana sampel berasal

(Y, X_{1}, . . ., X_{n})

$(Y,X_1,...,X_n)$ , dan kemudian banyak kondisi di mana perkiraan OLS berperilaku cukup baik.

Maka kita tahu bahwa, jika kita menghilangkan salah satu variabel utama, $X_k$ , ini mungkin bias estimasi $\beta_0, \beta_1, ..., \beta_{k-1}, \beta_{k+1}, ..., \beta_n$ . Ini akan mempengaruhi, setidaknya, efek yang diperkirakan dari sisa variabel $Y$ , dan juga tes hipotesis tentang $\beta_1, \beta_2, ...$ , karena nilai yang diprediksi tidak dapat diandalkan.

Masalahnya, kita tidak tahu variabel mana yang ada dalam model populasi yang sebenarnya. Sebagai gantinya, kami memiliki banyak kandidat yang darinya kami harus menganalisis dan menemukan subset yang paling tepat. Proses pemilihan variabel ini menggunakan perkiraan OLS dan tes hipotesis lagi. Berdasarkan itu, kami menolak atau memasukkan variabel yang berbeda. Tetapi karena setiap model kandidat menghilangkan variabel yang relevan (Anda tidak akan pernah dapat menemukan model yang benar), bukankah keputusan ini didasarkan pada hasil yang bias? Lalu mengapa kita harus mempercayai mereka?

(Saya sedang memikirkan metode stepwise maju, misalnya, di mana Anda memilih satu variabel lalu menambahkan sisanya. Anda membandingkan model melakukan inferensi, dan saya berpikir bahwa variabel yang dihilangkan dapat mengganggu segalanya.)

Saya tidak pernah terlalu khawatir tentang topik ini sampai saya mulai memikirkannya, dan saya yakin saya salah di suatu tempat.

— Josu Momediano
sumber

Pada bagian samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.itulah yang benar-benar apa yang Anda maksudkan atau lakukan beberapa kalimat Anda terputus. Anda juga salah mengeja dalam judul pertanyaan.

— Andy W

Ya, maksud saya itu. Anda memiliki sampel / pengamatan, dan kemudian kondisinya (Gauss-Markov), yang menjamin para penaksir untuk menjadi yang terbaik tanpa

— unbass

Sebagai catatan tambahan, metode pemilihan bertahap (seperti maju bertahap) sangat tidak mungkin untuk memilih model yang seharusnya Anda gunakan. Jika ini tidak masuk akal, Anda mungkin ingin membaca jawaban saya di sini: algoritma-untuk-pemilihan-model otomatis .

— gung - Reinstate Monica

Tapi apa pun metode yang Anda gunakan (termasuk keahlian), Anda mulai dari 0, dan Anda 100% memiliki masalah yang saya bicarakan ... Sepertinya ada bias variabel yang dihilangkan setiap saat

— Josu Momediano

Anda benar untuk khawatir. Banyak kesimpulan didasarkan pada asumsi bahwa kita memiliki model yang sebenarnya. Saya telah menjalankan regresi sejak lama dan saya tidak pernah memiliki model yang sebenarnya. Untuk tujuan saya, jarang masuk akal untuk berpikir bahwa ada satu model yang benar. Alih-alih, tanyakan pada diri Anda apa tujuan pemodelan Anda (prediksi dalam sampel, prediksi keluar dari sampel, memperkirakan efek kausal rata-rata x3, ringkasan data, dll.) Karena tujuan Anda akan menunjukkan strategi pemodelan mana yang terbaik.

— Michael Bishop

Masalah utama di sini adalah sifat bias variabel yang dihilangkan . Negara Wikipedia:

Dua kondisi harus benar untuk bias variabel dihilangkan untuk ada dalam regresi linier:

variabel yang dihilangkan harus menjadi penentu variabel dependen (yaitu, koefisien regresi sejatinya bukan nol); dan

variabel yang dihilangkan harus dikorelasikan dengan satu atau lebih variabel independen yang disertakan (yaitu cov (z, x) tidak sama dengan nol).

Sangat penting untuk memperhatikan kriteria kedua. Beta Anda hanya akan bias dalam kondisi tertentu. Secara khusus, jika ada dua variabel yang berkontribusi terhadap respons yang berkorelasi satu sama lain, tetapi Anda hanya memasukkan salah satu dari mereka, maka (pada dasarnya) efek keduanya akan dikaitkan dengan variabel yang dimasukkan, menyebabkan bias dalam estimasi parameter itu. Jadi mungkin hanya beberapa beta Anda yang bias, belum tentu semuanya.

Kemungkinan lain yang mengganggu adalah bahwa jika sampel Anda tidak mewakili populasi (yang jarang benar-benar), dan Anda menghilangkan variabel yang relevan, bahkan jika itu tidak berkorelasi dengan variabel lain, ini dapat menyebabkan pergeseran vertikal yang bias estimasi Anda dari mencegat. Misalnya, bayangkan sebuah variabel, $Z$ , meningkatkan tingkat respons, dan bahwa sampel Anda diambil dari bagian atas $Z$ distribusi, tetapi $Z$ tidak termasuk dalam model Anda. Kemudian, estimasi respons rata-rata populasi Anda (dan intersepsi) akan menjadi bias tinggi terlepas dari kenyataan itu $Z$ tidak berkorelasi dengan variabel lain. Selain itu, ada kemungkinan bahwa ada interaksi antara $Z$ dan variabel dalam model Anda. Ini juga dapat menyebabkan bias tanpa $Z$ dikorelasikan dengan variabel Anda (saya membahas ide ini dalam jawaban saya di sini .)

Sekarang, mengingat bahwa dalam keadaan setimbang, semuanya pada akhirnya berkorelasi dengan semua yang ada di dunia, kita mungkin menemukan ini semua sangat mengganggu. Memang, ketika melakukan penelitian observasional, yang terbaik adalah selalu menganggap bahwa setiap variabel adalah endogen .

Namun, ada batas untuk ini (lih . Ketimpangan Cornfield ). Pertama, melakukan percobaan yang benar memecah korelasi antara variabel fokus (pengobatan) dan variabel penjelas yang relevan, tetapi tidak teramati. Ada beberapa teknik statistik yang dapat digunakan dengan data pengamatan untuk menjelaskan pembaur yang tidak teramati tersebut (secara prototipe: regresi variabel instrumental , tetapi juga yang lain).

Mengesampingkan kemungkinan-kemungkinan ini (mereka mungkin memang mewakili sebagian kecil pendekatan pemodelan), apa prospek jangka panjang untuk sains? Ini tergantung pada besarnya bias, dan volume penelitian eksplorasi yang dilakukan. Sekalipun jumlahnya agak tidak aktif, mereka mungkin sering berada di lingkungan itu, dan cukup dekat sehingga hubungan dapat ditemukan. Kemudian, dalam jangka panjang, peneliti dapat menjadi lebih jelas tentang variabel mana yang relevan. Memang, pemodel kadang-kadang secara eksplisit menukar bias yang meningkat untuk penurunan varians dalam distribusi sampling dari parameter mereka (cf, jawaban saya di sini ). Dalam jangka pendek, ada baiknya selalu mengingat kutipan terkenal dari Box:

Semua model salah, tetapi ada juga yang berguna.

Ada juga pertanyaan filosofis yang berpotensi lebih dalam di sini: Apa artinya perkiraan itu bias? Apa yang seharusnya menjadi jawaban yang 'benar'? Jika Anda mengumpulkan beberapa data pengamatan tentang hubungan antara dua variabel (hubungi mereka $X$ & $Y$ ), yang Anda dapatkan pada akhirnya adalah korelasi marjinal antara kedua variabel tersebut. Ini hanya angka 'salah' jika Anda berpikir Anda melakukan sesuatu yang lain, dan mendapatkan hubungan langsung sebagai gantinya. Demikian juga, dalam sebuah studi untuk mengembangkan model prediksi, yang Anda pedulikan adalah apakah, di masa depan, Anda akan dapat secara akurat menebak nilai yang tidak diketahui. $Y$ dari yang dikenal $X$ . Jika Anda bisa, tidak masalah jika itu (sebagian) karena $X$ berkorelasi dengan $Z$ yang berkontribusi pada nilai yang dihasilkan $Y$ . Anda ingin dapat memprediksi $Y$ , dan kamu bisa.

— gung - Pasang kembali Monica
sumber