Masalah utama di sini adalah sifat bias variabel yang dihilangkan . Negara Wikipedia:
Dua kondisi harus benar untuk bias variabel dihilangkan untuk ada dalam regresi linier:
- variabel yang dihilangkan harus menjadi penentu variabel dependen (yaitu, koefisien regresi sejatinya bukan nol); dan
- variabel yang dihilangkan harus dikorelasikan dengan satu atau lebih variabel independen yang disertakan (yaitu cov (z, x) tidak sama dengan nol).
Sangat penting untuk memperhatikan kriteria kedua. Beta Anda hanya akan bias dalam kondisi tertentu. Secara khusus, jika ada dua variabel yang berkontribusi terhadap respons yang berkorelasi satu sama lain, tetapi Anda hanya memasukkan salah satu dari mereka, maka (pada dasarnya) efek keduanya akan dikaitkan dengan variabel yang dimasukkan, menyebabkan bias dalam estimasi parameter itu. Jadi mungkin hanya beberapa beta Anda yang bias, belum tentu semuanya.
Kemungkinan lain yang mengganggu adalah bahwa jika sampel Anda tidak mewakili populasi (yang jarang benar-benar), dan Anda menghilangkan variabel yang relevan, bahkan jika itu tidak berkorelasi dengan variabel lain, ini dapat menyebabkan pergeseran vertikal yang bias estimasi Anda dari mencegat. Misalnya, bayangkan sebuah variabel,Z, meningkatkan tingkat respons, dan bahwa sampel Anda diambil dari bagian atas Z distribusi, tetapi Ztidak termasuk dalam model Anda. Kemudian, estimasi respons rata-rata populasi Anda (dan intersepsi) akan menjadi bias tinggi terlepas dari kenyataan ituZtidak berkorelasi dengan variabel lain. Selain itu, ada kemungkinan bahwa ada interaksi antaraZdan variabel dalam model Anda. Ini juga dapat menyebabkan bias tanpaZdikorelasikan dengan variabel Anda (saya membahas ide ini dalam jawaban saya di sini .)
Sekarang, mengingat bahwa dalam keadaan setimbang, semuanya pada akhirnya berkorelasi dengan semua yang ada di dunia, kita mungkin menemukan ini semua sangat mengganggu. Memang, ketika melakukan penelitian observasional, yang terbaik adalah selalu menganggap bahwa setiap variabel adalah endogen .
Namun, ada batas untuk ini (lih . Ketimpangan Cornfield ). Pertama, melakukan percobaan yang benar memecah korelasi antara variabel fokus (pengobatan) dan variabel penjelas yang relevan, tetapi tidak teramati. Ada beberapa teknik statistik yang dapat digunakan dengan data pengamatan untuk menjelaskan pembaur yang tidak teramati tersebut (secara prototipe: regresi variabel instrumental , tetapi juga yang lain).
Mengesampingkan kemungkinan-kemungkinan ini (mereka mungkin memang mewakili sebagian kecil pendekatan pemodelan), apa prospek jangka panjang untuk sains? Ini tergantung pada besarnya bias, dan volume penelitian eksplorasi yang dilakukan. Sekalipun jumlahnya agak tidak aktif, mereka mungkin sering berada di lingkungan itu, dan cukup dekat sehingga hubungan dapat ditemukan. Kemudian, dalam jangka panjang, peneliti dapat menjadi lebih jelas tentang variabel mana yang relevan. Memang, pemodel kadang-kadang secara eksplisit menukar bias yang meningkat untuk penurunan varians dalam distribusi sampling dari parameter mereka (cf, jawaban saya di sini ). Dalam jangka pendek, ada baiknya selalu mengingat kutipan terkenal dari Box:
Semua model salah, tetapi ada juga yang berguna.
Ada juga pertanyaan filosofis yang berpotensi lebih dalam di sini: Apa artinya perkiraan itu bias? Apa yang seharusnya menjadi jawaban yang 'benar'? Jika Anda mengumpulkan beberapa data pengamatan tentang hubungan antara dua variabel (hubungi merekaX & Y), yang Anda dapatkan pada akhirnya adalah korelasi marjinal antara kedua variabel tersebut. Ini hanya angka 'salah' jika Anda berpikir Anda melakukan sesuatu yang lain, dan mendapatkan hubungan langsung sebagai gantinya. Demikian juga, dalam sebuah studi untuk mengembangkan model prediksi, yang Anda pedulikan adalah apakah, di masa depan, Anda akan dapat secara akurat menebak nilai yang tidak diketahui.Y dari yang dikenal X. Jika Anda bisa, tidak masalah jika itu (sebagian) karenaX berkorelasi dengan Z yang berkontribusi pada nilai yang dihasilkan Y. Anda ingin dapat memprediksiY, dan kamu bisa.
samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.
itulah yang benar-benar apa yang Anda maksudkan atau lakukan beberapa kalimat Anda terputus. Anda juga salah mengeja dalam judul pertanyaan.