Apa perbedaan antara mengendalikan variabel dalam model regresi vs mengendalikan variabel dalam desain studi Anda?


11

Saya membayangkan bahwa mengendalikan variabel dalam desain studi Anda lebih efektif dalam mengurangi kesalahan daripada mengendalikannya setelah-hoc dalam model regresi Anda.

Akankah ada orang yang menjelaskan secara formal bagaimana dua contoh "mengendalikan" ini berbeda? Seberapa efektif mereka dalam mengurangi kesalahan dan menghasilkan prediksi yang lebih tepat?

Jawaban:


13

Dengan "mengendalikan variabel dalam desain studi Anda", saya berasumsi maksud Anda menyebabkan variabel menjadi konstan di semua unit studi atau memanipulasi variabel sehingga tingkat variabel itu ditetapkan secara independen untuk setiap unit studi. Artinya, mengendalikan variabel dalam desain studi Anda berarti Anda sedang melakukan eksperimen yang sebenarnya . Manfaat dari ini adalah dapat membantu dengan menyimpulkan kausalitas .

Secara teori, mengendalikan variabel dalam model regresi Anda juga dapat membantu dengan menyimpulkan kausalitas. Namun, ini hanya terjadi jika Anda mengontrol setiap variabel yang memiliki koneksi kausal langsung ke respons. Jika Anda menghilangkan variabel seperti itu (mungkin Anda tidak tahu untuk memasukkannya), dan itu berkorelasi dengan variabel lain mana pun, maka kesimpulan kausal Anda akan menjadi bias dan salah. Dalam praktiknya, kami tidak tahu semua variabel yang relevan, jadi kontrol statistik adalah upaya yang cukup tidak pasti yang bergantung pada asumsi besar yang tidak dapat Anda periksa.

Namun, pertanyaan Anda bertanya tentang "mengurangi kesalahan dan menghasilkan prediksi yang lebih tepat", bukan menyimpulkan hubungan sebab akibat. Ini masalah yang berbeda. Jika Anda membuat variabel yang diberikan konstan melalui desain studi Anda, semua variabilitas dalam respons karena variabel itu akan dihilangkan. Di sisi lain, jika Anda hanya mengontrol suatu variabel, Anda memperkirakan efeknya yang dapat menyebabkan kesalahan pengambilan sampel minimal. Dengan kata lain, kontrol statistik tidak akan sebagus, dalam jangka panjang, untuk mengurangi varians residual dalam sampel Anda.

Tetapi jika Anda tertarik untuk mengurangi kesalahan dan mendapatkan prediksi yang lebih tepat, mungkin Anda terutama peduli tentang sifat sampel, bukan ketepatan dalam sampel Anda. Dan di situlah letak masalahnya. Saat Anda mengontrol variabel dengan memanipulasinya dalam beberapa bentuk (menahannya konstan, dll.), Anda membuat situasi yang lebih artifisial daripada pengamatan asli dan alami. Artinya, eksperimen cenderung memiliki validitas eksternal / generalisasi kurang dari studi observasional.


Dalam kasus itu tidak jelas, contoh percobaan sejati yang memegang sesuatu yang konstan mungkin menilai perawatan dalam model tikus menggunakan tikus inbred yang semuanya identik secara genetik. Di sisi lain, contoh mengendalikan variabel mungkin mewakili riwayat keluarga penyakit dengan kode dummy dan termasuk variabel itu dalam model regresi berganda (lih., Bagaimana tepatnya satu "kontrol untuk variabel lain"?, Dan Bagaimana dapat menambahkan IV ke-2 membuat IV pertama menjadi signifikan? ).


1
Penjelasan hebat! @ung
Aaron Zeng
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.