Pertanyaan Anda (ditambah komentar lebih lanjut dalam komentar) tampaknya sebagian besar tertarik pada kasus di mana kami memiliki uji coba terkontrol secara acak di mana peneliti secara acak menetapkan satu atau lebih variabel penjelas, berdasarkan pada beberapa desain pengacakan. Dalam konteks ini, Anda ingin tahu mengapa kami menggunakan model yang memperlakukan variabel penjelas sebagai konstanta yang diketahui, daripada memperlakukannya sebagai variabel acak dari distribusi sampel yang dikenakan oleh pengacakan. (Pertanyaan Anda lebih luas dari ini, tetapi ini tampaknya merupakan masalah yang paling menarik dalam komentar, jadi ini adalah yang akan saya bahas.)
Alasan kami mengkondisikan pada variabel penjelas, dalam konteks ini, adalah bahwa dalam masalah regresi untuk RCT, kami masih tertarik pada distribusi kondisional dari variabel respons yang diberikan oleh para prediktor . Memang, dalam RCT kami tertarik untuk menentukan efek kausal dari variabel penjelas X pada variabel respons Y , yang akan kami tentukan melalui inferensi tentang distribusi kondisional (tunduk pada beberapa protokol untuk mencegah perancu). Pengacakan dikenakan untuk memutus ketergantungan antara variabel penjelas X dan setiap variabel pembaur (yaitu, mencegah asosiasi pintu belakang). †† Namun, objek kesimpulan dalam masalah masih distribusi kondisional dari variabel respon yang diberikan variabel penjelas. Dengan demikian, masih masuk akal untuk memperkirakan parameter dalam distribusi kondisional ini, menggunakan metode estimasi yang memiliki sifat yang baik untuk menyimpulkan distribusi kondisional .
Itu adalah kasus normal yang berlaku untuk RCT menggunakan teknik regresi. Tentu saja, ada beberapa situasi di mana kita memiliki minat lain, dan kita mungkin memang ingin memasukkan ketidakpastian tentang variabel penjelas. Menggabungkan ketidakpastian dalam variabel penjelas umumnya terjadi dalam dua kasus:
(1) Ketika kita melampaui analisis regresi dan analisis multivariat, kita kemudian tertarik pada distribusi gabungan variabel penjelas dan respons, bukan hanya distribusi kondisional dari yang disebutkan terakhir. Mungkin ada aplikasi di mana ini adalah minat kami, dan kemudian kami akan melampaui analisis regresi, dan memasukkan informasi tentang distribusi variabel penjelas.
(2) Dalam beberapa aplikasi regresi, minat kami adalah pada distribusi kondisional dari variabel respon bersyarat pada variabel penjelas yang tidak diamati yang mendasarinya, di mana kami mengasumsikan bahwa variabel penjelas yang diamati mengalami kesalahan ("kesalahan-dalam-variabel"). Dalam hal ini kami memasukkan ketidakpastian melalui "kesalahan-dalam-variabel". Alasan untuk ini adalah bahwa kepentingan kami dalam kasus-kasus ini adalah dalam distribusi bersyarat , bersyarat pada variabel mendasar yang tidak teramati .
Perhatikan bahwa kedua kasus ini secara matematis lebih rumit daripada analisis regresi, jadi jika kita dapat menggunakan analisis regresi, itu umumnya lebih disukai. Bagaimanapun, dalam sebagian besar aplikasi analisis regresi, tujuannya adalah untuk membuat kesimpulan tentang distribusi kondisional dari respons, mengingat variabel penjelas yang dapat diamati, sehingga generalisasi ini menjadi tidak perlu.
† Perhatikan bahwa pengacakan memisahkan efek kausal dari variabel perancu ke variabel acak, tetapi itu tidak memutuskan efek kausal dari variabel acak ke variabel pengganggu, dan kemudian ke respons. Ini berarti bahwa protokol lain (misalnya, plasebo, blinding, dll.) Mungkin diperlukan untuk sepenuhnya memutuskan semua asosiasi pintu belakang dalam analisis kausal.